AI가 컴퓨터를 인간보다 잘 쓰는 시대가 왔다

75.0% 대 72.4%, 주인이 바뀌었다

GPT-5.4 컴퓨터 사용 — AI가 데스크톱 조작에서 인간 기준선을 넘어섰다

OSWorld-Verified라는 벤치마크가 있다. 데스크톱 환경에서 실제 업무를 수행하는 능력을 측정한다. 파일을 열고, 폴더를 정리하고, 브라우저에서 정보를 찾아 스프레드시트에 정리하는 것 같은 일이다. 인간이 이 벤치마크에서 기록한 점수는 **72.4%**다.

2026년 3월 5일, OpenAI가 출시한 GPT-5.4는 같은 벤치마크에서 **75.0%**를 찍었다. 전 모델 GPT-5.2의 47.3%에서 27.7%p를 끌어올린 수치다. 숫자 자체보다 의미가 크다. AI가 컴퓨터를 사용하는 능력에서 사람을 넘어선 첫 번째 사례다. 코드를 짜는 능력이 아니라, 마우스를 클릭하고 키보드를 누르는 능력에서다.

불과 1년 전만 해도 AI의 컴퓨터 사용은 실험 단계였다. 2024년 10월 Anthropic이 Claude 3.5 Sonnet에 computer use 베타를 붙였을 때, 반응은 "신기하지만 쓸 수는 없다"였다. GPT-5.2는 OSWorld에서 47.3%에 머물렀다. 그런데 한 세대 만에 인간을 넘었다.

코드 모드와 스크린샷 모드

GPT-5.4의 컴퓨터 사용은 두 가지 방식으로 작동한다. 하나는 코드 모드, 다른 하나는 스크린샷 모드다.

코드 모드는 Python과 Playwright를 사용한다. 브라우저를 프로그래밍 방식으로 제어한다. 웹사이트에서 로그인하고, 폼을 채우고, 데이터를 추출하고, 파일을 다운로드한다. 사람이 보기에는 브라우저가 혼자 움직이는 것처럼 보인다. 이 모드는 반복적이고 구조화된 작업에 강하다. 정밀도가 높고 속도가 빠르다.

스크린샷 모드는 다르다. 화면을 찍고, 이미지를 분석하고, 마우스와 키보드 명령을 내린다. 사람이 컴퓨터 앞에 앉아서 하는 것과 같은 방식이다. 브라우저뿐 아니라 데스크톱 애플리케이션, 운영체제 설정, 파일 매니저까지 모두 조작할 수 있다. API가 없는 레거시 시스템도 화면만 보이면 다룰 수 있다는 뜻이다.

두 모드의 조합이 핵심이다. 구조화된 웹 작업은 코드 모드로 빠르게 처리하고, 예외적인 UI나 레거시 앱은 스크린샷 모드로 대응한다. 인간 사무직 노동자가 키보드 단축키와 마우스 클릭을 번갈아 쓰는 것과 비슷한 패턴이다.

엑셀에 들어간 ChatGPT

스프레드시트와 데이터 분석 화면 — GPT-5.4는 엑셀 셀 안에서 직접 작업한다

GPT-5.4와 함께 ChatGPT for Excel 베타가 출시됐다. 스프레드시트 안에 AI가 들어간 것이다. 셀 범위를 읽고, 수식을 작성하고, 다단계 분석을 실행한다. 별도의 프롬프트 창이 아니라, 엑셀 통합 문서 안에서 직접 작동한다.

OpenAI의 내부 벤치마크에서 GPT-5.4는 주니어 투자은행 애널리스트 수준의 스프레드시트 모델링에서 **87.3%**를 기록했다. GPT-5.2는 **68.4%**였다. DCF 분석, 어닝스 프리뷰, 비교 분석, 투자 메모 같은 작업이다. 한 세대 만에 19%p가 올랐다.

금융 데이터 통합도 같이 발표됐다. ChatGPT 안에서 Moody's, Dow Jones Factiva, MSCI, Third Bridge, MT Newswire의 데이터에 직접 접근할 수 있게 됐다. FactSet도 곧 추가된다. 블룸버그 터미널을 열지 않아도 기관 투자자급 데이터 피드를 쓸 수 있다는 뜻이다.

ChatGPT for Excel은 미국, 캐나다, 호주에서 먼저 출시됐고, ChatGPT Business, Enterprise, Education, Pro, Plus 사용자가 이용할 수 있다. Google Sheets 버전은 "coming soon"이다. Enterprise와 Education 워크스페이스에서는 기본값이 비활성화 상태이고, 관리자가 제어한다.

이 방향이 시사하는 바가 있다. OpenAI는 더 이상 개발자만 겨냥하지 않는다. 월스트리트의 엑셀을 먹으러 갔다.

인간을 넘은 벤치마크들

GPT-5.4의 성적표를 보면 패턴이 선명하다. 인간 기준선을 넘긴 영역과 아직 못 넘긴 영역이 뚜렷이 갈린다.

벤치마크	GPT-5.2	GPT-5.4	인간 기준선	인간 초과 여부
OSWorld-Verified	47.3%	75.0%	72.4%	초과
스프레드시트 모델링	68.4%	87.3%	-	-
BrowseComp (웹 검색)	65.8%	82.7%	-	-
GDPval (지식 업무)	70.9%	83.0%	-	-
SWE-bench Pro (코딩)	55.6%	57.7%	-	미달
WebArena-Verified	65.4%	67.3%	-	-

OSWorld에서 75.0% 대 인간 72.4%는 단순한 숫자 비교가 아니다. 이 벤치마크는 실제 데스크톱 환경에서 파일 관리, 앱 조작, 다중 앱 간 데이터 이동 같은 작업을 측정한다. 사무직 노동자의 일상 업무와 직결되는 평가다.

반면 SWE-bench Pro에서는 55.6%에서 57.7%로 고작 2.1%p 올랐다. 코딩은 여전히 인간 수준에 한참 못 미친다. AI가 잘하는 것과 못하는 것이 분명해지고 있다. 코드를 짜는 것은 어렵고, 컴퓨터를 조작하는 것은 쉽다. 적어도 벤치마크에서는 그렇다.

100만 토큰과 47%의 토큰 절약

GPT-5.4의 컨텍스트 윈도우는 100만 토큰이다. GPT-5.3의 40만 토큰에서 2.5배 확장됐다. 긴 문서를 통째로 넣거나, 에이전트가 장시간 작업하면서 컨텍스트를 유지하는 데 쓸 수 있다.

다만 제약이 있다. 27만 2천 토큰을 초과하면 입력 비용이 2배, 출력 비용이 1.5배로 뛴다. 100만 토큰을 쓸 수는 있지만, 비싸다.

비용을 줄이는 장치도 함께 나왔다. Tool Search라는 새 기능이다. MCP(Model Context Protocol) 서버 36개, 250개 작업 기준으로 정확도를 유지하면서 토큰 사용량을 47% 절감했다. 에이전트가 수십 개의 도구를 사용하는 환경에서, 매번 모든 도구 정의를 컨텍스트에 넣는 대신 필요한 것만 검색해서 가져오는 방식이다.

컴퓨터 앞에서 작업하는 모습 — AI가 사람 대신 데스크톱 작업을 수행하는 시대가 시작됐다

API 가격도 공개됐다. GPT-5.4 기본 모델은 입력 $2.50/1M 토큰**, 출력 **$ 15/1M 토큰이다. 캐시 입력은 $0.25로 10분의 1 수준이다. 반복적인 에이전트 작업에서 캐시 적중률이 높다면 상당한 절감이 된다.

GPT-5.4 Pro는 입력 $30**, 출력 **$ 180이다. 일반 버전의 12배다. Pro는 GPQA Diamond에서 94.4%, ARC-AGI-2에서 83.3%, BrowseComp에서 **89.3%**를 기록한다. 최고 성능이 필요한 기업용이다.

사이버보안 "고위험" 등급을 받았다

GPT-5.4 Thinking은 OpenAI의 Preparedness Framework에서 사이버보안 "High Capability" 등급을 받았다. 이 등급의 의미는 "기존 사이버공격의 진입 장벽을 제거할 수 있는" 수준이라는 것이다. OpenAI 스스로 인정한 것이다.

이건 컴퓨터 사용 기능과 직결된다. 스크린샷을 읽고 마우스를 클릭할 수 있다는 것은, 웹사이트를 탐색하고 계정에 로그인하고 파일을 내려받는 행위를 자동화할 수 있다는 뜻이다. 업무 자동화에 쓰이는 같은 기술이 피싱, 소셜 엔지니어링, 데이터 수집에도 쓰일 수 있다.

OpenAI는 이에 대한 대응으로 실시간 메시지 차단 시스템을 도입했다. 두 단계로 작동한다. 먼저 주제 분류기가 메시지를 분석하고, 그다음 AI 보안 분석가가 추가 검토한다. 고위험 요청은 비동기적으로 차단된다. GPT-5.4는 GPT-5.2 대비 허위 주장이 33% 감소하고, 전체 응답 오류가 18% 감소했다.

더 정확하면서 동시에 더 위험하다. 이 역설은 컴퓨터 사용 AI의 본질적 딜레마다. 컴퓨터를 잘 쓰는 AI는, 컴퓨터를 나쁜 목적으로도 잘 쓸 수 있다.

Anthropic과의 경쟁이 달라졌다

컴퓨터 사용이라는 카테고리를 먼저 연 것은 Anthropic이다. Claude 3.5 Sonnet이 2024년 10월에 computer use 베타를 출시했다. OpenAI는 약 1년 반 뒤에야 범용 모델에 이 기능을 탑재했다. 하지만 OSWorld-Verified 점수로만 보면, GPT-5.4의 75.0%는 현재 공개된 수치 중 최상위권이다.

경쟁 구도가 흥미롭다.

영역	Anthropic Claude	OpenAI GPT-5.4
컴퓨터 사용 출시	2024년 10월 (선발)	2026년 3월 (후발)
OSWorld-Verified	-	75.0%
SWE-bench Verified	79.2% (Opus 4.6)	77.2%
금융 데이터 연동	제한적	Moody's, MSCI 등
엑셀 통합	없음	ChatGPT for Excel

Anthropic은 2025년 7월에 Claude for Financial Services를 출시한 바 있다. 하지만 OpenAI의 접근 방식은 다르다. 금융 전문 모델이 아니라, 범용 모델에 금융 데이터를 연결한 것이다. FactSet, Moody's 같은 기관 데이터를 ChatGPT 안에서 직접 쓸 수 있게 만들었다.

이건 전략의 차이다. Anthropic은 코딩에서 이기고, OpenAI는 사무실에서 이기겠다는 것이다. SWE-bench에서는 Claude Opus 4.6이 앞서지만, 엑셀과 금융 데이터에서는 OpenAI가 앞선다. 같은 AI 시장에서 서로 다른 전장을 선택한 셈이다.

컴퓨터를 쓰는 것과 코드를 짜는 것

GPT-5.4가 의미하는 것을 한 문장으로 정리하면 이렇다. AI가 코드를 짜는 것보다 컴퓨터를 쓰는 것을 먼저 정복했다.

이건 직관에 반한다. 코딩은 텍스트 기반이고 규칙이 명확하니까 AI에게 더 쉬울 것 같다. 하지만 현실은 반대다. SWE-bench에서 2%p를 올리는 동안, OSWorld에서는 28%p가 올랐다. 코드는 논리적 추론과 장기 계획이 필요하고, 컴퓨터 조작은 패턴 인식과 즉각적 반응이 필요하다. 현재의 AI 아키텍처가 후자에 더 적합한 것이다.

이 사실이 사무직 시장에 미치는 영향은 코딩 시장보다 클 수 있다. 개발자는 코드를 짜는 사람이고, AI가 아직 코드를 충분히 잘 짜지 못한다. 하지만 사무직 노동자는 컴퓨터를 사용하는 사람이고, AI가 이미 컴퓨터를 사람보다 잘 쓴다. 개발자의 위기가 아니라 사무직의 위기가 먼저 온다는 뜻이다.

물론 벤치마크와 현실은 다르다. OSWorld-Verified 75.0%는 통제된 환경에서 측정한 수치다. 실제 업무 환경의 변수 — 네트워크 지연, 예기치 못한 팝업, 이중 인증, 비표준 UI — 는 벤치마크에 반영되지 않는다. 하지만 방향은 분명하다. 72.4%에서 75.0%로 넘어간 순간, 질문이 바뀌었다. "AI가 컴퓨터를 쓸 수 있을까"가 아니라, **"인간이 AI보다 컴퓨터를 잘 쓸 수 있는 영역이 얼마나 남았는가"**다.

출처