Opus가 최고라면서 왜 Codex로 만들었나

칭찬은 Opus에게, 일은 Codex에게

2026년 2월, Fortune지에 흥미로운 기사가 실렸다. OpenAI가 데스크톱 기반 Codex 앱을 출시했다는 내용이다. 그런데 기사 속에 눈에 띄는 인물이 등장한다. 바이러스성 AI 도구 OpenClaw의 창시자 Peter Steinberger다.

Steinberger는 공개적으로 Anthropic의 Claude Opus를 **"일반 목적 에이전트로는 최고"**라고 평가했다. 최고라고 칭찬했다. 그런데 정작 OpenClaw 전체 개발에는 OpenAI의 Codex를 활용했다. 생산성이 대략 두 배 증가했다고도 말했다.

왜일까. 최고라면 그걸 쓰면 될 텐데. 칭찬은 Opus에게 하고, 실제 작업은 Codex로 한다. 이게 모순일까, 아니면 뭔가 다른 이유가 있는 걸까.

OpenClaw가 뭔가

먼저 OpenClaw가 뭔지 알아야 한다. OpenClaw는 독립 개발자 Peter Steinberger가 만든 AI 기반 개발 도구다. 코드 생성, 리팩토링, 디버깅을 자동화한다. 출시 직후 바이러스처럼 퍼졌다. 개발자 커뮤니티에서 입소문을 탔다.

OpenClaw의 핵심은 AI 에이전트 기반 워크플로우다. 사용자가 작업을 지시하면, 여러 AI 에이전트가 협업해서 처리한다. 코드를 분석하는 에이전트, 수정안을 제안하는 에이전트, 테스트를 실행하는 에이전트가 각자 역할을 맡는다.

Steinberger는 이 도구를 혼자 만들었다. 1인 개발자가 복잡한 AI 에이전트 시스템을 만들었다. 비결이 뭘까. 그가 직접 말했다. Codex를 썼다고.

"최고"와 "생산적"은 다르다

Steinberger의 발언을 다시 보자. "Claude Opus는 일반 목적 에이전트로는 최고다." 여기서 키워드는 **"일반 목적"**이다.

일반 목적이란 뭘까. 범용적인 추론, 복잡한 논리 전개, 창의적인 글쓰기, 까다로운 분석. 이런 작업에서 Opus가 뛰어나다는 뜻이다. 실제로 벤치마크에서 Opus는 복잡한 추론 문제, 수학, 코딩 챌린지에서 최상위권을 기록한다.

하지만 실제 개발 작업은 "일반 목적"이 아닐 수 있다. 코드를 작성하는 건 범용 추론보다는 특화된 작업에 가깝다. 반복적인 패턴 생성, API 문서 참조, 에러 수정, 리팩토링. 이런 작업은 "최고로 똑똑한 모델"보다 **"해당 작업에 최적화된 모델"**이 더 효율적일 수 있다.

Codex는 이름에서 알 수 있듯 코딩에 특화된 모델이다. OpenAI가 개발자를 위해 설계했다. 코드 생성, 완성, 설명에 최적화되어 있다. Opus보다 범용 추론 능력은 떨어질 수 있지만, 코드 작성이라는 특정 영역에서는 더 빠르고 효율적일 수 있다.

Steinberger가 말한 "생산성이 두 배 증가"는 이 맥락에서 이해된다. 최고로 똑똑한 모델을 쓴 게 아니라, 가장 효율적인 모델을 썼다. 칭찬은 Opus에게, 일은 Codex에게. 모순이 아니라 합리적인 분업이다.

도구 선택의 기준 — 똑똑함 vs 효율성

개발자가 AI 도구를 선택할 때 고려하는 기준은 여러 가지다.

1. 정확도 원하는 코드를 정확하게 생성하는가. 에러 없이 동작하는 코드를 내놓는가.

2. 속도 응답이 얼마나 빠른가. 반복적으로 사용할 때 지연이 얼마나 발생하는가.

3. 비용 API 호출당 비용이 얼마인가. 대량으로 사용할 때 경제적인가.

4. 통합성 기존 워크플로우에 얼마나 잘 통합되는가. IDE, 터미널, CI/CD와 연동이 쉬운가.

5. 일관성 같은 요청에 일관된 결과를 내놓는가. 예측 가능한 출력을 하는가.

Opus가 1번(정확도)과 "범용 똑똑함"에서 앞선다고 해도, 2~5번에서 Codex가 더 나을 수 있다. 특히 반복적인 개발 작업에서는 속도와 비용, 일관성이 결정적이다.

OpenClaw 개발은 반복 작업의 연속이었을 것이다. 기능 추가, 버그 수정, 리팩토링, 테스트. 매번 AI에 요청하고 결과를 확인한다. 이런 루프에서는 응답 속도가 조금만 빨라도 체감 생산성이 확 올라간다.

기준	Claude Opus	Codex
정확도	매우 높음	높음
속도	보통	빠름
비용	높음	상대적 저렴
통합성	보통	높음 (IDE)
일관성	높음	매우 높음

Steinberger는 이 트레이드오프를 알고 있었던 것 같다. 최고의 지능보다 최고의 효율을 선택했다.

AI 도구 경쟁의 현실

Fortune 기사에 따르면, OpenAI의 Codex는 월간 100만 명 이상의 개발자가 사용한다. 데스크톱 앱 출시로 이 숫자는 더 늘어날 것이다. 새 앱은 여러 AI 에이전트를 동시에 실행하고, 반복적 작업을 자동화하며, 에이전트 활동을 모니터링하는 기능을 제공한다.

한편 Anthropic의 Claude Code도 빠르게 성장 중이다. Uber, Netflix, Spotify 같은 주요 기업에서 채택이 증가하고 있다. Claude Code는 터미널 기반으로, 프로젝트 전체를 이해하고 복잡한 작업을 자율적으로 수행한다.

두 도구는 접근 방식이 다르다.

Codex 앱의 특징:

데스크톱 기반 (기존 IDE와 별개)
여러 에이전트 동시 실행
반복 작업 자동화 강조
GPT-5.2-Codex 모델 권장

Claude Code의 특징:

터미널 기반 (개발자 친화적)
프로젝트 전체 컨텍스트 이해
자율적 작업 수행
Opus/Sonnet 모델 선택 가능

어느 쪽이 "더 좋다"고 단정하기 어렵다. 사용 맥락에 따라 다르다. Steinberger의 선택이 이를 증명한다. 최고의 모델이라고 칭찬한 건 Opus인데, 실제 개발에 쓴 건 Codex다.

"최고"라는 말의 함정

"최고"라는 표현은 조심해야 한다. 맥락을 빠뜨리면 오해를 낳는다.

"Opus가 최고다"는 아마도 "특정 조건에서, 특정 작업에서, 특정 기준으로 평가할 때 최고다"라는 뜻일 것이다. 모든 상황에서 모든 작업에 최고인 도구는 없다.

개발자들은 이 사실을 안다. 그래서 도구를 혼용한다. 복잡한 아키텍처 설계는 Opus에게 물어보고, 반복적인 코드 생성은 Codex로 돌린다. 논문 요약은 Claude로 하고, 데이터 분석은 GPT로 한다. 각 도구의 강점을 활용하는 것이다.

Steinberger도 마찬가지였을 것이다. Opus가 "최고"라고 인정하면서도, 자신의 작업 맥락에서는 Codex가 더 맞았다. 이건 모순이 아니라 전문가의 판단이다.

도구 종속에서 벗어나기

AI 도구 시장은 빠르게 변한다. 오늘의 "최고"가 내일도 최고라는 보장이 없다. 2023년에는 GPT-4가 압도적이었다. 2024년에는 Claude 3가 등장하며 판도가 바뀌었다. 2025년에는 Gemini가 치고 올라왔다. 2026년 현재, 경쟁은 더 치열하다.

이런 환경에서 한 도구에 종속되는 건 위험하다. **"이 도구가 최고니까 이것만 쓰겠다"**는 태도는 유연성을 잃게 만든다.

현명한 개발자는 여러 도구를 익힌다. 각 도구의 강점과 약점을 파악한다. 작업에 따라 적절한 도구를 선택한다. 새 도구가 나오면 빠르게 평가하고 도입 여부를 결정한다.

Steinberger가 OpenClaw를 Codex로 만들면서도 Opus를 칭찬한 건, 이런 유연한 사고방식의 반영이다. 한 도구에 충성하는 게 아니라, 작업에 가장 맞는 도구를 고르는 것이다.

왜 공개적으로 Opus를 칭찬했나

여기서 한 가지 의문이 생긴다. Codex로 OpenClaw를 만들었으면서, 왜 굳이 Opus를 공개적으로 칭찬했을까.

몇 가지 가능성이 있다.

1. 진심이다 정말로 Opus의 범용 추론 능력이 뛰어나다고 생각했을 수 있다. 단지 자신의 특정 작업에는 Codex가 더 맞았을 뿐이다.

2. 균형잡힌 평가 AI 도구 커뮤니티에서 특정 회사만 편들면 편향적으로 보일 수 있다. 여러 도구의 장점을 인정하는 건 신뢰도를 높인다.

3. 미래를 위한 포석 OpenClaw가 성장하면 여러 AI 모델을 지원해야 한다. 특정 회사와 적대적 관계를 만들 이유가 없다.

4. 기술적 존경 경쟁자의 기술이라도 뛰어나면 인정하는 게 개발자 문화다. Opus의 기술력을 인정하면서 Codex의 실용성을 선택한 것이다.

어떤 이유든, "최고라고 칭찬하는 것"과 "실제로 쓰는 것"은 별개라는 사실을 보여준다. 우리는 자주 이 둘을 혼동한다. 최고라고 하면 당연히 그걸 쓸 거라고 생각한다. 하지만 현실은 다르다.

AI 도구 선택의 실용주의

이 사례에서 배울 점은 실용주의다. AI 도구 선택에서 "최고"를 찾는 것보다 **"내 상황에 맞는 것"**을 찾는 게 낫다.

내 상황이란 뭘까.

작업의 성격 복잡한 추론이 필요한가, 반복적인 생성이 필요한가. 창의적인 결과가 필요한가, 일관된 결과가 필요한가.

사용 빈도 하루에 몇 번 쓰는가. 한 번 쓸 때 얼마나 많은 요청을 보내는가. 빈도가 높으면 속도와 비용이 중요해진다.

통합 환경 어떤 IDE를 쓰는가. 어떤 워크플로우를 가지고 있는가. 기존 환경과 잘 맞는 도구가 생산성을 높인다.

예산 API 비용을 얼마나 감당할 수 있는가. 팀 규모는 어떤가. 비용 대비 효과를 따져야 한다.

팀 역량 팀원들이 어떤 도구에 익숙한가. 새 도구 학습에 시간을 투자할 수 있는가.

이런 요소를 종합하면, "최고의 AI"가 아니라 **"우리에게 맞는 AI"**가 보인다. Steinberger에게 그게 Codex였던 것이다.

경쟁이 만드는 혜택

Opus와 Codex, Claude Code와 여러 AI 도구가 경쟁하는 건 사용자에게 이득이다. 경쟁이 있으니 각 회사가 더 나은 기능, 더 빠른 속도, 더 낮은 가격을 내놓는다.

2025년 초만 해도 AI 코딩 도구는 보조 수단이었다. 지금은 핵심 인프라가 되어가고 있다. Fortune 기사에 따르면, 일부 개발자는 "전통적인 프로그래밍을 포기했다"고 말한다. AI가 대부분의 코드를 작성하고, 인간은 방향을 잡고 검토만 한다.

이런 변화를 가능하게 한 건 경쟁이다. 한 회사가 독점했다면 발전 속도가 느렸을 것이다. OpenAI, Anthropic, Google, Meta가 치열하게 경쟁하니 기술이 빠르게 발전한다.

사용자 입장에서는 선택지가 많아진 것이 축복이다. Opus가 맞으면 Opus를 쓰고, Codex가 맞으면 Codex를 쓴다. 상황에 따라 바꿔가며 쓸 수도 있다. 종속 없이 유연하게.

Steinberger의 진짜 메시지

Steinberger의 발언을 다시 정리하면 이렇다.

"Claude Opus는 일반 목적 에이전트로는 최고다. 하지만 나는 OpenClaw를 Codex로 만들었고, 생산성이 두 배 증가했다."

이 문장의 진짜 메시지는 뭘까.

도구 선택은 맥락에 달렸다. 최고의 도구가 아니라 최적의 도구를 골라야 한다. 범용 성능과 특화 성능은 다르다. 칭찬과 선택은 별개다.

여러 도구를 알아야 한다. 한 도구만 고집하면 시야가 좁아진다. Opus의 장점을 알고 Codex의 장점도 아는 사람이 더 나은 선택을 한다.

실용주의가 이긴다. "이게 최고니까"라는 이유로 선택하면 안 된다. "이게 내 상황에 맞으니까"라는 이유로 선택해야 한다.

당신의 "최고"는 무엇인가

AI 도구를 쓰는 개발자라면 스스로 물어보자.

내가 "최고"라고 생각하는 도구는 뭔가. 그 도구가 정말로 내 작업에 최적인가. 혹시 "최고라고 하니까" 쓰고 있는 건 아닌가.

다른 도구를 써본 적 있는가. 비교해본 적 있는가. 아니면 한 도구에 정착해서 다른 건 안 쳐다보는가.

내 작업의 특성은 뭔가. 복잡한 추론이 많은가, 반복 생성이 많은가. 속도가 중요한가, 정확도가 중요한가. 비용에 민감한가, 기능에 민감한가.

이런 질문에 답하다 보면, "내 상황에 맞는 도구"가 보일 것이다. 그게 Opus일 수도, Codex일 수도, Claude Code일 수도, 아니면 완전히 다른 무언가일 수도 있다.

중요한 건 "최고"라는 라벨에 끌려다니지 않는 것이다. 직접 써보고, 비교하고, 내 맥락에서 평가하는 것이다. Steinberger처럼.

모순이 아니라 지혜였다

처음의 질문으로 돌아가자. "Opus가 최고라면서 왜 Codex로 만들었나."

이제 답을 알 수 있다. 모순이 아니었다. 지혜로운 선택이었다.

최고의 범용 지능과 최고의 실용 효율은 다르다. 둘 다 인정하면서, 자신의 작업에 맞는 걸 고르는 게 현명하다. 칭찬은 Opus에게, 일은 Codex에게. 이게 틀린 게 아니라 맞는 것이다.

AI 도구 시대에 우리에게 필요한 건 "최고"를 찾는 집착이 아니다. "최적"을 고르는 안목이다. 여러 도구를 알고, 각각의 강점을 파악하고, 상황에 따라 선택하는 유연함이다.

Steinberger는 그걸 보여줬다. OpenClaw의 성공이 그 증거다. 최고라고 칭찬받는 도구가 아니라, 자신의 생산성을 두 배로 만드는 도구를 선택했다. 그리고 그 선택이 옳았음을 결과로 증명했다.

당신은 어떤가. 아직도 "최고"를 찾아 헤매고 있는가, 아니면 "최적"을 골라 쓰고 있는가.

출처: