DeepSeek V4 출시설의 진실과 거짓

2월 17일, 아무 일도 일어나지 않았다

2026년 2월 17일. 음력 설날이었다. AI 커뮤니티는 들떠 있었다. "DeepSeek이 오늘 V4를 공개한다." 수많은 블로그와 뉴스레터가 이 날짜를 확정적으로 보도했다. The Information이 "프로젝트 관계자를 인용해" 보도한 내용이 근거였다.

그런데 2월 17일이 지났다. 아무 일도 일어나지 않았다. DeepSeek 공식 채널은 침묵했다. GitHub에 새 저장소가 올라오지 않았다. API 엔드포인트 변화도 없었다.

2월 20일 현재, V4는 여전히 "곧 출시"라는 상태에 머물러 있다. 그렇다면 지금까지 퍼진 DeepSeek V4 관련 정보 중 무엇이 사실이고 무엇이 추측인가. 루머의 근원을 추적하고, 실제로 검증 가능한 사실만 걸러내 본다.

이 글은 DeepSeek V4에 대한 "확인된 사실", "부분적으로 검증된 정보", "검증되지 않은 루머"를 구분한다. AI 모델 출시를 둘러싼 정보 생태계가 얼마나 혼란스러운지도 드러날 것이다.

확인된 사실: Engram과 mHC 논문은 실재한다

DeepSeek V4와 관련해 유일하게 확인된 사실은 두 편의 논문이다. 둘 다 동료 검토(peer review)를 거쳐 arXiv에 공개됐다.

첫 번째는 Engram 조건부 메모리 논문이다. 2026년 1월 13일에 arXiv(2601.07372)에 등록됐다. GitHub(deepseek-ai/Engram)에 구현 코드도 공개됐다. 핵심 아이디어는 "정적 지식 조회를 O(1) 시간에 수행한다"는 것이다. 트랜스포머가 모든 토큰에 대해 어텐션을 계산하는 대신, 자주 등장하는 패턴은 별도 메모리 모듈에서 즉시 가져온다.

두 번째는 mHC(Manifold-Constrained Hyper-Connections) 논문이다. 1월 1일에 공개됐다. 깊은 네트워크에서 신호 폭발 문제를 해결한다. 기존 트랜스포머에서는 레이어가 깊어질수록 활성화 값이 3,000배까지 폭발할 수 있다. mHC는 이를 1.6배로 억제한다.

두 논문 모두 V4를 직접 언급하지 않는다. 하지만 DeepSeek 연구팀이 발표한 것이고, V4에 통합될 것으로 추정되는 기술이다. 이것이 V4 관련 "확인된 사실"의 전부다.

또 하나 독립적으로 관찰된 사실이 있다. 2월 11일, DeepSeek의 운영 중인 모델(V3 기반)이 128K에서 100만 토큰으로 컨텍스트 창을 확장했다. 커뮤니티 테스트에서 100만 토큰 전체 길이에서 60% 이상의 정확도가 확인됐다. 이것은 V4가 아니라 기존 모델의 업그레이드지만, DeepSeek이 장문맥 처리 능력을 계속 개선하고 있다는 간접 증거다.

정보	검증 상태	근거
Engram 논문 발표	확인됨	arXiv 2601.07372, GitHub 코드
mHC 논문 발표	확인됨	arXiv, 동료 검토
100만 토큰 컨텍스트 확장	확인됨	커뮤니티 독립 테스트
V4 출시일 (2월 17일)	미확인	The Information 보도, 미실현
V4 공식 발표	미확인	DeepSeek 공식 입장 없음

부분적으로 검증된 정보: 1조 파라미터 MoE 아키텍처

"DeepSeek V4는 1조 파라미터 모델이다." 이 주장은 수십 개의 블로그에서 반복된다. 출처를 추적하면 흥미로운 패턴이 드러난다.

The Information의 2월 초 보도가 가장 자주 인용된다. 해당 보도는 "프로젝트에 직접 관여한 관계자"를 익명으로 인용했다. 로이터는 이 보도를 인용하면서 "독립적으로 확인할 수 없었다"고 명시했다. 즉, 1차 출처는 단일 익명 관계자다.

1조 파라미터가 완전히 허무맹랑한 숫자는 아니다. DeepSeek V3가 6,710억 파라미터(671B)였으므로, V4가 1조(1T)로 늘어나는 것은 합리적인 진화 경로다. 하지만 DeepSeek이 이 숫자를 공식 확인한 적은 없다.

"토큰당 약 32~37B 파라미터만 활성화된다"는 주장도 있다. 이 역시 V3의 패턴(370억 활성)에서 추론한 것이다. MoE 아키텍처 특성상 전체 파라미터 중 일부만 활성화되는 것은 사실이지만, V4의 정확한 활성화 비율은 확인되지 않았다.

컨텍스트 창 100만 토큰 이상이라는 주장은 부분적으로 검증됐다. 위에서 언급한 대로 V3 기반 모델이 이미 100만 토큰을 처리한다. V4가 이를 유지하거나 확장할 것이라는 추론은 합리적이지만, 역시 공식 확인은 없다.

정리하면, 아키텍처 관련 주장들은 기존 모델의 궤적에서 추론된 것이다. "합리적 추측"과 "확인된 사실"은 다르다. 현재 상태는 전자에 가깝다.

여기서 중요한 구분이 있다. 아키텍처 추측은 기술적 근거가 있다. MoE, MLA, Sparse Attention 같은 기술은 실제로 존재하고, DeepSeek이 사용해왔다. 이를 바탕으로 V4의 구조를 추론하는 것은 합리적이다. 하지만 성능 수치나 가격 같은 세부 사항은 전혀 다른 범주다. 이것들은 공식 발표 없이는 알 수 없다.

검증되지 않은 루머: SWE-bench 80%, $0.10 가격

가장 화려한 주장들이 가장 근거가 약하다. 순서대로 검증해 본다.

"V4가 SWE-bench에서 80% 이상을 기록했다."

현재 SWE-bench Verified 최고 기록은 Claude Opus 4.5의 **80.9%**다. V4가 이를 넘는다는 주장은 "유출된 내부 테스트 결과"를 근거로 한다. 문제는 이 "유출"의 출처가 불분명하다는 것이다. 대부분의 블로그가 서로를 인용하며 원출처를 명시하지 않는다. 독립적인 벤치마크 검증은 존재하지 않는다.

"API 가격이 $0.10/1M 토큰이다."

이 숫자도 커뮤니티 추측이다. V3의 가격( $0.28/1M 입력,$ 0.42/1M 출력)에서 "효율이 개선됐으니 더 저렴해질 것"이라고 추론한 것이다. DeepSeek이 가격을 발표한 적은 없다. 일부 블로그는 "$0.10"을 확정 가격처럼 보도하는데, 이는 사실이 아니다.

"HumanEval에서 98%를 기록했다."

이 주장의 출처를 추적하면 마케팅성 블로그(justoborn.com 등)로 수렴한다. DeepSeek 기술 보고서나 논문에서 이 숫자를 확인할 수 없다. Verdent.ai의 분석은 이를 **"Tier 4 — 무시 권고"**로 분류했다.

"RTX 4090 두 장으로 풀 성능이 가능하다."

V3도 소비자 GPU에서 제한적으로 구동 가능했다. V4가 더 효율적이라면 이 주장이 사실일 수 있다. 하지만 "풀 성능"의 정의가 모호하다. 양자화 없이 FP16으로 1조 파라미터 모델을 4090 두 장(48GB VRAM)에 올리는 것은 물리적으로 불가능하다. 4비트 양자화를 적용하면 가능할 수 있지만, 이 경우 성능 저하가 수반된다.

루머	검증 상태	출처 신뢰도
SWE-bench 80%+	미검증	익명 "유출", 원출처 불명
$0.10/1M 토큰 가격	미검증	커뮤니티 추측
HumanEval 98%	미검증	마케팅 블로그
RTX 4090 두 장 풀 성능	미검증	물리적 제약 미고려

출시일 루머의 계보: 2월 17일은 어디서 왔나

"2월 17일 출시"라는 날짜는 어디서 왔을까. 계보를 추적해 보자.

2월 초, The Information이 "DeepSeek이 음력 설날(2월 17일) 즈음에 V4를 출시할 예정"이라고 보도했다. 근거는 "프로젝트에 직접 관여한 관계자의 발언"이었다. 이 보도가 나간 후, 수십 개의 후속 기사와 블로그가 2월 17일을 "확정일"처럼 인용하기 시작했다.

로이터는 이 보도를 전재하면서 "독립적으로 확인하지 못했다"고 명시했다. 그러나 대부분의 2차 보도는 이 단서를 생략했다. 익명 관계자 한 명의 발언이 "확정된 출시일"로 변질된 것이다.

2월 17일이 지나고, 실제 출시가 이루어지지 않자 "며칠 연기됐다", "이번 주 중 발표된다" 같은 수정 보도가 나왔다. 이 역시 출처가 불분명하다. 원래의 루머가 수정되면서 새로운 루머를 낳는 구조다.

DeepSeek 자체는 V4에 대해 공식 언급을 한 적이 없다. 회사 블로그, 트위터, 공식 Discord 어디에도 "V4"라는 단어가 등장하지 않는다. 모든 출시일 추측은 외부에서 생성된 것이다.

이것은 AI 업계의 전형적인 정보 왜곡 패턴이다. 단일 익명 출처 → 1차 보도 → 수십 개의 2차 보도 → "기정사실화". 원래의 불확실성은 재인용 과정에서 사라진다.

루머가 퍼지는 구조: AI 블로그 생태계의 문제

DeepSeek V4 루머는 AI 정보 생태계의 구조적 문제를 드러낸다.

첫째, SEO 최적화 블로그의 범람이다. "DeepSeek V4"를 검색하면 수십 개의 블로그 글이 뜬다. 대부분 "Everything You Need to Know", "Complete Guide" 같은 제목을 달고 있다. 내용을 읽어보면 서로 거의 동일하다. 같은 출처(대개 The Information 보도)를 반복 인용하고, 추측을 사실처럼 서술한다.

이런 블로그들은 **"첫 번째로 보도하는 것"**이 중요하다. 검증보다 속도가 우선이다. 모델이 출시되기 전에 "가이드"를 올려두면, 실제 출시 후 트래픽을 선점할 수 있다. 정확성보다 SEO 선점이 동기인 것이다.

둘째, 인용의 연쇄다. A 블로그가 The Information을 인용한다. B 블로그가 A를 인용한다. C 블로그가 B를 인용한다. 최종적으로 C를 읽는 독자는 "여러 매체에서 확인됐다"고 착각한다. 실제로는 단일 출처가 복제된 것뿐이다.

셋째, 헤드라인 과장이다. "DeepSeek V4 Confirmed for February 17" 같은 제목을 단다. 본문을 읽으면 "reported by sources" 같은 단서가 있지만, 대부분의 독자는 헤드라인만 본다. 제목과 내용의 괴리가 오해를 낳는다.

이 패턴은 DeepSeek V4에만 해당되지 않는다. GPT-5, Claude 4, Gemini Ultra 등 모든 미출시 모델에 적용된다. AI 업계에서 "곧 출시"는 **"출시될 수도 있다"**의 과장된 표현인 경우가 많다.

넷째, AI 생성 콘텐츠의 폭발이다. 최근 SEO 블로그 상당수가 AI로 작성된다. AI는 기존 웹 콘텐츠를 학습해 새 글을 생성한다. 원래의 루머가 AI에 의해 재생산되면서 변이를 일으키며 증폭된다. 원출처에는 없던 세부 사항이 덧붙여지기도 한다. "2월 17일"이 "2월 17일 오전 9시 베이징 시간"으로 구체화되는 식이다.

다섯째, 금융적 동기다. AI 관련 루머는 주가에 영향을 미친다. DeepSeek V4 출시 소식이 퍼질 때마다 NVIDIA 주가가 흔들린다. 루머의 확산으로 이익을 보는 집단이 존재한다. 의도적인 정보 조작까지는 아니더라도, 루머가 유통되는 데 경제적 인센티브가 작용한다.

현실적으로 기대할 수 있는 것

루머를 걷어내면 무엇이 남는가. 현실적으로 기대할 수 있는 것을 정리해 본다.

출시 시기: 2026년 1분기 중 출시될 가능성은 높다. DeepSeek은 V3를 2025년 12월 말에 공개했다. 주요 모델을 연말/연초에 발표하는 패턴이 있다. 하지만 정확한 날짜는 예측 불가다.

아키텍처: Engram과 mHC가 통합될 가능성이 높다. 두 논문 모두 DeepSeek 팀이 발표했고, V4 수준의 모델에 적용될 기술이다. MoE 기반 아키텍처가 유지될 것이다.

성능: V3보다 개선될 것이다. DeepSeek의 기술력은 입증됐다. V3가 이미 GPT-4급 성능을 보여줬으므로, V4가 이를 초과하는 것은 합리적 기대다. 다만 "Claude Opus 4.5를 압도한다"는 주장은 검증 전까지 유보해야 한다.

가격: V3 대비 비슷하거나 저렴할 것이다. DeepSeek의 전략은 "고성능 저가격"이다. 이 전략을 바꿀 이유가 없다. 다만 "$0.10"이라는 구체적 숫자는 신뢰할 수 없다.

오픈소스: Apache 2.0 또는 유사한 개방 라이선스로 공개될 것이다. V3와 R1 모두 그랬다. 하지만 공개 범위(전체 가중치 vs 일부)는 알 수 없다.

가장 중요한 점은 이것이다. 출시 전까지 모든 정보는 추측이다. V4가 정말로 혁신적인지는 독립적인 벤치마크 테스트가 나온 후에야 판단할 수 있다. Verdent.ai는 "출시 후 72시간 내 독립 검증 결과를 공개하겠다"고 밝혔다. 그때까지 흥분을 자제하는 것이 현명하다.

팩트체크가 어려운 이유

DeepSeek V4 루머를 추적하면서 느낀 점이 있다. 팩트체크 자체가 어렵다.

첫째, DeepSeek은 서양 기업처럼 PR을 하지 않는다. OpenAI는 새 모델을 발표할 때 블로그, 라이브 데모, 미디어 인터뷰를 동시에 진행한다. DeepSeek은 GitHub에 조용히 올린다. 공식 발표 없이 코드가 먼저 공개되는 경우가 많다. 이런 스타일이 루머가 퍼지는 빈 공간을 만든다.

둘째, 중국어 1차 자료에 접근하기 어렵다. DeepSeek의 내부 커뮤니케이션은 중국어로 이루어진다. 영어권 미디어는 번역된 2차 자료에 의존한다. 번역 과정에서 뉘앙스가 바뀌거나 정보가 왜곡될 수 있다.

셋째, 익명 출처의 남발이다. "업계 관계자에 따르면", "내부자 발언에 의하면" 같은 표현이 너무 쉽게 쓰인다. 이런 출처는 검증이 불가능하다. 기자가 거짓말을 하는 게 아니더라도, 출처 자체가 잘못된 정보를 제공했을 수 있다.

넷째, AI 모델은 기술적으로 복잡하다. "1조 파라미터 MoE"가 무엇을 의미하는지 이해하는 독자는 소수다. 대부분은 "1조"라는 숫자의 인상만 받는다. 기술적 맥락 없이 숫자만 전달되면, 오해가 발생하기 쉽다.

이런 조건에서 독자가 할 수 있는 것은 출처를 따지는 것이다. 주장이 어디서 왔는지, 독립적으로 검증됐는지, 원출처가 무엇인지를 확인해야 한다. "여러 매체가 보도했다"는 것은 신뢰의 근거가 아니다. 모든 매체가 같은 (잘못된) 출처를 인용했을 수 있다.

간단한 휴리스틱이 있다. 구체적인 숫자가 등장하면 의심하라. "SWE-bench 80.9%", "$0.10", "1조 파라미터" 같은 정확한 숫자는 신뢰감을 준다. 그래서 루머에 자주 사용된다. 진짜 출처가 있는지 확인해야 한다. 대부분의 경우, 원출처로 거슬러 올라가면 "관계자에 따르면"이나 "추정"이라는 단서가 붙어 있다.

결론: 기다림의 미덕

DeepSeek V4에 대해 확인된 사실은 두 편의 논문뿐이다. 1조 파라미터, SWE-bench 80%, 2월 17일 출시, $0.10 가격 — 이 모든 주장은 검증되지 않았다.

이것이 나쁜 것은 아니다. V4가 실제로 출시되면, 모든 의문은 해소된다. 문제는 출시 전에 확정적으로 말하는 것이다. "곧 출시될 DeepSeek V4가 AI 판도를 바꾼다"는 식의 보도는 정확하지 않다. "DeepSeek이 새 모델을 준비 중인 것으로 보이며, 구체적인 사항은 발표를 기다려야 한다"가 정확한 표현이다.

AI 업계는 하이프(hype)에 취약하다. 새 모델이 나올 때마다 "혁명"이라는 단어가 등장한다. 대부분은 점진적 개선이다. 진짜 혁신적인 것과 마케팅 포장을 구분하려면, 시간이 필요하다.

DeepSeek V4가 정말로 Claude와 GPT를 압도할지도 모른다. 또는 V3의 소폭 개선에 그칠지도 모른다. 지금은 아무도 모른다. 모른다고 말할 수 있는 것이 정직한 자세다.

출시를 기다리자. 출시 후 벤치마크를 보자. 그때 판단해도 늦지 않다. 그것이 루머의 홍수 속에서 취할 수 있는 유일한 합리적 태도다.

한 가지 더 생각해볼 것이 있다. DeepSeek V4가 정말 대단하다면, 루머 따위 필요 없다. 모델이 출시되면 성능이 스스로를 증명한다. 역으로, 출시 전에 루머가 난무한다는 것은 실체보다 기대가 앞서간다는 신호일 수 있다.

AI 업계는 지금 기대 인플레이션 상태다. 모든 새 모델이 "게임 체인저"로 포장된다. 실제로 게임을 바꾸는 것은 소수다. DeepSeek V4가 그 소수에 들지는 두고 볼 일이다. 지금 확실하게 말할 수 있는 건, 아직 아무것도 확실하지 않다는 것뿐이다.

출처: