DeepSeek의 놀랍도록 비용 효율적인 AI 모델은 업계 거인에게 도전합니다. 이 회사의 자체 선언은 Deepseek V3에 대한 6 백만 달러의 교육 비용으로 2048 GPU 만 사용했으며 처음에는 혁명적 인 것처럼 보였습니다. 그러나 자세히 살펴보면 훨씬 더 큰 투자가 나타납니다.
이미지 : ensigame.com
DeepSeek V3는 혁신적인 기술을 활용합니다. 정확도와 효율성을 높이기 위해 MTP (Multi-Token Prediction) ; 전문가 혼합 (MOE) , 256 개의 신경망을 활용 (토큰 당 8 개의 활성화); 정보 추출 향상을 위해 MLA (Multi-Head Sentent Interection) **. 이러한 발전은 모델의 경쟁력있는 성능에 기여합니다.
이미지 : ensigame.com
초기 청구와는 달리 Semianalysis는 H800, H100 및 H20 장치를 포함하여 약 50,000 개의 NVIDIA GPU의 DeepSeek 사용이 여러 데이터 센터에 퍼져 있음을 밝혀 냈습니다. 이 인프라는 약 16 억 달러의 상당한 투자를 나타내며 운영비는 9 억 9,400 만 달러로 추정됩니다.
이미지 : ensigame.com
High-Flyer의 자회사 인 Deepseek는 데이터 센터를 소유하여 제어 및 혁신 가속화를 제공합니다. 자체 자금을 지원하는 자연은 민첩성을 촉진합니다. 일부 연구자들에게 매년 130 만 달러를 초과하는 높은 급여는 중국 대학의 최고의 인재를 유치합니다.
6 백만 달러는 연구, 개선, 데이터 처리 및 인프라를 제외한 사전 훈련 GPU 비용 만 반영합니다. DeepSeek의 총 AI 투자는 5 억 달러를 능가합니다. 그럼에도 불구하고 간소화 된 구조는 효율적인 혁신을 가능하게합니다.
이미지 : ensigame.com
DeepSeek의 성공은 잘 자금을 지원하는 독립 AI 회사의 잠재력을 보여 주지만 "예산 친화적 인"이야기는 오해의 소지가 있습니다. 수십억의 투자, 기술 혁신 및 숙련 된 팀이 핵심 요소입니다. 그러나 이러한 실질적인 자원이 있더라도 DeepSeek의 비용은 R1의 DeepSeek의 5 백만 달러에 비해 ChatGPT4O에 지출 된 1 억 달러와 같은 경쟁 업체보다 상당히 낮습니다. 이 차이는 상당한 전반적인 투자에도 불구하고 DeepSeek의 상대 효율성을 강조합니다.