Deepseekの驚くほど費用対効果の高いAIモデルは、業界の巨人に挑戦しています。同社は、2048 GPUのみを使用しているDeepSeek V3の自称600万ドルのトレーニングコストが当初革新的だと思われました。ただし、よく見ると、はるかに大きな投資が明らかになります。
画像:Ensigame.com
Deepseek V3は革新的なテクノロジーを活用しています:マルチトークン予測(MTP)精度と効率を向上させるため。 256のニューラルネットワーク(トークンごとにアクティブ化された8つ)を使用して、専門家(MOE)の混合物(MOE)。およびマルチヘッドの潜在的な注意(MLA)改善された情報抽出のため。これらの進歩は、モデルの競争力のあるパフォーマンスに貢献しています。
画像:Ensigame.com
初期の主張とは反対に、Semianalysisは、H800、H100、およびH20ユニットを含む約50,000のNVIDIA GPUのDeepSeekが複数のデータセンターに広がることを明らかにしました。このインフラストラクチャは、約16億ドルの多額の投資であり、運用費用は9億4,400万ドルと推定されています。
画像:Ensigame.com
High-Flyerの子会社であるDeepseekは、データセンターを所有しており、制御と革新の加速を提供しています。その自己資金の自然は敏ility性を育てます。一部の研究者にとって年間130万ドルを超える高給は、中国の大学から最高の才能を引き付けます。
600万ドルの数値は、研究、洗練、データ処理、インフラストラクチャを除く、トレーニング前のGPUコストのみを反映しています。 Deepseekの総AI投資は5億ドルを超えています。それにもかかわらず、その合理化された構造により、効率的なイノベーションが可能になります。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業の可能性を示していますが、「予算に優しい」物語は誤解を招くものです。数十億の投資、技術のブレークスルー、熟練したチームが重要な要素です。ただし、これらのかなりのリソースがあっても、DeepSeekのコストは、R1の500万ドルと比較して、ChatGPT4OにChatGPT4Oに費やされた1億ドルなど、競合他社よりも大幅に低いままです。格差は、全体的な投資が大きいにもかかわらず、Deepseekの相対的な効率を強調しています。