DeepSeek令人驚訝的具有成本效益的AI模型挑戰了行業巨頭。該公司自稱為DeepSeek V3的600萬美元培訓成本,最初僅使用2048 GPU,這似乎是革命性的。但是,近距離的外觀顯示出更大的投資。
圖像:ensigame.com
DeepSeek V3利用創新技術:多token預測(MTP),以提高準確性和效率; 專家(MOE)的混合物,利用256個神經網絡(八個激活的令牌); 多頭潛在注意(MLA),以改善信息提取。這些進步有助於模型的競爭性能。
圖像:ensigame.com
與最初的主張相反,半分析顯示,DeepSeek使用了大約50,000個NVIDIA GPU,包括H800,H100和H20單位,分布在多個數據中心。該基礎設施代表大約16億美元的大量投資,運營費用估計為9.44億美元。
圖像:ensigame.com
高級飛行者的子公司DeepSeek擁有其數據中心,提供控製和加速創新。它的自我資助的性質促進了敏捷性。對於一些研究人員來說,高薪高薪,每年超過130萬美元,吸引了中國大學的頂尖人才。
這筆600萬美元的數字僅反映了培訓前的GPU成本,不包括研究,改進,數據處理和基礎架構。 DeepSeek的AI總投資超過了5億美元。盡管如此,其簡化的結構可以有效地創新。
圖像:ensigame.com
雖然DeepSeek的成功展示了資金龐大的獨立AI公司的潛力,但“預算友好”的敘述是誤導性的。數十億美元的投資,技術突破和熟練的團隊是關鍵因素。但是,即使有了這些大量資源,DeepSeek的成本仍大大低於競爭對手,例如在Chatgpt4o上花費了1億美元的競爭對手,而DeepSeek的R1 $ 500萬。盡管總體投資大量投資,但差距強調了DeepSeek的相對效率。