Deepseek รุ่น AI ที่มีประสิทธิภาพอย่างน่าประหลาดใจท้าทายยักษ์ใหญ่ในอุตสาหกรรม ค่าใช้จ่ายในการฝึกอบรมที่ได้รับการประกาศตัวเองของ บริษัท $ 6 ล้านสำหรับ Deepseek V3 โดยใช้ GPU ในปี 2048 เพียงครั้งแรกดูเหมือนจะปฏิวัติ อย่างไรก็ตามการมองอย่างใกล้ชิดเผยให้เห็นการลงทุนที่ใหญ่กว่ามาก
IMGP%Image: Ensigame.com
Deepseek V3 ใช้ประโยชน์จากเทคโนโลยีที่เป็นนวัตกรรม: การทำนายแบบหลายท็อก (MTP) เพื่อเพิ่มความแม่นยำและประสิทธิภาพ ส่วนผสมของผู้เชี่ยวชาญ (MOE) ใช้เครือข่ายประสาท 256 แห่ง (แปดเปิดใช้งานต่อโทเค็น); และ ความสนใจแฝงหลายหัว (MLA) สำหรับการสกัดข้อมูลที่ได้รับการปรับปรุง ความก้าวหน้าเหล่านี้นำไปสู่ประสิทธิภาพการแข่งขันของโมเดล
IMGP%Image: Ensigame.com
ตรงกันข้ามกับการเรียกร้องเบื้องต้น semianalysis เปิดเผยการใช้งานของ Deepseek ประมาณ 50,000 Nvidia GPU รวมถึง H800, H100 และ H20 หน่วยกระจายไปทั่วศูนย์ข้อมูลหลายแห่ง โครงสร้างพื้นฐานนี้แสดงถึงการลงทุนที่สำคัญประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานประมาณ 944 ล้านดอลลาร์
IMGP%Image: Ensigame.com
Deepseek ซึ่งเป็น บริษัท ย่อยของ High-Flyer เป็นเจ้าของศูนย์ข้อมูลให้การควบคุมและเร่งนวัตกรรม ธรรมชาติที่ได้รับการสนับสนุนด้วยตนเองช่วยส่งเสริมความคล่องตัว เงินเดือนสูงเกิน $ 1.3 ล้านต่อปีสำหรับนักวิจัยบางคนดึงดูดความสามารถสูงสุดจากมหาวิทยาลัยจีน
ตัวเลข $ 6 ล้านสะท้อนถึงค่าใช้จ่าย GPU ก่อนการฝึกอบรมก่อนไม่รวมการวิจัยการปรับแต่งการประมวลผลข้อมูลและโครงสร้างพื้นฐาน การลงทุน AI ทั้งหมดของ Deepseek มีมูลค่าสูงกว่า 500 ล้านดอลลาร์ อย่างไรก็ตามสิ่งนี้โครงสร้างที่คล่องตัวช่วยให้นวัตกรรมมีประสิทธิภาพ
IMGP%Image: Ensigame.com
ในขณะที่ความสำเร็จของ Deepseek แสดงให้เห็นถึงศักยภาพของ บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีการเล่าเรื่อง "เป็นมิตรกับงบประมาณ" นั้นทำให้เข้าใจผิด การลงทุนหลายพันล้านความก้าวหน้าทางเทคโนโลยีและทีมงานที่มีทักษะเป็นปัจจัยสำคัญ อย่างไรก็ตามถึงแม้จะมีทรัพยากรที่สำคัญเหล่านี้ค่าใช้จ่ายของ Deepseek ยังคงต่ำกว่าคู่แข่งอย่างมีนัยสำคัญเช่นรายงานที่ใช้จ่าย $ 100 ล้านใน CHATGPT4O เมื่อเทียบกับ $ 5 ล้านของ Deepseek สำหรับ R1 ความแตกต่างเน้นประสิทธิภาพที่สัมพันธ์กันของ Deepseek แม้จะมีการลงทุนโดยรวมอย่างมีนัยสำคัญ