Zaskakująco opłacalny model AI Deepseek wyzwala gigantów branżowych. Samozwańcze koszty szkolenia w wysokości 6 milionów dolarów dla Deepseek V3, przy użyciu tylko 2048 GPU, początkowo wydawało się rewolucyjne. Jednak bliższe spojrzenie ujawnia znacznie większą inwestycję.
Obraz: engame.com
DeepSeek V3 wykorzystuje innowacyjne technologie: Prognozowanie wielofunkcyjne (MTP) w celu zwiększenia dokładności i wydajności; Mieszanka ekspertów (MOE) , wykorzystująca 256 sieci neuronowych (osiem aktywowanych na token); i wielopłaska ukryta uwaga (MLA) dla lepszej ekstrakcji informacji. Postępy te przyczyniają się do konkurencyjnych wyników modelu.
Obraz: engame.com
W przeciwieństwie do początkowych twierdzeń, semianaliza ujawniła wykorzystanie Deepseek około 50 000 GPU NVIDIA, w tym jednostek H800, H100 i H20, rozłożonych na wiele centrów danych. Ta infrastruktura stanowi znaczną inwestycję w wysokości około 1,6 miliarda dolarów, a wydatki operacyjne szacują na 944 mln USD.
Obraz: engame.com
Deepseek, spółka zależna od wysokiej flyer, jest właścicielem swoich centrów danych, zapewniając kontrolę i przyspieszając innowacje. Jego samofinansowana natura sprzyja zwinności. Wysokie wynagrodzenie, przekraczające 1,3 miliona dolarów rocznie dla niektórych naukowców, przyciągają najlepsze talenty z chińskich uniwersytetów.
Liczba 6 milionów dolarów odzwierciedla jedynie koszty GPU przed treningiem, z wyłączeniem badań, udoskonalania, przetwarzania danych i infrastruktury. Całkowita inwestycja AI Deepseek przekracza 500 milionów dolarów. Mimo to jego usprawniona struktura umożliwia wydajne innowacje.
Obraz: engame.com
Podczas gdy sukces Deepseek pokazuje potencjał dobrze finansowanych niezależnych firm AI, narracja „przyjazna budżetowi” jest myląca. Kluczowe są miliardy inwestycji, przełomów technologicznych i wykwalifikowanego zespołu. Jednak nawet przy tych znacznych zasobach koszty Deepseek pozostają znacznie niższe niż konkurenci, takie jak zgłoszone 100 milionów dolarów wydanych na Chatgpt4o w porównaniu z 5 milionami dolarów Deepseek na R1. Rozbieżność podkreśla względną wydajność Deepeek, pomimo znacznej ogólnej inwestycji.