El modelo de IA sorprendentemente rentable de Deepseek desafía a los gigantes de la industria. El autoproclamado costo de capacitación de $ 6 millones de la compañía para Deepseek V3, utilizando solo 2048 GPU, inicialmente parecía revolucionario. Sin embargo, un aspecto más cercano revela una inversión mucho mayor.
Imagen: Ensigame.com
Deepseek V3 aprovecha tecnologías innovadoras: Predicción de token múltiple (MTP) para una mayor precisión y eficiencia; Mezcla de expertos (MOE) , utilizando 256 redes neuronales (ocho activadas por token); y Atención latente de múltiples cabezas (MLA) para mejorar la extracción de información. Estos avances contribuyen al rendimiento competitivo del modelo.
Imagen: Ensigame.com
Al contrario de las afirmaciones iniciales, el semianálisis reveló el uso de Deepseek de aproximadamente 50,000 GPU NVIDIA, incluidas las unidades H800, H100 y H20, se extendió a través de múltiples centros de datos. Esta infraestructura representa una inversión sustancial de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Imagen: Ensigame.com
Deepseek, una subsidiaria de High-Flyer, posee sus centros de datos, proporcionando control e innovación acelerada. Su naturaleza autofinanciada fomenta la agilidad. Los altos salarios, superiores a $ 1.3 millones anuales para algunos investigadores, atraen a los mejores talentos de las universidades chinas.
La cifra de $ 6 millones solo refleja los costos de GPU previos al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura. La inversión total de IA de Deepseek supera los $ 500 millones. A pesar de esto, su estructura simplificada permite una innovación eficiente.
Imagen: Ensigame.com
Si bien el éxito de Deepseek muestra el potencial de las compañías de IA independientes bien financiadas, la narrativa "económica" es engañosa. Miles de millones en inversiones, avances tecnológicos y un equipo calificado son factores clave. Sin embargo, incluso con estos recursos sustanciales, los costos de Deepseek siguen siendo significativamente más bajos que los competidores, como los $ 100 millones reportados gastados en chatgpt4o en comparación con los $ 5 millones de Deepseek para R1. La disparidad destaca la eficiencia relativa de Deepseek, a pesar de la importante inversión general.