Deepseek's Sorprendentemente económico modelo de IA desafía a los gigantes de la industria. La startup china afirma haber entrenado a su poderoso Deepseek V3
por solo $ 6 millones, utilizando solo 2048 GPU, significativamente socavando competidores. Este costo aparentemente bajo, sin embargo, desmiente una inversión mucho mayor.
La arquitectura innovadora de Deepseek V3 contribuye a su eficiencia. Las tecnologías clave incluyen predicción múltiple (MTP) para la predicción simultánea de palabras, la mezcla de expertos (MOE) utilizando 256
s y atención latente de múltiples cabezas (MLA) para un enfoque mejorado en elementos de oraciones cruciales.
Imagen: ensigame.com
Sin embargo, una mirada más cercana revela una inversión de infraestructura sustancial. Semianalysis descubrió el uso de Deepseek de aproximadamente 50,000 GPU Nvidia Hopper, por un total de alrededor de $ 1.6 mil millones en costos del servidor y $ 944 millones en gastos operativos. Esto contrasta fuertemente con el reclamo inicial de costos de capacitación de $ 6 millones, que solo representa el uso de GPU previa al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura general.
Imagen: ensigame.com
El éxito de Deepseek proviene de su estructura independiente, lo que permite una innovación rápida y una asignación eficiente de recursos. La compañía, una subsidiaria de High-Flyer Hedge Fund, posee sus centros de datos, a diferencia de los competidores reliños de la nube. Además, sus altos salarios atraen al máximo talento de las universidades chinas. La inversión total de Deepseek en el desarrollo de IA supera los $ 500 millones.
Imagen: ensigame.com
Red neuronal Si bien el reclamo "económico" de Deepseek es engañoso, su rentabilidad en relación con los competidores sigue siendo notable. El modelo R1 de la compañía costó $ 5 millones para entrenar, en comparación con los $ 100 millones de CHATGPT4. El ejemplo de Deepseek muestra el potencial de una compañía de IA ágil y bien financiada para competir de manera efectiva con los jugadores establecidos, a pesar de la exageración de sus reclamos de costos iniciales. La realidad es una inversión significativa, avances tecnológicos y una fuerza laboral calificada son clave para su éxito. Red neuronal