Deepseek'in şaşırtıcı derecede ucuz AI modeli endüstri devlerine meydan okuyor. Çinli girişim, sadece 6 milyon dolarlık güçlü Deepseek V3
'i eğittiğini iddia ediyor, sadece 2048 GPU kullanıyor ve rakipleri önemli ölçüde azaltıyor. Ancak bu görünüşte düşük maliyet, çok daha büyük bir yatırıma inanıyor.
Deepseek V3'ün yenilikçi mimarisi verimliliğine katkıda bulunur. Anahtar teknolojiler, eşzamanlı kelime tahmini için çoklu atak tahmini (MTP), 256
s kullanan uzmanların (MOE) karışımı ve önemli cümle unsurlarına odaklanmak için çok başlı gizli dikkat (MLA) içerir.
Resim: ensigame.com
Bununla birlikte, daha yakından görünüm önemli bir altyapı yatırımı ortaya koymaktadır. SEMIANALSYS, Deepseek'in yaklaşık 50.000 NVIDIA Hopper GPU'unu kullanmasını, toplam 1,6 milyar dolar ve 944 milyon dolarlık operasyonel masrafları ortaya çıkardı. Bu, araştırma, iyileştirme, veri işleme ve genel altyapı hariç, yalnızca GPU kullanımının ön eğitimini açıklayan ilk 6 milyon dolarlık eğitim maliyet talebi ile keskin bir tezat oluşturuyor.
Resim: ensigame.com
Deepseek'in başarısı, hızlı inovasyon ve verimli kaynak tahsisine izin veren bağımsız yapısından kaynaklanıyor. High-Flyer Hedge Fund'ın bir yan kuruluşu olan şirket, bulut bilgisi rakiplerinin aksine veri merkezlerinin sahibidir. Dahası, yüksek maaşları Çin üniversitelerinden en iyi yetenekleri çekiyor. Deepseek’in AI gelişimine yapılan toplam yatırımı 500 milyon doları aştı.
Deepseek'in "bütçe dostu" iddiası yanıltıcı olsa da, rakiplere göre maliyet etkinliği dikkat çekicidir. Şirketin R1 modeli, ChatGPT4'ün 100 milyon dolarına kıyasla eğitilmesi 5 milyon dolara mal oldu. Deepseek'in örneği, ilk maliyet iddialarının abartılmasına rağmen, iyi finanse edilmiş, çevik bir AI şirketinin yerleşik oyuncularla etkili bir şekilde rekabet etme potansiyelini sergiliyor. Gerçek, önemli bir yatırımdır, teknolojik gelişmeler ve yetenekli bir işgücü başarısının anahtarıdır.