Openai sospetta che i modelli di AI Deepseek della Cina, significativamente più economici delle controparti occidentali, possano essere state addestrate utilizzando i dati OpenAI. Questa rivelazione, seguendo il massiccio crollo di Nvidia, è stata definita una "sveglia" per l'industria tecnologica degli Stati Uniti da Donald Trump.
Il modello R1 di DeepSeek, basato sull'apertura open source Deepseek-V3, vanta costi di allenamento significativamente più bassi (stimati in $ 6 milioni) e requisiti computazionali rispetto ai modelli occidentali come Chatgpt. Sebbene questa affermazione sia contestata, ha alimentato le preoccupazioni degli investitori per i miliardi investiti in AI dai giganti della tecnologia americana, causando una recessione del mercato che colpisce aziende come Nvidia, Microsoft, Meta, Alphabet e Dell. L'app di DeepSeek ha persino in cima alla classifica di download statunitensi in mezzo alla controversia.
Openai e Microsoft stanno studiando se DeepSeek abbia violato i termini di servizio di Openi impiegando "distillazione", una tecnica per estrarre dati da modelli più grandi, potenzialmente utilizzando l'API di Openi. Openi riconosce che le società cinesi tentano spesso di replicare i principali modelli di intelligenza artificiale statunitensi e stanno collaborando con il governo degli Stati Uniti per proteggere la sua proprietà intellettuale.
David Sacks, lo zar AI del presidente Trump, sostiene l'affermazione secondo cui DeepSeek ha impiegato una distillazione dei dati dai modelli OpenAI. Prevede ulteriori misure delle principali società di intelligenza artificiale per prevenire tali pratiche.
La situazione mette in evidenza una significativa ironia: Openai, accusata di utilizzare contenuti di Internet protetti da copyright per addestrare il Chatgpt, sta ora protestando per le presunte azioni di Deepseek. Questa ipocrisia è stata ampiamente notata sui social media. Openai in precedenza aveva sostenuto alla House of Lords del Regno Unito che è impossibile addestrare modelli di grandi dimensioni senza materiale protetto da copyright, una posizione ulteriormente sottolineata dalle cause legali del New York Times e di 17 autori che sostengono violazione del copyright. Queste cause legali, insieme a un ufficio di copyright degli Stati Uniti del 2018 contro il copyright d'arte generato dall'AI, evidenziano il complesso panorama legale che circonda i dati di formazione dell'IA.