OpenAI soupçonne que les modèles d'IA profonde de la Chine, nettement moins chers que les homologues occidentaux, peuvent avoir été formés à l'aide de données OpenAI. Cette révélation, à la suite du stock massif de Nvidia, a été qualifiée de "réveil" pour l'industrie de la technologie américaine par Donald Trump.
Le modèle R1 de Deepseek, construit sur le open-source Deepseek-V3, possède des coûts de formation nettement inférieurs (estimés à 6 millions de dollars) et des exigences de calcul par rapport aux modèles occidentaux comme Chatgpt. Bien que cette réclamation soit contestée, elle a alimenté les préoccupations des investisseurs concernant les milliards investis dans l'IA par les géants de la technologie américaine, provoquant un ralentissement du marché affectant des sociétés comme NVIDIA, Microsoft, Meta, Alphabet et Dell. L'application de Deepseek a même dépassé les tableaux de téléchargement américains au milieu de la controverse.
OpenAI et Microsoft examinent si Deepseek a violé les conditions d'utilisation d'Openai en utilisant la «distillation», une technique pour extraire les données de modèles plus grands, potentiellement à l'aide de l'API d'Openai. OpenAI reconnaît que les entreprises chinoises tentent fréquemment de reproduire les principaux modèles d'IA américains et collaborent avec le gouvernement américain pour protéger sa propriété intellectuelle.
David Sacks, le tsar de l'IA du président Trump, soutient l'affirmation selon laquelle Deepseek a utilisé la distillation des données des modèles OpenAI. Il prévoit que de nouvelles mesures de la réalisation des entreprises d'IA pour prévenir de telles pratiques.
La situation met en évidence une ironie importante: Openai, lui-même accusé d'utiliser le contenu Internet protégé par le droit d'auteur pour former Chatgpt, proteste désormais aux actions présumées de Deepseek. Cette hypocrisie a été largement notée sur les réseaux sociaux. Openai a précédemment fait valoir à la Chambre des Lords du Royaume-Uni que la formation de modèles de grande langue sans matériel protégé par le droit d'auteur est impossible, une position en outre soulignée par les poursuites en cours du New York Times et 17 auteurs alléguant une violation du droit d'auteur. Ces poursuites, ainsi qu'un bureau de droit d'auteur américain de 2018 contre le droit d'auteur sur l'ART de l'AI-AI, mettent en évidence le paysage juridique complexe entourant les données de formation de l'IA.