Openai suspeita que os modelos Deepseek AI da China, significativamente mais baratos que os colegas ocidentais, podem ter sido treinados usando dados do OpenAI. Essa revelação, após a enorme estoque da NVIDIA, foi denominada um "alerta" para a indústria de tecnologia dos EUA por Donald Trump.
O modelo R1 da DeepSeek, construído com o Deepseek-V3 de código aberto, possui custos de treinamento significativamente mais baixos (estimados em US $ 6 milhões) e requisitos computacionais em comparação com modelos ocidentais como o ChatGPT. Embora essa reivindicação seja contestada, ele alimentou as preocupações dos investidores sobre os bilhões investidos na IA por gigantes da tecnologia americana, causando uma desaceleração do mercado que afeta empresas como NVIDIA, Microsoft, Meta, Alphabet e Dell. O aplicativo da Deepseek chegou a liderar os gráficos de download dos EUA em meio à controvérsia.
O OpenAI e a Microsoft estão investigando se Deepseek violou os termos de serviço da OpenAI, empregando "destilação", uma técnica para extrair dados de modelos maiores, potencialmente usando a API do OpenAI. O OpenAI reconhece que as empresas chinesas freqüentemente tentam replicar os principais modelos de IA dos EUA e estão colaborando com o governo dos EUA para proteger sua propriedade intelectual.
David Sacks, Czar de AI do presidente Trump, apóia a alegação de que a Deepseek empregou a destilação de dados dos modelos Openai. Ele antecipa medidas adicionais de liderar as empresas de IA para evitar tais práticas.
A situação destaca uma ironia significativa: o Openai, acusado de utilizar conteúdo da Internet protegido por direitos autorais para treinar o ChatGPT, agora está protestando contra as supostas ações de Deepseek. Essa hipocrisia tem sido amplamente observada nas mídias sociais. O Openai argumentou anteriormente à Câmara dos Lordes do Reino Unido que o treinamento de grandes modelos de idiomas sem material protegido por direitos autorais é impossível, uma posição mais destacada pelos processos em andamento do New York Times e 17 autores alegando violação de direitos autorais. Esses processos, juntamente com um escritório de direitos autorais de direitos autorais dos EUA em 2018 contra direitos autorais de arte gerados pela IA, destacam o complexo cenário legal em torno dos dados de treinamento da IA.