Mô hình AI rẻ tiền đáng ngạc nhiên của Deepseek thách thức những người khổng lồ trong ngành. Khởi nghiệp Trung Quốc tuyên bố đã đào tạo Deepseek V3
mạnh mẽ của mình chỉ với 6 triệu đô la, chỉ sử dụng GPU 2048, vượt qua đáng kể các đối thủ cạnh tranh. Tuy nhiên, chi phí dường như thấp này tin vào một khoản đầu tư lớn hơn nhiều.
Kiến trúc sáng tạo của DeepSeek V3 góp phần vào hiệu quả của nó. Các công nghệ chính bao gồm dự đoán đa điểm (MTP) để dự đoán từ đồng thời, hỗn hợp của các chuyên gia (MOE) sử dụng 256
s và sự chú ý tiềm ẩn đa đầu (MLA) để tăng cường tập trung vào các yếu tố câu quan trọng.
Hình ảnh: Ensigame.com
Tuy nhiên, một cái nhìn gần hơn cho thấy một khoản đầu tư cơ sở hạ tầng đáng kể. Phép phân tích đã phát hiện ra việc sử dụng khoảng 50.000 GPU phễu NVIDIA của Deepseek, với tổng chi phí máy chủ khoảng 1,6 tỷ đô la và chi phí hoạt động trị giá 944 triệu đô la. Điều này trái ngược hoàn toàn với yêu cầu chi phí đào tạo trị giá 6 triệu đô la ban đầu, chỉ tính đến việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, sàng lọc, xử lý dữ liệu và cơ sở hạ tầng tổng thể.
Hình ảnh: Ensigame.com
Thành công của Deepseek bắt nguồn từ cấu trúc độc lập của nó, cho phép đổi mới nhanh chóng và phân bổ nguồn lực hiệu quả. Công ty, một công ty con của quỹ phòng hộ cao, sở hữu các trung tâm dữ liệu của mình, không giống như các đối thủ cạnh tranh do đám mây. Hơn nữa, mức lương cao của nó thu hút tài năng hàng đầu từ các trường đại học Trung Quốc. Tổng số đầu tư của DeepSeek, vào phát triển AI vượt quá 500 triệu đô la.
Hình ảnh: Ensigame.com
Neural Network Trong khi tuyên bố "thân thiện với ngân sách" của Deepseek là sai lệch, hiệu quả chi phí của nó liên quan đến các đối thủ cạnh tranh vẫn đáng chú ý. Mô hình R1 của công ty có giá 5 triệu đô la để đào tạo, so với 100 triệu đô la của TATGPT4. Ví dụ của Deepseek cho thấy tiềm năng của một công ty AI nhanh nhẹn được tài trợ tốt để cạnh tranh hiệu quả với những người chơi đã thành lập, bất chấp sự phóng đại của các yêu cầu chi phí ban đầu. Thực tế là một khoản đầu tư đáng kể, tiến bộ công nghệ và lực lượng lao động lành nghề là chìa khóa thành công của nó. Neural Network