Channel logo
Coin98 Insights
Save
Copy link

Deepseek giá rẻ: "Món quà" nguồn mở cho crypto AI Agent

Công ty DeepSeek từ Trung Quốc hứa hẹn giúp các dự án crypto thoát khỏi sự “kiểm soát” của các nền tảng AI tập trung truyền thống.
Aiden
Published Feb 12 2025
Updated Feb 17 2025
9 min read
deepseek

Gần cuối tháng 1/2025, sự xuất hiện của mô hình DeepSeek R1 - một startup AI đến từ Trung Quốc, đã gây xôn xao khắp Thung lũng Silicon và toàn bộ lĩnh vực AI. Công ty tuyên bố cung cấp các mô hình AI mã nguồn mở, hiệu năng cao với chi phí chỉ bằng một phần nhỏ so với các đối thủ cạnh tranh.

Sau tin này, cổ phiếu các công ty công nghệ và thị trường crypto đã trải qua đợt biến động mạnh, tiêu biểu vốn hóa thị trường của cổ phiếu NVIDIA đã sụt giảm gần 600 tỷ USD chỉ trong một ngày.

Nhà đầu tư lo ngại nhu cầu GPU sẽ giảm mạnh nếu chi phí huấn luyện AI thực sự thấp như DeepSeek tuyên bố, dẫn đến việc vị thế thống trị của các công ty AI ở Mỹ bị đe doạ.

Chính quyền mới của Mỹ nhận định rằng sự trỗi dậy của DeepSeek là “hồi chuông cảnh tỉnh” cho ngành công nghệ Mỹ. Động thái này sẽ giúp thúc đẩy sự cạnh tranh, khuyến khích các công ty Mỹ tìm ra giải pháp hiệu quả hơn về chi phí để có thể giành chiến thắng trong lĩnh vực trí tuệ nhân tạo.

1.6 tỷ USD với 6 triệu USD

Theo công bố từ dự án, chi phí để huấn luyện mô hình DeepSeek R1 chỉ rơi vào khoảng 6 triệu USD. Con số này vô cùng “khiêm tốn” so với hàng trăm triệu USD mà OpenAI đã đầu tư vào mô hình GPT-4 tân tiến nhất của họ.

Thực tế DeepSeek không giảm chi phí nhờ đột phá công nghệ hoàn toàn mới mà nhờ tận dụng hiệu quả nguồn GPU trước khi lệnh cấm xuất khẩu chip của Mỹ có hiệu lực.

Ngoài ra, việc công ty áp dụng các thuật toán như Multi-Token Prediction (MTP) và Multi-Head Latent Attention (MLA) để giảm chi phí suy luận cũng giúp tối ưu hiệu suất trên cùng một hạ tầng tính toán, giúp chi phí giảm đi đáng kể.

Cụ thể, Multi-Token Prediction là một kỹ thuật giúp mô hình AI dự đoán nhiều token cùng lúc thay vì từng token riêng lẻ. Với các mô hình huấn luyện truyền thống, AI sẽ dự đoán output của từng token một, nghĩa là khi bạn huấn luyện câu “Trí tuệ nhân tạo sẽ thay đổi thế giới”, mô hình lần lượt nhận “Trí” để dự đoán “tuệ”, sau đó “Trí tuệ” để dự đoán “nhân” và tiếp tục như vậy.

Cách này làm chậm tốc độ huấn luyện do cần nhiều bước tính toán. Với MTP, mô hình có thể nhận “Trí” và dự đoán luôn “tuệ nhân tạo” thay vì chỉ “tuệ”, giúp giảm số vòng huấn luyện, tối ưu hóa hiệu suất và tiết kiệm tài nguyên.

Đối với Multi-Head Latent Attention, kỹ thuật này giúp giảm đáng kể dung lượng bộ nhớ cần thiết khi thực hiện bước suy luận trong mô hình, giúp mô hình vận hành hiệu quả hơn trên cùng một phần cứng. Nhờ đó, DeepSeek có thể đạt được hiệu suất tương đương với các mô hình lớn khác trong khi vẫn tối ưu hóa chi phí.

deepseek performance
Chi phí suy luận của DeepSeek v3 so với các AI model khác

Bảng so sánh trên cho thấy DeepSeek V3 (mô hình nền tảng đóng vai trò tiền đề cho DeepSeek R1) có chi phí suy luận thấp hơn đáng kể so với các đối thủ như Claude-3.5 và GPT-4o, với giá từ 0.14 đến 1.25 USD cho 1 triệu token đầu vào.

Hiệu suất ngôn ngữ của mô hình đạt mức cạnh tranh cao, thể hiện qua điểm MMLU (đánh giá năng lực, hiệu suất tổng quát mô hình), đạt mức 88.5.

Tuy chưa vượt trội về khả năng lập trình (SWE), DeepSeek V3 vẫn có kết quả ổn định. Trong lĩnh vực toán học (AIME 2024 & MATH-500), mô hình vượt trội với điểm MATH-500 đạt 90.2 nhờ vào các kỹ thuật tối ưu như MTP và MLA.

Với chi phí thấp mà công ty công bố, hiệu suất của mô hình này lại không hề thua kém các đối thủ lớn trên thị trường. Điều này thể hiện rõ khi DeepSeek V3 chứng minh khả năng suy luận với chi phí thấp, còn R1 tiếp tục nâng cấp độ chính xác và khả năng xử lý dữ liệu, cạnh tranh với các mô hình OpenAI.

deepseek benchmark
Hiệu suất của DeepSeek R1 so với các mô hình OpenAI o1 trên nhiều bài kiểm tra tiêu chuẩn. Nguồn: DeepSeek

Tuy nhiên, trái ngược với tuyên bố của DeepSeek, báo cáo từ Semianalysis cho biết con số này chỉ phản ánh chi phí tính toán GPU cho một lần huấn luyện (pre-training) mà không bao gồm các khoản đầu tư và chi phí khác.

Theo báo cáo, DeepSeek đã đầu tư tổng cộng 1.6 tỷ USD vào cơ sở hạ tầng phần cứng với hơn 50,000 GPU Nvidia tân tiến nhất, bao gồm: 10,000 “siêu” GPU H100; 10,000 GPU H800 và 30,000 GPU H20. Ngoài ra, chi phí vận hành như điện, bảo trì và nhân sự ước tính rơi khoảng 944 triệu USD, nâng tổng mức đầu tư lên tới 2.5 tỷ USD.

So với con số 6 triệu USD mà DeepSeek công bố, thống kê này cho thấy bức tranh hoàn toàn khác về chi phí thực sự của mô hình.

deepseek cost
Tổng chi phí sở hữu của DeepSeek trong 4 năm lên đến hơn 2.5 tỷ USD

Xét tổng thể, DeepSeek vẫn đối mặt với những thách thức tài chính tương tự các công ty AI phương Tây, nhưng cách họ công bố số liệu tạo cảm giác về một mô hình AI tân tiến với chi phí thấp hơn thực tế.

Đọc thêm: Hướng dẫn sử dụng DeepSeek

advertising

Mã nguồn mở là một món quà

Vượt khỏi vấn đề giá, DeepSeek đang mở ra một kỷ nguyên mới trong lĩnh vực AI x Crypto với mô hình mã nguồn mở. Điều này đối lập hoàn toàn với cách tiếp cận mã nguồn đóng của các gã khổng lồ trong ngành như OpenAI, Google DeepMind hay Anthropic.

Trong hệ sinh thái Web3, tính phi tập trung là yếu tố cốt lõi, và DeepSeek hứa hẹn giúp các dự án crypto thoát khỏi sự “kiểm soát” của các nền tảng AI tập trung. Điều này đồng nghĩa với việc các dự án hay giao thức blockchain có thể triển khai AI theo cách minh bạch, độc lập và không bị giới hạn bởi chính sách của bên thứ ba.

“Những ai nhìn vào hiệu suất của DeepSeek và cho rằng Trung Quốc đang vượt mặt Mỹ trong lĩnh vực AI đã hiểu sai vấn đề. Cách hiểu đúng phải là: ‘Các mô hình mã nguồn mở đang vượt qua những mô hình độc quyền’”, Yann LeCun - Giám đốc AI tại Meta, chia sẻ.

Không chỉ giúp dự án “nắm đằng chuôi”, DeepSeek còn tối ưu hóa chi phí AI một cách đáng kể. Việc sử dụng API từ OpenAI hay Google đòi hỏi khoản phí lớn, khiến nhiều startup gặp khó khăn trong việc tích hợp AI vào sản phẩm.

Với Deepseek, startup crypto có thể triển khai AI một cách linh hoạt mà không phải chi trả những khoản phí đắt đỏ cho các API độc quyền. Trong khi đó, các framework AI trong crypto có thể dễ dàng được sử dụng hoặc mở rộng bằng DeepSeek, giảm rào cản và đẩy nhanh tốc độ phát triển AI trong Web3.

Ngoài ra, DeepSeek cũng đang thúc đẩy sự phát triển của AI Agent. Thực tế, một số dự án như Eliza, MyShell.AI, Build.fun và Hyperbolic đã bắt đầu tích hợp DeepSeek để tận dụng khả năng xử lý ngôn ngữ hiệu quả với chi phí thấp, mở ra những cơ hội mới cho giao dịch tự động và quản lý tài sản số.

Với những cải tiến công nghệ trong DeepSeek R1, các AI Agent có thể tiến nhanh hơn đến AGI (siêu trí tuệ nhân tạo), từ đó nâng cao trải nghiệm người dùng trong crypto.

“DeepSeek R1 là một trong những đột phá ấn tượng nhất tôi từng thấy. Với mã nguồn mở, đây là một món quà ý nghĩa cho thế giới”, Marc Andreessen - đồng sáng lập quỹ đầu tư a16z, nhận định.

DeepSeek R1 là một trong những đột phá ấn tượng nhất tôi từng thấy. Với mã nguồn mở, đây là một món quà ý nghĩa cho thế giới
Marc Andreessen, đồng sáng lập quỹ đầu tư a16z

Tuy nhiên, dù DeepSeek là mã nguồn mở nhưng nền tảng vẫn có thể trở thành mục tiêu tấn công khi mô hình và dữ liệu huấn luyện có thể bị khai thác để tạo ra deepfake hoặc những vụ lừa đảo.

Bên cạnh đó, khả năng duy trì mô hình huấn luyện AI chi phí thấp trong dài hạn là một câu hỏi lớn. Liệu DeepSeek có thể tiếp tục duy trì mức giá cạnh tranh mà không ảnh hưởng đến chất lượng? Nếu công ty gặp khó khăn tài chính hoặc chịu áp lực từ thị trường, các dự án crypto phụ thuộc vào DeepSeek có thể đối mặt những gián đoạn nghiêm trọng.

Đọc thêm: Siêu trí tuệ nhân tạo AGI & con người, tương lai Cyborg không còn xa?

RELEVANT SERIES