DeepSeek là gì? Khám phá “gương mặt mới” trên bản đồ AI

DeepSeek là gì?
DeepSeek là công ty công nghệ trí tuệ nhân tạo đến từ Trung Quốc. Ngày 20/1/2025, với sự ra mắt của DeepSeek-R1, dự án nổi lên như “ngôi sao mới” trong lĩnh vực mô hình ngôn ngữ lớn (LLM) và chatbot AI.
Mô hình DeepSeek-R1 được tích hợp trong ứng dụng DeepSeek, tương tự với các mô hình o1, o3-mini của OpenAI với sản phẩm ChatGPT. Thiết kế của DeepSeek-R1 tập trung vào khả năng suy luận, giải quyết các vấn đề logic phức tạp và các tác vụ tính toán chuyên sâu.
Đáng chú ý, DeepSeek-R1 được đánh giá có hiệu năng tương đương với mô hình GPT-o1 của OpenAI, thậm chí vượt trội hơn trong một số bài kiểm tra chuẩn về toán học và lập trình. Tuy nhiên, mô hình lại sở hữu lợi thế vượt trội về chi phí và cơ chế mã nguồn mở, từ đó mở ra cơ hội tiếp cận AI cho đông đảo người dùng.

"AI Trung Quốc không thể mãi là kẻ đi sau"
DeepSeek do Lương Văn Phong (Liang Wenfeng) thành lập vào tháng 5/2023 tại Trung Quốc và thuộc quyền sở hữu của công ty mẹ High-Flyer (quỹ đầu tư định lượng quản lý khối tài sản trị giá 10 tỷ USD).
Thông tin về CEO của DeepSeek khá ít ỏi. Ông nổi tiếng trong giới công nghệ với việc là cựu sinh viên ưu tú của Đại học Chiết Giang, sở hữu chuyên môn cao về kỹ thuật thông tin điện tử và khoa học máy tính.

Khác biệt với nhiều startup công nghệ chạy theo chiến lược truyền thông và huy động vốn rầm rộ, DeepSeek xây dựng "văn hóa kín tiếng" đặc trưng, chú trọng vào chất lượng sản phẩm. Văn hóa này phần nào được xây dựng nhờ việc công ty được High-Flyer rót vốn hoàn toàn mà không cần trải qua các vòng gọi vốn bên ngoài.
Lợi thế trên giúp đội ngũ kỹ sư của DeepSeek tập trung toàn lực xây dựng sản phẩm. Đội ngũ nhân sự của DeepSeek cũng phản ánh tinh thần startup "thực chiến". Công ty ưu tiên tuyển dụng kỹ sư trẻ đam mê và giàu tiềm năng, thay vì những "ngôi sao" đã thành danh.
Trả lời truyền thông Trung Quốc tháng 7/2024, Lương Văn Phong khẳng định rằng ngành AI Trung Quốc "không thể mãi là kẻ đi sau" trong cuộc đua phát triển AI toàn cầu - vốn đang bị Mỹ thống trị.
Sự ngạc nhiên của họ xuất phát từ việc chứng kiến một công ty Trung Quốc bước chân vào cuộc chơi với vai trò người dẫn đầu, chứ không còn là kẻ bắt chước
Khi được hỏi về lý do mô hình DeepSeek-R1 gây bất ngờ lớn cho giới công nghệ Thung lũng Silicon, Lương Văn Phong nói: "Sự ngạc nhiên của họ xuất phát từ việc chứng kiến một công ty Trung Quốc bước chân vào cuộc chơi với vai trò người dẫn đầu, chứ không còn là kẻ bắt chước”.
Bí mật của DeepSeek-R1
Để đạt được sự cân bằng giữa hiệu suất và chi phí vận hành, mô hình DeepSeek-R1 kết hợp kiến trúc Mixture of Experts (MoE) với các kỹ thuật như Multi-head Latent Attention (MLA), Mixed Precision Training và DualPipe.
Trong đó, kiến trúc MoE là điểm nhấn cốt lõi của mô hình. Thay vì triển khai một mô hình monolithic (nguyên khối) duy nhất, MoE tiếp cận bài toán cân bằng chi phí và hiệu năng bằng cách mô-đun hóa kiến trúc, tạo ra một mạng lưới gồm nhiều "expert networks" (mạng chuyên gia) độc lập.
Mỗi "chuyên gia" được huấn luyện để chuyên biệt hóa trong việc xử lý một phân vùng nhỏ của không gian đầu vào, hay nói cách khác, tối ưu cho một tập hợp con các tác vụ hoặc loại dữ liệu cụ thể.
Có nghĩa là, trong quá trình suy luận (inference), khi mô hình tiếp nhận một truy vấn, thay vì kích hoạt toàn bộ hệ thống (tương ứng với 671 tỷ tham số), cơ chế này chỉ lựa chọn và kích hoạt một phần nhỏ, cụ thể là các "chuyên gia" phù hợp nhất để xử lý truy vấn đó. Phần còn lại của mạng lưới vẫn ở trạng thái "ngủ đông", từ đó hạn chế tiêu tốn tài nguyên tính toán.
Đối với các kỹ thuật MLA, DualPipe và MPT, chúng đều đóng vai trò hỗ trợ để hoàn thiện bức tranh tối ưu hóa mô hình về mọi mặt. Kết quả là, dựa trên các benchmark như AIME, MATH-500, GPQA, DeepSeek-R1 chứng minh hiệu năng tương đương với Claude-3.5 và có phần nhỉnh hơn so với GPT-o1 - những mô hình được coi là tham chiếu trong lĩnh vực LLM.
Về khía cạnh chi phí, trong bối cảnh Mỹ hạn chế xuất khẩu chip, đội ngũ DeepSeek đã phải tìm cách tối ưu việc sử dụng các nguồn lực tính toán, bao gồm cả các chip không phải loại tiên tiến nhất.
Dưới góc độ kinh tế, sự linh hoạt này đã giúp chi phí tính toán cùa DeepSeek-R1 thấp hơn 90% so với các mô hình tương đương - rơi vào khoảng 6 triệu USD. Tất nhiên, con số này chỉ phản ánh chi phí tính toán, chưa bao gồm các yếu tố khác như nhân sự, marketing…

Cùng với đó, việc DeepSeek-R1 lựa chọn con đường mã nguồn mở đã mở rộng cơ hội tiếp cận công nghệ cho đông đảo người dùng, từ startup nhỏ đến các nhà phát triển cá nhân. Bằng cách chia sẻ mã nguồn, DeepSeek tạo ra một vòng tròn giá trị khép kín, với mô hình R1 không ngừng được cải thiện, phát triển và lan tỏa sức mạnh đến cộng đồng.
Để công nghệ DeepSeek-R1 được "phủ sóng” rộng rãi, DeepSeek còn cung cấp các phiên bản tinh gọn (distilled). Đây là một kỹ thuật nén mô hình cho phép kích thước và yêu cầu tính toán của mô hình trở nên tinh gọn hơn trong khi vẫn duy trì phần lớn hiệu năng.
Do đó, các phiên bản tinh gọn của DeepSeek-R1 có thể được triển khai hiệu quả trên các thiết bị cá nhân với cấu hình vừa phải, giảm thiểu rào cản về hạ tầng phần cứng chuyên dụng và mở ra nhiều ứng dụng đa dạng cho người dùng cuối và giới phát triển ứng dụng.

Cuối cùng, tiếng vang của DeepSeek-R1 còn đến từ câu chuyện về một “tân binh” Trung Quốc thách thức sự thống trị của các “ông lớn” công nghệ phương Tây. Trong bối cảnh căng thẳng địa chính trị và các lệnh cấm vận công nghệ, DeepSeek nổi lên như một minh chứng rằng: sức mạnh trí tuệ và khả năng sáng tạo có thể vượt qua rào cản về nguồn lực.
Mô hình DeepSeek-R1 trên “bàn cân” AI
Trong các bài kiểm tra điểm chuẩn (benchmark), DeepSeek-R1 liên tục thể hiện năng lực cạnh tranh trực diện với mô hình tham chiếu ChatGPT-o1 trên nhiều lĩnh vực đánh giá. Phân tích chi tiết từng lĩnh vực benchmark dưới đây sẽ cung cấp cái nhìn toàn diện và sâu sắc hơn về sự so sánh này.
AIME 2024 và MATH-500
Trong benchmark AIME 2024 - bài kiểm tra tiêu chuẩn đánh giá năng lực suy luận toán học đa bước phức tạp ở trình độ cao, DeepSeek-R1 ghi điểm 79.8%, nhỉnh hơn so với ChatGPT-o1-1217 (79.2%). Kết quả này cho thấy ưu thế nhẹ của DeepSeek-R1 trong các bài toán đòi hỏi tư duy logic và khả năng giải quyết vấn đề toán học cao cấp.

Ở benchmark MATH-500 - điểm chuẩn tập trung vào đánh giá khả năng giải quyết đa dạng các bài toán học ở cấp độ trung học phổ thông và đòi hỏi lập luận chặt chẽ, DeepSeek-R1 đạt điểm số 97.3%, cao hơn ChatGPT-o1-1217 (96.4%).
Codeforces & SWE-bench Verified
Benchmark Codeforces được thiết kế để đo lường năng lực lập trình và suy luận thuật toán của mô hình trong môi trường thi đấu code thực tế, kết quả được biểu diễn dưới dạng xếp hạng phần trăm (percentile ranking) so với người tham gia là con người.
ChatGPT-o1-1217 dẫn đầu với 96.6%, trong khi DeepSeek-R1 đạt mức sát sao 96.3%. Điều này cho thấy khả năng lập trình và tư duy thuật toán của DeepSeek-R1 hoàn toàn tương đương và có tính cạnh tranh cao với mô hình từ OpenAI.
Benchmark SWE-bench Verified Benchmark tập trung đánh giá khả năng suy luận trong bối cảnh các tác vụ kỹ thuật phần mềm thực tế. Với benchmark này, hiệu năng của DeepSeek-R1 đạt được 49.2%, nhỉnh hơn một chút so với ChatGPT-o1-1217 (48.9%).
Kết quả này khẳng định DeepSeek-R1 là một công cụ tốt trong các tác vụ suy luận chuyên sâu liên quan đến kỹ năng phần mềm, ví dụ như kiểm thử và xác minh phần mềm.
Kiến thức Tổng quát: GPQA Diamond và MMLU
Benchmark GPQA Diamond đo lường khả năng truy xuất và suy luận dựa trên kiến thức thực tế phổ thông, trong đó DeepSeek-R1 đạt 71.5%, kém hơn so với ChatGPT-o1-1217 (75.7%). Kết quả benchmark này chỉ ra rằng ChatGPT-o1-1217 vẫn giữ ưu thế trong các tác vụ đòi hỏi khả năng suy luận dựa trên lượng lớn kiến thức chung và thông tin thực tế.
Benchmark MMLU - với phạm vi đánh giá bao trùm nhiều lĩnh vực học thuật khác nhau và kiểm tra khả năng hiểu ngôn ngữ đa nhiệm, cho thấy ChatGPT-o1 vẫn có phần nhỉnh hơn DeepSeek-R1. Điểm số của ChatGPT-o1 là 91.8%, so với 90.8% của DeepSeek-R1.
Tuy nhiên, chênh lệch này không quá đáng kể. Điều này cho thấy DeepSeek-R1 vẫn duy trì năng lực hiểu ngôn ngữ đa dạng và đa nhiệm ở mức cao, tiệm cận với mô hình dẫn đầu của OpenAI.
Đọc thêm Deepseek giá rẻ: "Món quà" nguồn mở cho crypto AI Agent
Hướng dẫn sử dụng DeepSeek
Hiện tại, người dùng có thể sử dụng DeepSeek được vận hành qua mô hình R1 hoàn toàn miễn phí. Quy trình sử dụng như sau:
Truy cập vào ứng dụng DeepSeek và đăng ký/ đăng nhập vào tài khoản bằng Email hoặc số điện thoại.

Sau khi truy cập vào ứng dụng, để sử dụng DeepSeek-R1 cho truy vấn, người dùng cần chọn tính năng DeepThink (R1) trên thanh công cụ trước khi nhập yêu cầu.

Trong khu vực nhập liệu truy vấn, người dùng nhập yêu cầu thông tin hoặc tác vụ mong muốn DeepSeek-R1 thực hiện. Nền tảng sẽ tự động tổng hợp, phân tích và truy xuất thông tin, sau đó trả về kết quả cho người dùng.
Để thuận tiện theo dõi và tham khảo lại các phiên tương tác trước đó, mọi dữ liệu lịch sử cuộc đối thoại đều được lưu trữ trong tính năng Chat, được bố trí tại vị trí phía bên trái giao diện nền tảng.
Đọc thêm: Deep Research: “Quân bài” của OpenAI giữa cơn sốt DeepSeek