Channel logo
Coin98 Insights
Save
Copy link

Deep Research: “Quân bài” của OpenAI giữa cơn sốt DeepSeek

OpenAI vừa thông báo ra mắt Deep Research, hoạt động như trợ lý ảo với khả năng phân tích chuyên sâu trong ChatGPT để "đối đầu" với DeepSeek. Vậy Deep Research là gì?
linhnt
Published Feb 07 2025
Updated Feb 07 2025
15 min read
deep research là gì

Deep Research là gì?

Deep Research là sản phẩm AI Agent của OpenAI, được tích hợp trực tiếp trong ứng dụng ChatGPT và vận hành trên nền tảng mô hình o3 mới nhất sắp được ra mắt.

Deep Research có khả năng tổng hợp thông tin từ nhiều nguồn, sau đó suy luận và phân tích dữ liệu đa chiều để giải quyết vấn đề phức tạp một cách tự chủ, thay vì chỉ phản hồi thụ động theo các truy vấn đơn lẻ.

Khác biệt cốt lõi của Deep Research nằm ở khả năng loại bỏ các giới hạn về độ trễ (latency constraints), và mô phỏng quy trình làm việc của một nhà nghiên cứu thực thụ.

Có nghĩa là, trong khi các mô hình AI thông thường được tối ưu hóa để phản hồi nhanh chóng, thời gian trả lời của Deep Research có thể kéo dài từ 5-30 phút, thậm chí lâu hơn. Việc chấp nhận độ trễ này được xem là cần thiết để công cụ mang lại kết quả chất lượng cao và đạt được chiều sâu trong hoạt động nghiên cứu.

Kết quả nghiên cứu của Deep Research được trình bày dưới dạng một báo cáo hoàn chỉnh ngay trong giao diện chat. Trong tương lai gần, OpenAI dự kiến sẽ bổ sung thêm hình ảnh, biểu đồ hay các phân tích chuyên sâu nhằm tăng cường tính rõ ràng và cung cấp ngữ cảnh đầy đủ cho người dùng.

deep research là gì
advertising

Tại sao OpenAI phát triển Deep Research?

Trong bối cảnh kỷ nguyên AI trỗi dậy mạnh mẽ, nhu cầu nghiên cứu chuyên sâu và toàn diện ngày càng trở nên cấp thiết. Trong khi các mô hình ngôn ngữ lớn hiện tại (LLMs) còn hạn chế về khả năng tự chủ nghiên cứu, hay các công cụ tìm kiếm truyền thống chỉ cung cấp kết quả rời rạc, Deep Research ra đời với nỗ lực phần nào giải quyết vấn đề trên.

Được thiết kế như một trợ lý nghiên cứu ảo, Deep Research có thể đáp ứng nhu cầu nghiên cứu chuyên sâu trong nhiều lĩnh vực. Đặc biệt đối với những chuyên gia trong các ngành như tài chính, khoa học, và kỹ thuật - những người thường xuyên phải đối mặt với các vấn đề phức tạp, đòi hỏi khả năng đào sâu lượng lớn thông tin để đưa ra quyết định chính xác.

Không dừng lại ở tệp khách hàng chuyên môn, Deep Research cũng được thiết kế để phục vụ người dùng phổ thông. Khả năng đề xuất mang tính cá nhân hóa, dựa trên quá trình học hỏi và phân tích từ dữ liệu cung cấp, giúp người tiêu dùng tiếp cận thông tin chuyên sâu một cách nhanh chóng, từ đó đưa ra lựa chọn phù hợp với nhu cầu của bản thân.

Có thể thấy, việc OpenAI ra mắt Deep Research cũng mang đậm tính chiến lược cạnh tranh, đặc biệt trong bối cảnh DeepSeek - AI chatbot đến từ Trung Quốc, nhận về phản ứng tích cực từ cộng đồng nhờ hiệu suất cao và mức phí thấp.

Sam Altman - Giám đốc điều hành OpenAI, nhận định DeepSeek là "một mô hình tốt", nhưng cũng nhấn mạnh rằng năng lực của nó "không mới mẻ gì".

DeepSeek là mô hình tốt, nhưng năng lực của nó không mới mẻ gì
Sam Altman - Giám đốc điều hành OpenAI

Theo ông, "Deep Research là trợ lý ảo mới của OpenAI, có khả năng làm việc độc lập. Người dùng chỉ cần nhập yêu cầu, Deep Research sẽ hỗ trợ người dùng tìm kiếm, phân tích từ hàng trăm nguồn trên Internet để mang lại một báo cáo chi tiết và toàn diện ở mức độ của một chuyên gia thực thụ".

Tuy vậy, OpenAI cũng thận trọng chỉ ra những hạn chế hiện hữu của Deep Research. Những thách thức này bao gồm hiện tượng "ảo giác" thông tin (hallucinate), có nghĩa mô hình có thể tạo ra nội dung không chính xác hoặc thiếu căn cứ.

Bên cạnh đó, Deep Research còn đối mặt với khó khăn trong việc phân biệt rõ ràng giữa dữ liệu có thẩm quyền, được kiểm chứng và các nguồn thông tin không chính thống, mang tính chất tin đồn. Do đó, việc đánh giá mức độ chính xác của các phản hồi do Deep Research tạo ra cũng là vấn đề cần được quan tâm và tiếp tục nghiên cứu.

Đọc thêm: Hack trong crypto: Khi AI là "cứu tinh" lẫn "tội đồ"

Hướng dẫn sử dụng công cụ Deep Research

Theo thông báo của OpenAI, người dùng sẽ có thể sử dụng Deep Research tại phiên bản o3 sắp được ra mắt của ChatGPT theo gói Pro, với mức phí hàng tháng là 200 USD/100 truy vấn/1 tháng (tương đương khoảng 5 triệu VND).

Quy trình sử dụng Deep Research như sau: 

Để kích hoạt Deep Research, người dùng cần chủ động lựa chọn tính năng này từ bảng điều khiển công cụ trước khi thực hiện truy vấn thông tin.

sử dụng deep research

Sau khi kích hoạt Deep Research, người dùng tiến hành nhập truy vấn, mô tả chi tiết yêu cầu nghiên cứu. Trong giai đoạn này, Deep Research sẽ thường xuyên sử dụng cơ chế truy vấn ngược, nhằm xác định và làm rõ mục tiêu nghiên cứu một cách chính xác nhất.

cách sử dụng deep research

Tiếp theo, Deep Research sẽ tự động thực thi các tác vụ tổng hợp và phân tích thông tin chuyên sâu. Trong suốt quá trình hoạt động, mọi thao tác và danh sách các nguồn dữ liệu hệ thống sử dụng để khai thác thông tin đều sẽ hiển thị đầy đủ tại bảng điều khiển "Activity" và “Source” ở phía bên phải giao diện.

hướng dẫn sử dụng deep research

Cuối cùng, sau một khoảng thời gian xử lý trung bình dao động từ 5-30 phút, nền tảng sẽ hoàn tất quá trình nghiên cứu và xuất bản báo cáo chuyên sâu cho người dùng.

Để dễ hình dung, giả sử người dùng muốn tìm hiểu sâu về chủ đề "Tác động của AI đến tương lai ngành giáo dục". Với Deep Research, quy trình cơ bản sẽ như sau: 

Người dùng nhập truy vấn với yêu cầu: Tác động của AI đến tương lai ngành giáo dục. Lúc này, Deep Research sẽ khởi động một quy trình nghiên cứu đa bước một cách chủ động. Ở giai đoạn đầu, thay vì tiến hành tìm kiếm thông tin ngay lập tức, hệ thống sẽ thực hiện truy vấn ngược để làm rõ và xác định chính xác nhu cầu nghiên cứu cốt lõi của người dùng.

Sau khi xác định rõ nhu cầu nghiên cứu, nền tảng sẽ khởi động quá trình thu thập dữ liệu, tập trung vào các nguồn thông tin liên quan đến hai phạm trù then chốt là “Giáo dục” và “Trí tuệ Nhân tạo”

Dựa trên nguồn dữ liệu phân tích, Deep Research tiếp tục tự động mở rộng phạm vi tìm kiếm sang các khía cạnh chuyên sâu hơn như "AI cá nhân hóa học tập", "tự động hóa quản lý giáo dục"... Quá trình này lặp đi lặp lại, với việc Deep Research liên tục phân tích thông tin, xác định các hướng đi mới, và đào sâu vào các chi tiết quan trọng.

Trong suốt quá trình, mô hình sẽ tự đánh giá độ tin cậy và tổng hợp tri thức, loại bỏ thông tin trùng lặp hoặc kém giá trị. Cuối cùng, Deep Research cung cấp một báo cáo toàn diện về tác động của AI lên giáo dục dựa trên nền tảng nghiên cứu đa chiều, vượt xa khả năng tìm kiếm thông tin thông thường.

Đánh giá hiệu suất của Deep Research

Mới đây, OpenAI đã công bố báo cáo đánh giá hiệu năng của Deep Research được vận hành trên mô hình o3, so sánh với những mô hình khác dựa trên kết quả từ ba bộ điểm chuẩn (benchmark) chính thức: Humanity’s Last Exam, GAIA (General AI Agent) và Internal Evaluation. Trước khi đi sâu vào phân tích từng benchmark cụ thể, việc hiểu cơ bản về benchmark là vô cùng cần thiết.

Trong lĩnh vực AI, benchmark là tiêu chuẩn tham chiếu được thiết kế để lượng hóa hiệu suất của các mô hình AI.  Về bản chất, một benchmark thường bao gồm một tập dữ liệu kiểm thử (dataset) được chuẩn bị kỹ lưỡng và hệ thống các metric (chỉ số đo lường) đã được xác định trước.

Mục đích cốt lõi của việc sử dụng benchmark là thiết lập một phương pháp đánh giá nhất quán và có tính so sánh cao, cho phép đối chiếu hiệu năng giữa các mô hình AI khác nhau khi  thực hiện cùng một tác vụ hoặc một nhóm tác vụ liên quan.

Thông qua quá trình benchmarking, chúng ta có thể định lượng hóa một cách chính xác năng lực thực thi của mô hình AI đối với một nhiệm vụ cụ thể. Từ đó, việc xác định điểm mạnh, điểm yếu và đánh giá mức độ phù hợp của mô hình cho từng ứng dụng khác nhau trở nên dễ dàng và khách quan hơn.

Humanity’s Last Exam

Humanity’s Last Exam là benchmark dùng để đánh giá năng lực của các mô hình AI ở trình độ chuyên gia trong nhiều lĩnh vực khác nhau. Humanity’s Last Exam bao gồm các câu hỏi trắc nghiệm và trả lời ngắn ở cấp độ chuyên gia  trên hơn 100 chủ đề, từ ngôn ngữ học và khoa học đến sinh học, toán học…

Thước đo đánh giá này kiểm định khả năng của AI trong việc suy luận giữa các lĩnh vực và tìm kiếm kiến thức chuyên môn khi cần thiết — một kỹ năng quan trọng đối với các mô hình hướng đến nghiên cứu.

Qua đó, kết quả của Deep Research đạt được mức độ chính xác là 26.6% trên benchmark Humanity’s Last Exam. Thành tích này vượt xa đáng kể so với các mô hình tiền nhiệm, bao gồm cả OpenAI o1 (9.1%), DeepSeek-R1 (9.4%) và Claude 3.5 Sonnet (4.3%).

Đáng chú ý, các chỉ số cải thiện ấn tượng nhất của Deep Research được ghi nhận trong các lĩnh vực như hóa học, khoa học xã hội và nhân văn, và toán học.  Đây là những lĩnh vực mà Deep Research đã chứng tỏ năng lực vượt trội trong việc giải mã các truy vấn phức tạp và  hồi thông tin có giá trị thẩm quyền cao.

hiệu suất deep research

GAIA (General AI Agent)

GAIA (General AI Agent) là chuẩn đo lường để thẩm định năng lực của các hệ thống AI trong việc giải quyết các bài toán mang tính thực tiễn cao. Các bài toán này đòi hỏi sự phối hợp nhuần nhuyễn giữa khả năng lý luận logic, điều hướng thông tin trên môi trường web, vận dụng linh hoạt đa dạng phương thức biểu đạt, và kỹ năng sử dụng thành thạo các công cụ hỗ trợ.

Theo kết quả thu thập được, kết quả Deep Research ghi nhận đang đứng đầu bảng xếp hạng GAIA của các mô hình AI. Nổi bật là Deep Research đạt được độ xác thực cao trong các tác vụ thuộc Cấp độ 3, vốn là những bài toán yêu cầu quá trình nghiên cứu đa tầng, phức tạp, kết hợp cùng khả năng tổng hợp thông tin ở trình độ cao.

Những con số khác trong bảng so sánh cũng chỉ ra rằng:

  • "pass@1" cao: Điểm số này cho thấy rằng ngay trong lần thử trả lời đầu tiên, Deep Research đã có độ chính xác cao hơn hẳn so với các AI khác.
  • "cons@64" cao: Điểm số này đo lường hiệu suất của AI khi được thử nhiều lần (tối đa 64 lần) để đưa ra câu trả lời. Điểm "cons@64" cao của Deep Research cho thấy rằng, nếu câu trả lời không đúng ngay từ đầu, công cụ có khả năng tự sửa lỗi, tự điều chỉnh câu trả lời dựa trên những thông tin mới mà nó thu thập được trong các lần thử tiếp theo.
đánh giá deep research

Internal Evaluation

Bên cạnh hai điểm chuẩn trên, OpenAI cũng đã thực hiện các đánh giá nội bộ, trong đó Deep Research được các chuyên gia trong ngành thẩm định về các tác vụ ở trình độ chuyên gia như tổng hợp, phân tích và đánh giá thông tin.

Theo đó, kết quả đánh giá Deep Research được thể hiện qua ba biểu đồ. Đầu tiên, biểu đồ về mối liên hệ giữa số lần Deep Research sử dụng "lệnh gọi công cụ" (tool calls) và kết quả làm bài kiểm tra của nó (tỷ lệ vượt qua).

Trong ngữ cảnh của Deep Research, tool call có thể hiểu là những hành động mà mô hình AI này chủ động thực hiện để thu thập và xử lý thông tin trong quá trình nghiên cứu như duyệt web, phân tích thông tin, sử dụng các công cụ khác để hỗ trợ nghiên cứu…

Biểu đồ cho thấy, số lượng lệnh gọi công cụ càng lớn, hiệu suất của Deep Research càng được cải thiện. Điều này có nghĩa là việc cho phép Deep Research có đủ thời gian và "không gian" để "suy nghĩ" (thông qua các lệnh gọi công cụ) là yếu tố then chốt để AI phát huy tối đa tiềm năng của mình trong việc giải quyết các bài toán phức tạp.

đánh giá deep research
Biểu đồ thể hiện hiệu suất sử dụng Tool Call của Deep Research (Nguồn: OpenAI)

Xem xét một biểu đồ khác thể hiện mối quan hệ giữa hiệu suất của Deep Research và "ảnh hưởng giá trị kinh tế" của các công việc mà nó thực hiện. Để dễ hiểu, người dùng có thể tưởng tượng "giá trị kinh tế" ở đây như là tầm quan trọng về mặt tiền bạc của công việc đó. Ví dụ:

  • Công việc giá trị kinh tế thấp: Có thể là những việc như tổng hợp thông tin về một chủ đề ít người quan tâm, hoặc tìm kiếm dữ liệu không quá quan trọng về mặt tài chính.
  • Công việc giá trị kinh tế cao: Thường là những việc liên quan đến quyết định đầu tư lớn, phân tích thị trường phức tạp, hoặc nghiên cứu khoa học.
đánh giá deep research
Biểu đồ thể hiện mối quan hệ giữa hiệu suất của Deep Research và Ảnh hưởng giá trị kinh tế đến tác vụ thực thi. (Nguồn: OpenAI)

Kết quả cho thấy, Deep Research đạt hiệu suất cao ở những công việc có "giá trị kinh tế ước tính thấp hơn". Trong khi đó, độ chính xác giảm dần khi tiềm năng tác động tài chính của tác vụ tăng lên.

Đối với biểu đồ so sánh hiệu suất của Deep Research với "số giờ ước tính mà con người cần để hoàn thành mỗi tác vụ”, kết quả đánh giá cho thấy mô hình đạt hiệu suất tốt nhất ở các tác vụ mà con người mất từ 1-3 giờ để hoàn thành. Tuy nhiên, điều này không có nghĩa là công việc càng tốn nhiều thời gian, hiệu suất của mô hình càng giảm.

đánh giá deep research
Biểu đồ thể hiện mối liên hệ giữa hiệu suất của Deep Research với Số giờ ước tính mà con người cần để hoàn thành mỗi tác vụ. (Nguồn: OpenAI)

Ví dụ, có những việc con người làm mất nhiều thời gian nhưng lại không quá khó đối với AI như tìm kiếm và tổng hợp thông tin đơn giản trên web. Ngược lại, cũng có những việc con người làm nhanh nhưng lại "hóc búa" đối với AI, ví dụ như việc đòi hỏi sự sáng tạo, cảm xúc, hoặc kinh nghiệm sống.

RELEVANT SERIES