Channel logo
Coin98 Insights
Save
Copy link

Gata: Thị trường dữ liệu AI được YZi Labs hậu thuẫn

Frontier data, hay dữ liệu tiên phong là loại dữ liệu chất lượng cao thường được sử dụng để huấn luyện và phát triển các mô hình AI cao cấp. Dự án Gata đang đi theo hướng này và đã nhận được khoản vốn từ YZi Labs.
linhnt
Published Jul 24 2025
7 min read
gata là gì

Gata là gì?

Gata là nền tảng dữ liệu phi tập trung, tập trung nghiên cứu, sản xuất và sở hữu dữ liệu "tiên phong" (frontier data), loại dữ liệu có giá trị chiến lược để huấn luyện những mô hình AI chất lượng.

gata là gì

Dự án xây dựng một mạng lưới dữ liệu do người dùng sở hữu, có thể xác minh được, nhằm thúc đẩy sự phát triển của tầm nhìn siêu trí tuệ nhân tạo AGI. Trước đây, Gata được biết đến với tên Aggregata, gần đây dự án thu hút sự chú ý nhờ YZi Labs đứng sau hậu thuẫn.

Tại thời điểm viết bài, dự án chưa tiết lộ thông tin tokenomics. Bài viết sẽ cập nhật ngay khi có thông báo.

Sản phẩm của Gata

Thay vì chỉ cung cấp dịch vụ gán nhãn dữ liệu như các công ty truyền thống, Gata sử dụng cơ chế khuyến khích bằng token và điểm thưởng (Gata Point) để thu hút cộng đồng người dùng toàn cầu: GPT-to-Earn, All-in-One Chat, DVA (Data Validation Agent).

GPT-to-Earn

GPT-to-Earn là tiện ích mở rộng (extension) dành cho Chrome, cho phép người dùng chia sẻ dữ liệu hội thoại ChatGPT của mình để nhận Gata Point, đơn vị thưởng trong hệ sinh thái Gata.

Sản phẩm GPT-to-Earn giải quyết một vấn đề lớn của ngành AI: người dùng tạo ra nguồn dữ liệu hội thoại giá trị thông qua các tương tác với các mô hình ngôn ngữ lớn như ChatGPT, nhưng lại không được trao quyền sở hữu hay hưởng lợi trực tiếp từ chính dữ liệu mà họ tạo ra.

gpt-to-earn gata
Giao diện GPT-to-Earn của Gata

Với GPT-to-Earn, nền tảng Gata mong muốn thiết lập lại cán cân này bằng cách trả lại quyền kiểm soát và giá trị của dữ liệu cho người dùng. Mục tiêu cuối cùng là trao quyền để người dùng "có phần" trong chuỗi giá trị đang phát triển nhanh chóng của ngành công nghiệp AI.

All-in-One Chat

All-in-One Chat là nền tảng trò chuyện với AI, tích hợp và truy vấn đồng thời ba mô hình ngôn ngữ lớn hàng đầu: ChatGPT từ OpenAI, Claude từ Anthropic và Gemini từ Google.

Với mỗi câu hỏi hoặc yêu cầu mà người dùng đưa ra, All-in-One Chat sẽ trả về ba phản hồi khác nhau, mỗi phản hồi được tạo ra bởi một mô hình AI riêng biệt. Sau đó, người dùng sẽ lựa chọn phản hồi mà họ cho là tốt nhất hoặc phù hợp nhất trong số ba tùy chọn được đưa ra.

gata token
Giao diện All-in-One Chat của Gata

Quá trình người dùng lựa chọn phản hồi này phục vụ mục tiêu chính của nền tảng: thu thập dữ liệu "human preference" (sở thích của con người).

Đây là loại dữ liệu vô cùng quan trọng, được coi là "trái tim" của kỹ thuật Reinforcement Learning from Human Feedback (RLHF - Học tăng cường từ phản hồi con người), một phương pháp then chốt giúp huấn luyện các mô hình AI.

Mỗi lựa chọn mà người dùng đưa ra (đồng nghĩa với việc đánh giá và loại bỏ các phản hồi kém phù hợp hơn) đều được ghi lại, tạo thành nguồn dữ liệu sở thích chất lượng cao phục vụ cho việc cải thiện và tinh chỉnh các mô hình AI, giúp chúng trở nên hữu ích và đáng tin cậy hơn.

Mô hình này mang lại các lợi ích: Người dùng có thể để trải nghiệm sức mạnh tổng hợp của những AI hàng đầu mà không cần thay đổi thói quen trò chuyện hay thực hiện thêm thao tác phức tạp. Đồng thời, thông qua việc tương tác và lựa chọn, người dùng đang đóng góp dữ liệu "human preference" chất lượng cao.

DVA - Data Validation Agent

DVA (Data Validation Agent) là AI Agent đầu tiên của Gata, chạy trực tiếp trên máy người dùng. Nhiệm vụ chính của DVA là đánh giá chất lượng và chấm điểm các cặp dữ liệu bao gồm hình ảnh kèm theo chú thích văn bản (image-caption) được thu thập từ các nguồn trên Internet.

Công cụ này giúp xây dựng các bộ dữ liệu huấn luyện chính xác và liên quan nhất cho các mô hình AI thị giác-ngôn ngữ (vision-language models) tiên tiến hiện nay, điển hình là DALL·E, Stable Diffusion, GPT-4o và các mô hình tương tự.

Đọc thêm: DeepSeek là gì? Khám phá “gương mặt mới” trên bản đồ AI

gata crypto
Một số mô hình ngôn ngữ đã được tích hợp vào Gata

Bằng cách sàng lọc và đảm bảo rằng chỉ những dữ liệu ảnh-chú thích chất lượng cao mới được sử dụng, DVA giúp cải thiện đáng kể hiệu quả và độ tin cậy của quá trình huấn luyện AI.

Cơ chế hoạt động của DVA dựa trên việc xử lý các "job" dữ liệu được phân phối từ hệ thống Gata. Khi nhận một cặp dữ liệu (hình ảnh và chú thích), mô hình AI tích hợp trong DVA sẽ tiến hành phân tích và đánh giá mức độ tương thích, liên quan giữa hai yếu tố này.

Kết quả đánh giá được biểu thị bằng một điểm số định lượng, thường nằm trong khoảng từ -1 (không tương thích/chất lượng kém) đến 1 (tương thích cao/chất lượng tốt).

Điểm số trên là cơ sở nền tảng để Gata lọc ra các tập dữ liệu tối ưu, loại bỏ dữ liệu nhiễu hoặc không phù hợp trước khi đưa vào huấn luyện AI. Để đảm bảo tính khách quan và độ tin cậy của việc đánh giá ở quy mô lớn, Gata áp dụng một cơ chế đồng thuận phi tập trung: cùng một cặp dữ liệu có thể được gửi đến nhiều DVA đang chạy trên các máy tính khác nhau của người dùng.

Người dùng chỉ nhận được điểm khuyến khích khi kết quả chấm điểm của DVA trên máy họ trùng khớp với đánh giá đồng thuận của đa số các Agent khác đã xử lý cùng dữ liệu đó.

Nhà đầu tư Gata

Gata đã thực hiện hai vòng gọi vốn với tổng số tiền huy động được là 4 triệu USD. Trong đó, vòng đầu tiên diễn ra vào tháng 8/2024 với sự tham gia của quỹ YZi Labs. Vòng thứ hai là vòng seed diễn ra vào tháng 4/2025 với số vốn huy động là 4 triệu USD và một số quỹ đầu tư đứng sau bao gồm: YZi Labs, Gate Ventures, IDG Blockchain…

Dự án tương tự

  • Sentient: Dự án phát triển mô hình AGI phi tập trung, giúp các nhà phát triển đều có thể tham gia, đóng góp vào việc xây dựng những mô hình, thuật toán AI.
  • Almanak: Cơ sở hạ tầng và bộ công cụ trong mảng AI, trao quyền cho người dùng xây dựng, thực thi và tối ưu các AI Agent trong mảng tài chính, hỗ trợ nhà đầu tư về những chiến lược trong DeFi.
RELEVANT SERIES