Big Data là gì? Mối lo ngại về “dữ liệu lớn" và ứng dụng trong Web3

Bài viết này sẽ cung cấp các kiến thức căn bản về Big Data và các ứng dụng của Big Data cũng như vai trò của nó trong Web3.

trangtran.c98

Published Jun 08 2024

Updated Jun 24 2024

9 min read

Big data là gì?

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu lớn và phức tạp mà các công cụ xử lý dữ liệu truyền thống không thể xử lý được. Những dữ liệu này thường được thu thập từ nhiều nguồn khác nhau như mạng xã hội, cảm biến IoT, giao dịch thương mại điện tử...

Đặc điểm của Big Data - 6Vs

Định nghĩa về Big Data hay Dữ liệu lớn được giới thiệu lần đầu tiên bởi Gartner vào năm 2001. Ông cho rằng chúng có 3 đặc điểm chính, gọi là "3Vs của Big Data": khối lượng, tốc độ và đa dạng.

Ngoài ba đặc điểm ban đầu này, còn có ba đặc điểm khác thường được đề cập liên quan đến việc khai thác sức mạnh của Big Data: độ tin cậy, biến động và giá trị.

Volume (Khối lượng)

Volume đề cập đến khối lượng dữ liệu khổng lồ được tạo ra liên tục từ nhiều nguồn khác nhau, có thể đo bằng terabyte hoặc petabyte.

Ví dụ: Facebook thu thập hàng petabyte dữ liệu từ người dùng mỗi ngày, bao gồm các bài đăng, bình luận và hình ảnh.

khối lượng dữ liệu lớn — Dữ liệu đến từ nhiều nguồn khác nhau dưới nhiều hình thái trong mỗi mili giây

Velocity (Tốc độ)

Velocity là tốc độ mà dữ liệu được tạo ra. Ngày nay, dữ liệu thường được sản xuất trong thời gian thực hoặc gần như là tức thời, và chúng được tạo ra từ rất nhiều nguồn với tốc độ rất nhanh. Do đó, chúng phải được xử lý, truy cập và phân tích với cùng tốc độ để tạo ra các tác động có ý nghĩa.

Ví dụ: Các giao dịch tài chính cần được xử lý trong vài mili giây để đáp ứng nhu cầu của thị trường.

Variety (Đa dạng)

Variety nói đến sự đa dạng trong các loại dữ liệu. Dữ liệu lớn không chỉ là dữ liệu ở định dạng có cấu trúc (structured data) mà còn bao gồm dữ liệu phi cấu trúc (unstructured data) như văn bản, hình ảnh, video và dữ liệu bán cấu trúc (semi-structured data) như XML hay JSON.

định dạng dữ liệu — Các hình thức hiển thị của dữ liệu: Ảnh: MonkeyLearn

Veracity (Độ tin cậy)

Veracity đề cập đến chất lượng và độ chính xác của dữ liệu. Dữ liệu từ nhiều nguồn khác nhau có thể không đồng nhất về chất lượng và độ tin cậy, do đó cần phải xác định và xử lý dữ liệu một cách cẩn thận.

Variability (Biến động)

Biến động (Variability) đề cập đến sự thay đổi liên tục trong ý nghĩa và bối cảnh của dữ liệu theo thời gian. Điều này có thể xảy ra do nhiều nguyên nhân, bao gồm sự thay đổi trong cách dữ liệu được thu thập, cách dữ liệu được diễn giải hoặc thay đổi trong bối cảnh mà dữ liệu được sử dụng.

Value (Giá trị)

Value là giá trị mà dữ liệu có thể mang lại sau khi được phân tích và xử lý. Không phải tất cả dữ liệu đều có giá trị, nhưng việc phân tích nguồn dữ liệu lớn có thể giúp doanh nghiệp đưa ra các quyết định chiến lược, cải thiện hiệu suất hoạt động và tạo ra lợi thế cạnh tranh.

Ví dụ: Phân tích dữ liệu khách hàng giúp doanh nghiệp hiểu rõ hơn về hành vi mua sắm và tối ưu hóa chiến lược tiếp thị.

Những lo ngại xung quanh Big Data

Quyền riêng tư

Việc thu thập và phân tích dữ liệu cá nhân từ người dùng đã làm dấy lên nhiều lo ngại về quyền riêng tư. Người dùng có thể cảm thấy không thoải mái khi biết rằng các hoạt động trực tuyến, sở thích và hành vi của họ đang bị theo dõi và phân tích.

Các công ty công nghệ lớn như Facebook và Google đã nhiều lần bị chỉ trích vì thu thập dữ liệu người dùng mà không minh bạch về cách dữ liệu này được sử dụng.

Biện pháp: Các quy định như GDPR (Quy định Bảo vệ Dữ liệu Chung) ở Châu Âu yêu cầu các công ty phải minh bạch về cách họ thu thập, xử lý và bảo vệ dữ liệu cá nhân của người dùng.

Rủi ro bảo mật

Big Data thường liên quan đến việc lưu trữ và xử lý một lượng lớn dữ liệu, điều này khiến các hệ thống dữ liệu trở thành mục tiêu hấp dẫn cho tội phạm mạng. Các vi phạm dữ liệu có thể dẫn đến việc lộ thông tin nhạy cảm, gây hại cho cá nhân và tổ chức.

Các vụ vi phạm dữ liệu lớn như vụ tấn công Equifax đã làm lộ thông tin cá nhân của hàng triệu người dùng.

Biện pháp: Mã hóa, xác thực hai yếu tố và kiểm tra bảo mật định kỳ là một trong những chiến lược được sử dụng để tăng cường bảo mật dữ liệu.

ceo facebook scandal tiet lo thong tin nguoi dung — Mark Zuckerberg được hỏi về cách Facebook bảo vệ người dùng trước các Thượng nghị sĩ Hoa Kỳ. Ảnh: The New York Times

Thiên lệch thuật toán (Algorithmic Bias)

Phân tích Big Data thường dựa vào các thuật toán để đưa ra dự đoán và quyết định. Nếu dữ liệu sử dụng để huấn luyện các thuật toán không đủ mẫu dữ liệu, không xem xét đầy đủ các yếu tố liên quan hoặc chứa đựng các định kiến xã hội… kết quả sẽ bị thiên lệch.

Thao túng người dùng và hồ sơ cá nhân

Big Data mang lại nhiều lợi ích trong việc cá nhân hóa trải nghiệm người dùng và tối ưu hóa quảng cáo. Nhưng chúng cũng có thể dẫn đến việc thao túng người dùng và tạo ra các hồ sơ cá nhân chi tiết, gây ra nhiều lo ngại về quyền riêng tư và đạo đức.

Các nền tảng xã hội và công cụ tìm kiếm sử dụng thuật toán để hiển thị nội dung mà người dùng có khả năng quan tâm nhất, dựa trên lịch sử hoạt động của họ. Điều này có thể tạo ra một "bong bóng lọc" (filter bubble), nơi người dùng chỉ tiếp xúc với những thông tin và quan điểm tương đồng với họ, dẫn đến việc thiếu sự đa dạng trong thông tin và quan điểm.

Facebook và Google sử dụng dữ liệu người dùng để hiển thị quảng cáo cá nhân hóa, dựa trên lịch sử tìm kiếm và sở thích của họ.

Thiếu hiểu biết về Big Data

Một trong những lo ngại lớn nhất về Big Data là sự thiếu hiểu biết của người dùng về cách dữ liệu của họ được thu thập, xử lý và sử dụng. Sự thiếu hiểu biết này có thể dẫn đến nhiều vấn đề, từ cảm giác mất kiểm soát đối với thông tin cá nhân đến việc kém nhận thức với các rủi ro tiềm ẩn liên quan.

Ứng dụng của Big Data trong Web3 và DeFi

Web3 nhấn mạnh vào việc phi tập trung hóa, quyền sở hữu dữ liệu và quyền riêng tư của người dùng. Do đó, việc sử dụng Big Data trong các ứng dụng Web3 thông qua các giải pháp nhận dạng phi tập trung (DID) giúp thiết lập một hệ thống quản lý danh tính bảo vệ thông tin tối ưu.

dữ liệu vận hành trong web3 — Cách nội dung - một dạng dữ liệu - vận hành trong Web3. Ảnh: Chainlink

Bên cạnh đó, DeFi cũng đang phát triển nhanh chóng với lượng lớn dữ liệu phân tán và trải nghiệm chưa tối ưu. Big Data đóng vai trò quan trọng trong việc cung cấp dữ liệu để cải thiện và thiết kế các ứng dụng DeFi, đồng thời nâng cao trải nghiệm trong Web3.

Các thuật toán Big Data phân tích hành vi, sở thích và tương tác với nội dung trên các nền tảng để đưa ra các đề xuất cá nhân hóa, từ đó tăng cường sự tương tác và sự hài lòng.

Các nền tảng DeFi cũng có thể sử dụng kỹ thuật học máy (machine learning) để đánh giá rủi ro liên quan đến các nền tảng giao dịch phi tập trung và các dịch vụ tài chính Web3.

Compound và Aave sử dụng phân tích Big Data để điều chỉnh lãi suất cho vay dựa trên cung và cầu.
The Graph, Glassnode, IntoTheBlock… sử dụng Big Data để lập chỉ mục (indexing) và truy vấn dữ liệu (querying) từ các blockchain.
Chainalysis và Elliptic sử dụng Big Data để giám sát và phân tích giao dịch blockchain, cung cấp các báo cáo chi tiết về hoạt động bất thường và giúp ngăn chặn các cuộc tấn công.

Các phân tích Big Data cũng có thể ứng dụng trong tối ưu hiệu suất của các hợp đồng thông minh thông qua dữ liệu về việc thực thi hợp đồng, xác định các điểm nghẽn và đề xuất cải tiến.