Rào cản mới trong phát triển trí tuệ nhân tạo: Dữ liệu trở thành yếu tố then chốt
Với sự gia tăng nhanh chóng về quy mô và khả năng tính toán của các mô hình trí tuệ nhân tạo, một vấn đề cốt lõi lâu nay bị bỏ qua đang dần hiện ra - cung cấp dữ liệu. Những mâu thuẫn cấu trúc mà ngành công nghiệp AI hiện đang đối mặt không còn là kiến trúc mô hình hay sức mạnh tính toán của chip, mà là làm thế nào để chuyển đổi dữ liệu hành vi con người bị phân mảnh thành tài nguyên có thể xác minh, có cấu trúc và thân thiện với AI. Nhận thức này không chỉ tiết lộ thực trạng phát triển của AI, mà còn phác thảo một bức tranh hoàn toàn mới về thời đại "tài chính hóa dữ liệu" - trong thời đại này, dữ liệu sẽ trở thành yếu tố sản xuất cốt lõi có thể đo lường, có thể giao dịch và có thể gia tăng giá trị, song hành cùng điện lực và sức mạnh tính toán.
Từ cuộc đua sức mạnh tính toán đến nạn đói dữ liệu
Sự phát triển của AI từ lâu đã được thúc đẩy bởi "mô hình - sức mạnh tính toán". Kể từ cuộc cách mạng học sâu, quy mô tham số của mô hình đã tăng vọt từ hàng triệu lên hàng triệu tỷ, nhu cầu sức mạnh tính toán tăng trưởng theo cấp số nhân. Theo thống kê, chi phí để huấn luyện một mô hình ngôn ngữ lớn tiên tiến đã vượt quá 100 triệu USD, trong đó 90% được sử dụng cho việc thuê cụm GPU. Tuy nhiên, khi ngành công nghiệp tập trung vào "mô hình lớn hơn" và "chip nhanh hơn", khủng hoảng ở phía cung cấp dữ liệu đang âm thầm đến.
"Dữ liệu hữu cơ" do con người tạo ra đã chạm đến trần tăng trưởng. Lấy dữ liệu văn bản làm ví dụ, tổng lượng văn bản chất lượng cao có thể thu thập công khai trên internet khoảng 10^12 từ, trong khi việc đào tạo một mô hình với 100 tỷ tham số cần tiêu tốn khoảng 10^13 từ. Điều này có nghĩa là hồ dữ liệu hiện có chỉ có thể hỗ trợ việc đào tạo 10 mô hình có quy mô tương đương. Thậm chí nghiêm trọng hơn, tỷ lệ dữ liệu trùng lặp và nội dung chất lượng thấp chiếm hơn 60%, càng siết chặt nguồn cung dữ liệu hiệu quả. Khi các mô hình bắt đầu "nuốt" dữ liệu do chính chúng tạo ra, sự suy giảm hiệu suất của mô hình do "ô nhiễm dữ liệu" đã trở thành mối lo ngại trong ngành.
Nguồn gốc của mâu thuẫn này nằm ở chỗ: Ngành công nghiệp AI lâu nay xem dữ liệu như là "tài nguyên miễn phí", chứ không phải là "tài sản chiến lược" cần được chăm sóc kỹ lưỡng. Các mô hình và sức mạnh tính toán đã hình thành một hệ thống thị trường trưởng thành, nhưng việc sản xuất, làm sạch, xác minh và giao dịch dữ liệu vẫn đang ở trong "thời kỳ nguyên thủy". Mười năm tiếp theo của AI sẽ là mười năm của "hạ tầng dữ liệu", và dữ liệu trên chuỗi của mạng lưới mã hóa chính là chìa khóa để giải quyết tình huống này.
Dữ liệu trên chuỗi: "Cơ sở dữ liệu hành vi con người" mà AI cần nhất
Trong bối cảnh khan hiếm dữ liệu, dữ liệu trên chuỗi của mạng lưới tiền mã hóa thể hiện giá trị không thể thay thế. So với dữ liệu trên Internet truyền thống, dữ liệu trên chuỗi tự nhiên có tính xác thực của "sự phù hợp động lực" - mỗi giao dịch, mỗi tương tác hợp đồng, mỗi hành động của địa chỉ ví đều gắn liền trực tiếp với vốn thực và không thể bị thay đổi. Những dữ liệu này được định nghĩa là "dữ liệu về hành vi phù hợp động lực của con người tập trung nhất trên Internet", cụ thể thể hiện ở ba chiều:
"Tín hiệu ý định" trong thế giới thực: Dữ liệu trên chuỗi ghi lại hành vi quyết định được bỏ phiếu bằng tiền thật, phản ánh trực tiếp đánh giá của người dùng về giá trị dự án, sở thích rủi ro và chiến lược phân bổ vốn. Dữ liệu "được bảo chứng bằng vốn" như vậy có giá trị cực cao trong việc đào tạo khả năng ra quyết định của AI.
"Chuỗi hành vi" có thể truy xuất: Tính minh bạch của blockchain cho phép hành vi của người dùng được truy xuất hoàn toàn. Lịch sử giao dịch của một địa chỉ ví, các giao thức đã tương tác, sự thay đổi tài sản nắm giữ, tạo thành một "chuỗi hành vi" liên kết. Dữ liệu hành vi có cấu trúc như vậy chính là "mẫu suy luận con người" hiếm hoi nhất hiện nay cho các mô hình AI.
Hệ sinh thái mở với "truy cập không cần giấy phép": Khác với tính đóng kín của dữ liệu doanh nghiệp truyền thống, dữ liệu trên chuỗi là mở và không cần giấy phép. Bất kỳ nhà phát triển nào cũng có thể truy cập dữ liệu gốc thông qua trình duyệt blockchain hoặc API dữ liệu, cung cấp nguồn dữ liệu "không rào cản" cho việc huấn luyện mô hình AI.
Tuy nhiên, tính mở của dữ liệu trên chuỗi cũng mang lại thách thức: những dữ liệu này tồn tại dưới dạng "nhật ký sự kiện", là "tín hiệu thô" không có cấu trúc, cần được làm sạch, chuẩn hóa và liên kết để có thể được sử dụng bởi các mô hình AI. Hiện tại, "tỷ lệ chuyển đổi cấu trúc" của dữ liệu trên chuỗi chưa đến 5%, nhiều tín hiệu có giá trị cao bị chôn vùi trong hàng tỷ sự kiện phân mảnh.
Hệ điều hành của dữ liệu trên chuỗi
Để giải quyết vấn đề phân mảnh dữ liệu trên chuỗi, ngành công nghiệp đã đề xuất khái niệm "Hệ điều hành thông minh trên chuỗi" được thiết kế riêng cho AI. Mục tiêu cốt lõi của nó là chuyển đổi các tín hiệu trên chuỗi phân tán thành dữ liệu thân thiện với AI có cấu trúc, có thể xác minh và có thể kết hợp theo thời gian thực. Hệ thống này bao gồm các thành phần chính sau:
Tiêu chuẩn dữ liệu mở: Định nghĩa và mô tả thống nhất dữ liệu trên chuỗi, đảm bảo rằng mô hình AI không cần phải thích ứng với định dạng dữ liệu của các chuỗi hoặc giao thức khác nhau, mà có thể "hiểu" trực tiếp logic kinh doanh đằng sau dữ liệu.
Cơ chế xác minh dữ liệu: Đảm bảo tính xác thực của dữ liệu thông qua mạng lưới những người xác minh trên blockchain. Khi hệ thống xử lý một sự kiện trên chuỗi, các nút xác minh sẽ xác minh chéo giá trị băm của dữ liệu, thông tin chữ ký và trạng thái trên chuỗi, đảm bảo rằng dữ liệu có cấu trúc đầu ra hoàn toàn nhất quán với dữ liệu gốc trên chuỗi.
Lớp khả năng truy cập dữ liệu với lưu lượng cao: Thông qua việc tối ưu hóa thuật toán nén dữ liệu và giao thức truyền tải, đạt được việc xử lý hàng trăm nghìn sự kiện trên chuỗi mỗi giây. Thiết kế này cho phép hệ thống đáp ứng nhu cầu dữ liệu thời gian thực của các ứng dụng AI quy mô lớn.
Thời đại tài chính hóa dữ liệu: Khi dữ liệu trở thành "vốn" có thể giao dịch
Mục tiêu cuối cùng của hệ thống vận hành dữ liệu trên chuỗi này là thúc đẩy ngành AI bước vào kỷ nguyên tài chính hóa dữ liệu - dữ liệu không còn là "vật liệu huấn luyện" thụ động, mà là "vốn" chủ động, có thể được định giá, giao dịch và gia tăng giá trị. Việc hiện thực hóa tầm nhìn này phụ thuộc vào việc chuyển đổi dữ liệu thành bốn thuộc tính cốt lõi:
Cấu trúc: Từ "tín hiệu gốc" đến "tài sản có thể sử dụng", chuyển đổi dữ liệu trên chuỗi thành dữ liệu có cấu trúc, để nó có thể được các mô hình AI gọi trực tiếp.
Có thể kết hợp: Dữ liệu cấu trúc có thể được kết hợp tự do như các khối Lego, mở rộng đáng kể ranh giới ứng dụng của dữ liệu, khiến cho sự đổi mới của AI không còn bị giới hạn bởi một nguồn dữ liệu đơn lẻ.
Có thể xác minh: Đảm bảo tính xác thực và khả năng truy xuất của dữ liệu thông qua công nghệ blockchain, mang lại "thuộc tính tín dụng" cho dữ liệu.
Có thể chuyển đổi thành tiền: Nhà cung cấp dữ liệu có thể chuyển đổi dữ liệu có cấu trúc thành tiền ngay lập tức, chẳng hạn như đóng gói kết quả phân tích thành dịch vụ API và tính phí theo số lần gọi.
Trong thời đại tài chính hóa dữ liệu này, dữ liệu sẽ trở thành cầu nối giữa AI và thế giới thực. Các đại lý giao dịch có thể cảm nhận tâm lý thị trường thông qua dữ liệu trên chuỗi, các ứng dụng tự chủ có thể tối ưu hóa dịch vụ thông qua dữ liệu hành vi người dùng, trong khi người dùng bình thường có thể nhận được lợi nhuận liên tục thông qua việc chia sẻ dữ liệu.
Với sự hoàn thiện không ngừng của cơ sở hạ tầng dữ liệu, chúng ta có lý do để tin rằng khi dữ liệu cuối cùng được trao giá trị xứng đáng, AI sẽ thực sự phát huy sức mạnh thay đổi thế giới. Đây không chỉ là sự tiến bộ công nghệ, mà còn là con đường tất yếu để toàn bộ ngành công nghiệp AI trở nên trưởng thành.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
12 thích
Phần thưởng
12
3
Đăng lại
Chia sẻ
Bình luận
0/400
BearMarketBuilder
· 08-12 05:52
Ngày mai dữ liệu sẽ là dầu mỏ mới nhé~
Xem bản gốcTrả lời0
VitaliksTwin
· 08-12 05:38
Còn đang lo lắng về nguồn dữ liệu? Những bạn thân đã đầu cơ phần cứng mấy năm trước đâu?
Xem bản gốcTrả lời0
GasGuzzler
· 08-12 05:37
Dữ liệu on-chain không đủ, khả năng tiền mặt bổ sung.
AI phát triển gặp phải rào cản mới: dữ liệu trên chuỗi trở thành tài sản quan trọng
Rào cản mới trong phát triển trí tuệ nhân tạo: Dữ liệu trở thành yếu tố then chốt
Với sự gia tăng nhanh chóng về quy mô và khả năng tính toán của các mô hình trí tuệ nhân tạo, một vấn đề cốt lõi lâu nay bị bỏ qua đang dần hiện ra - cung cấp dữ liệu. Những mâu thuẫn cấu trúc mà ngành công nghiệp AI hiện đang đối mặt không còn là kiến trúc mô hình hay sức mạnh tính toán của chip, mà là làm thế nào để chuyển đổi dữ liệu hành vi con người bị phân mảnh thành tài nguyên có thể xác minh, có cấu trúc và thân thiện với AI. Nhận thức này không chỉ tiết lộ thực trạng phát triển của AI, mà còn phác thảo một bức tranh hoàn toàn mới về thời đại "tài chính hóa dữ liệu" - trong thời đại này, dữ liệu sẽ trở thành yếu tố sản xuất cốt lõi có thể đo lường, có thể giao dịch và có thể gia tăng giá trị, song hành cùng điện lực và sức mạnh tính toán.
Từ cuộc đua sức mạnh tính toán đến nạn đói dữ liệu
Sự phát triển của AI từ lâu đã được thúc đẩy bởi "mô hình - sức mạnh tính toán". Kể từ cuộc cách mạng học sâu, quy mô tham số của mô hình đã tăng vọt từ hàng triệu lên hàng triệu tỷ, nhu cầu sức mạnh tính toán tăng trưởng theo cấp số nhân. Theo thống kê, chi phí để huấn luyện một mô hình ngôn ngữ lớn tiên tiến đã vượt quá 100 triệu USD, trong đó 90% được sử dụng cho việc thuê cụm GPU. Tuy nhiên, khi ngành công nghiệp tập trung vào "mô hình lớn hơn" và "chip nhanh hơn", khủng hoảng ở phía cung cấp dữ liệu đang âm thầm đến.
"Dữ liệu hữu cơ" do con người tạo ra đã chạm đến trần tăng trưởng. Lấy dữ liệu văn bản làm ví dụ, tổng lượng văn bản chất lượng cao có thể thu thập công khai trên internet khoảng 10^12 từ, trong khi việc đào tạo một mô hình với 100 tỷ tham số cần tiêu tốn khoảng 10^13 từ. Điều này có nghĩa là hồ dữ liệu hiện có chỉ có thể hỗ trợ việc đào tạo 10 mô hình có quy mô tương đương. Thậm chí nghiêm trọng hơn, tỷ lệ dữ liệu trùng lặp và nội dung chất lượng thấp chiếm hơn 60%, càng siết chặt nguồn cung dữ liệu hiệu quả. Khi các mô hình bắt đầu "nuốt" dữ liệu do chính chúng tạo ra, sự suy giảm hiệu suất của mô hình do "ô nhiễm dữ liệu" đã trở thành mối lo ngại trong ngành.
Nguồn gốc của mâu thuẫn này nằm ở chỗ: Ngành công nghiệp AI lâu nay xem dữ liệu như là "tài nguyên miễn phí", chứ không phải là "tài sản chiến lược" cần được chăm sóc kỹ lưỡng. Các mô hình và sức mạnh tính toán đã hình thành một hệ thống thị trường trưởng thành, nhưng việc sản xuất, làm sạch, xác minh và giao dịch dữ liệu vẫn đang ở trong "thời kỳ nguyên thủy". Mười năm tiếp theo của AI sẽ là mười năm của "hạ tầng dữ liệu", và dữ liệu trên chuỗi của mạng lưới mã hóa chính là chìa khóa để giải quyết tình huống này.
Dữ liệu trên chuỗi: "Cơ sở dữ liệu hành vi con người" mà AI cần nhất
Trong bối cảnh khan hiếm dữ liệu, dữ liệu trên chuỗi của mạng lưới tiền mã hóa thể hiện giá trị không thể thay thế. So với dữ liệu trên Internet truyền thống, dữ liệu trên chuỗi tự nhiên có tính xác thực của "sự phù hợp động lực" - mỗi giao dịch, mỗi tương tác hợp đồng, mỗi hành động của địa chỉ ví đều gắn liền trực tiếp với vốn thực và không thể bị thay đổi. Những dữ liệu này được định nghĩa là "dữ liệu về hành vi phù hợp động lực của con người tập trung nhất trên Internet", cụ thể thể hiện ở ba chiều:
"Tín hiệu ý định" trong thế giới thực: Dữ liệu trên chuỗi ghi lại hành vi quyết định được bỏ phiếu bằng tiền thật, phản ánh trực tiếp đánh giá của người dùng về giá trị dự án, sở thích rủi ro và chiến lược phân bổ vốn. Dữ liệu "được bảo chứng bằng vốn" như vậy có giá trị cực cao trong việc đào tạo khả năng ra quyết định của AI.
"Chuỗi hành vi" có thể truy xuất: Tính minh bạch của blockchain cho phép hành vi của người dùng được truy xuất hoàn toàn. Lịch sử giao dịch của một địa chỉ ví, các giao thức đã tương tác, sự thay đổi tài sản nắm giữ, tạo thành một "chuỗi hành vi" liên kết. Dữ liệu hành vi có cấu trúc như vậy chính là "mẫu suy luận con người" hiếm hoi nhất hiện nay cho các mô hình AI.
Hệ sinh thái mở với "truy cập không cần giấy phép": Khác với tính đóng kín của dữ liệu doanh nghiệp truyền thống, dữ liệu trên chuỗi là mở và không cần giấy phép. Bất kỳ nhà phát triển nào cũng có thể truy cập dữ liệu gốc thông qua trình duyệt blockchain hoặc API dữ liệu, cung cấp nguồn dữ liệu "không rào cản" cho việc huấn luyện mô hình AI.
Tuy nhiên, tính mở của dữ liệu trên chuỗi cũng mang lại thách thức: những dữ liệu này tồn tại dưới dạng "nhật ký sự kiện", là "tín hiệu thô" không có cấu trúc, cần được làm sạch, chuẩn hóa và liên kết để có thể được sử dụng bởi các mô hình AI. Hiện tại, "tỷ lệ chuyển đổi cấu trúc" của dữ liệu trên chuỗi chưa đến 5%, nhiều tín hiệu có giá trị cao bị chôn vùi trong hàng tỷ sự kiện phân mảnh.
Hệ điều hành của dữ liệu trên chuỗi
Để giải quyết vấn đề phân mảnh dữ liệu trên chuỗi, ngành công nghiệp đã đề xuất khái niệm "Hệ điều hành thông minh trên chuỗi" được thiết kế riêng cho AI. Mục tiêu cốt lõi của nó là chuyển đổi các tín hiệu trên chuỗi phân tán thành dữ liệu thân thiện với AI có cấu trúc, có thể xác minh và có thể kết hợp theo thời gian thực. Hệ thống này bao gồm các thành phần chính sau:
Tiêu chuẩn dữ liệu mở: Định nghĩa và mô tả thống nhất dữ liệu trên chuỗi, đảm bảo rằng mô hình AI không cần phải thích ứng với định dạng dữ liệu của các chuỗi hoặc giao thức khác nhau, mà có thể "hiểu" trực tiếp logic kinh doanh đằng sau dữ liệu.
Cơ chế xác minh dữ liệu: Đảm bảo tính xác thực của dữ liệu thông qua mạng lưới những người xác minh trên blockchain. Khi hệ thống xử lý một sự kiện trên chuỗi, các nút xác minh sẽ xác minh chéo giá trị băm của dữ liệu, thông tin chữ ký và trạng thái trên chuỗi, đảm bảo rằng dữ liệu có cấu trúc đầu ra hoàn toàn nhất quán với dữ liệu gốc trên chuỗi.
Lớp khả năng truy cập dữ liệu với lưu lượng cao: Thông qua việc tối ưu hóa thuật toán nén dữ liệu và giao thức truyền tải, đạt được việc xử lý hàng trăm nghìn sự kiện trên chuỗi mỗi giây. Thiết kế này cho phép hệ thống đáp ứng nhu cầu dữ liệu thời gian thực của các ứng dụng AI quy mô lớn.
Thời đại tài chính hóa dữ liệu: Khi dữ liệu trở thành "vốn" có thể giao dịch
Mục tiêu cuối cùng của hệ thống vận hành dữ liệu trên chuỗi này là thúc đẩy ngành AI bước vào kỷ nguyên tài chính hóa dữ liệu - dữ liệu không còn là "vật liệu huấn luyện" thụ động, mà là "vốn" chủ động, có thể được định giá, giao dịch và gia tăng giá trị. Việc hiện thực hóa tầm nhìn này phụ thuộc vào việc chuyển đổi dữ liệu thành bốn thuộc tính cốt lõi:
Cấu trúc: Từ "tín hiệu gốc" đến "tài sản có thể sử dụng", chuyển đổi dữ liệu trên chuỗi thành dữ liệu có cấu trúc, để nó có thể được các mô hình AI gọi trực tiếp.
Có thể kết hợp: Dữ liệu cấu trúc có thể được kết hợp tự do như các khối Lego, mở rộng đáng kể ranh giới ứng dụng của dữ liệu, khiến cho sự đổi mới của AI không còn bị giới hạn bởi một nguồn dữ liệu đơn lẻ.
Có thể xác minh: Đảm bảo tính xác thực và khả năng truy xuất của dữ liệu thông qua công nghệ blockchain, mang lại "thuộc tính tín dụng" cho dữ liệu.
Có thể chuyển đổi thành tiền: Nhà cung cấp dữ liệu có thể chuyển đổi dữ liệu có cấu trúc thành tiền ngay lập tức, chẳng hạn như đóng gói kết quả phân tích thành dịch vụ API và tính phí theo số lần gọi.
Trong thời đại tài chính hóa dữ liệu này, dữ liệu sẽ trở thành cầu nối giữa AI và thế giới thực. Các đại lý giao dịch có thể cảm nhận tâm lý thị trường thông qua dữ liệu trên chuỗi, các ứng dụng tự chủ có thể tối ưu hóa dịch vụ thông qua dữ liệu hành vi người dùng, trong khi người dùng bình thường có thể nhận được lợi nhuận liên tục thông qua việc chia sẻ dữ liệu.
Với sự hoàn thiện không ngừng của cơ sở hạ tầng dữ liệu, chúng ta có lý do để tin rằng khi dữ liệu cuối cùng được trao giá trị xứng đáng, AI sẽ thực sự phát huy sức mạnh thay đổi thế giới. Đây không chỉ là sự tiến bộ công nghệ, mà còn là con đường tất yếu để toàn bộ ngành công nghiệp AI trở nên trưởng thành.