Новий бар'єр у розвитку штучного інтелекту: дані стають ключовими
Зі зростанням масштабів моделей штучного інтелекту та обчислювальних потужностей, одна з ключових проблем, яку тривалий час ігнорували, поступово стає очевидною — постачання даних. Структурні суперечності, з якими стикається сучасна індустрія ШІ, вже не стосуються архітектури моделей чи потужності чіпів, а полягають у тому, як перетворити фрагментовані дані про людську поведінку у перевірні, структуровані, дружні до ШІ ресурси. Це усвідомлення не лише виявляє сучасний стан розвитку ШІ, але й окреслює абсолютно нову картину епохи "фінансизації даних" — в цю епоху дані стануть вимірними, такими, що підлягають торгівлі, і такими, що можуть бути збільшені, основними виробничими факторами, нарівні з електроенергією та обчислювальною потужністю.
Від конкуренції обчислювальної потужності до голоду даних
Розвиток ШІ протягом тривалого часу здійснювався під впливом двох факторів: "модель-обчислювальна потужність". З моменту революції глибокого навчання масштаби параметрів моделей зросли з мільйонів до трильйонів, а потреби в обчислювальній потужності зросли експоненційно. За статистикою, вартість навчання сучасної великої мовної моделі вже перевищила 100 мільйонів доларів, з яких 90% витрачається на оренду GPU-кластерів. Проте, коли галузь зосереджується на "більших моделях" та "швидших чіпах", криза на стороні постачання даних непомітно наближається.
Згенеровані людьми "органічні дані" досягли стелі зростання. Наприклад, щодо текстових даних, загальний обсяг високоякісних текстів, доступних для збору в Інтернеті, становить приблизно 10^12 слів, тоді як навчання моделі з 100 мільярдами параметрів вимагає приблизно 10^13 слів. Це означає, що існуючий пул даних може підтримувати навчання тільки 10 моделей однакового розміру. Ще гірше, частка повторюваних даних і контенту низької якості перевищує 60%, що ще більше зменшує ефективність постачання даних. Коли моделі починають "поглинати" дані, згенеровані ними самими, "забруднення даних" призводить до деградації продуктивності моделей, що стало тривожним сигналом для галузі.
Ця суперечність має своїм корінням: у тому, що індустрія ШІ довгий час вважала дані «безкоштовними ресурсами», а не «стратегічними активами», які потребують ретельного вирощування. Моделі та обчислювальні потужності вже утворили зрілу ринкову систему, але виробництво, очищення, перевірка та торгівля даними все ще знаходяться на «дикуватому етапі». Наступне десятиліття ШІ буде десятиліттям «інфраструктури даних», а дані на блокчейні криптографічних мереж є ключем до розв'язання цієї проблеми.
Дані на ланцюзі: "База даних людської поведінки", найбільш необхідна AI
На фоні даних дефіциту, ончейн-дані крипто-мережі демонструють незамінну цінність. Порівняно з традиційними даними Інтернету, ончейн-дані природно мають справжність "узгодження стимулів" — кожна транзакція, кожна взаємодія з контрактом, кожна поведінка гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані визначаються як "найконцентрованіші дані про узгодження людських стимулів в Інтернеті", що конкретно проявляється в трьох вимірах:
Реальні "сигнали наміру" світу: дані на ланцюгу записують рішення, які були прийняті за допомогою реальних грошей, що безпосередньо відображає оцінку користувачем вартості проекту, ризикові уподобання та стратегії розподілу капіталу. Ці дані, що "підтверджуються капіталом", мають велику цінність для навчання рішень AI.
Відслідковуваний "ланцюг дій": прозорість блокчейну дозволяє повністю відслідковувати поведінку користувачів. Історія транзакцій одного гаманця, протоколи, з якими відбувалися взаємодії, зміни в активі формують послідовний "ланцюг дій". Ці структуровані дані про поведінку є найбільш дефіцитними "зразками людського міркування" для сучасних AI-моделей.
Відкрита екосистема "безліцензійного доступу": на відміну від закритих даних традиційних підприємств, дані на блокчейні відкриті та не потребують ліцензії. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що забезпечує "безбар'єрне" джерело даних для навчання AI-моделей.
Однак відкритість даних на блокчейні також приносить виклики: ці дані існують у формі "журналу подій", є неструктурованими "сигналами", які потребують очищення, стандартизації та зв'язування, щоб їх могли використовувати моделі ШІ. Наразі "структурована конверсія" даних на блокчейні становить менше 5%, багато цінних сигналів заховані серед десятків мільярдів фрагментованих подій.
"Операційна система" для даних на ланцюгу
Щоб вирішити проблему фрагментації даних в ланцюзі, в галузі було запропоновано концепцію "ланцюгової інтелектуальної операційної системи", спеціально розроблену для ШІ. Її основна мета полягає в перетворенні розсіяних ланцюгових сигналів на структуровані, перевіряємi, в режимі реального часу комбіновані дані, дружні до ШІ. Ця система містить такі ключові компоненти:
Відкриті стандарти даних: уніфікація визначень і описів даних на блокчейні, що забезпечує можливість AI-моделям без адаптації до різних форматів даних ланцюга або протоколу безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.
Механізм верифікації даних: забезпечення достовірності даних через мережу валідаторів блокчейну. Коли система обробляє подію на ланцюгу, вузли верифікації перехресно перевіряють хеш-значення даних, інформацію підпису та стан на ланцюгу, щоб забезпечити повну відповідність вихідних структурованих даних з оригінальними даними на ланцюгу.
Високопродуктивний шар доступності даних: шляхом оптимізації алгоритмів стиснення даних і протоколів передачі, реалізується обробка сотень тисяч подій на ланцюзі в реальному часі на секунду. Такий дизайн дозволяє системі підтримувати потреби в реальних даних для масштабних AI-додатків.
Епоха фінансування даних: коли дані стають торгованим "капіталом"
Кінцевою метою цієї операційної системи даних на блокчейні є просування індустрії штучного інтелекту в еру фінансування даних — дані більше не є пасивним "матеріалом для навчання", а стають активним "капіталом", який може бути оцінений, торгований та підвищений. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
Структурованість: від "первинного сигналу" до "корисного активу", перетворення даних на блокчейні в структуровані дані, щоб їх можна було безпосередньо використовувати в AI моделях.
Можливість комбінування: структуровані дані можна вільно комбінувати, як конструктори LEGO, що значно розширює межі застосування даних і дозволяє інноваціям у сфері ШІ не обмежуватися єдиним джерелом даних.
Верифікація: забезпечення справжності та відстежуваності даних за допомогою технології блокчейн, наділення даних "кредитними властивостями".
Можливість монетизації: постачальники даних можуть безпосередньо монетизувати структуровані дані, наприклад, упаковуючи результати аналізу в API-серві та стягуючи плату за кількість викликів.
У цю епоху фінансування даних дані стануть мостом, що з'єднує ШІ з реальним світом. Торгові агенти можуть відстежувати ринкові настрої за допомогою даних на блокчейні, автономні програми можуть оптимізувати послуги на основі даних про поведінку користувачів, а звичайні користувачі можуть отримувати постійний дохід, ділячись даними.
З розвитком інфраструктури даних ми маємо підстави вірити, що коли дані нарешті отримають належну цінність, ШІ справді звільнить силу для змін у світі. Це не лише технологічний прогрес, але й обов'язковий шлях для зрілості всієї індустрії ШІ.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
17 лайків
Нагородити
17
5
Репост
Поділіться
Прокоментувати
0/400
FUD_Whisperer
· 08-13 15:19
Які дані сміють називати фінансуванням даних? Неймовірно.
Переглянути оригіналвідповісти на0
BlockchainBard
· 08-13 15:18
Прагнення вижити памповане AI хоче все
Переглянути оригіналвідповісти на0
BearMarketBuilder
· 08-12 05:52
Завтра дані - це нова нафта~
Переглянути оригіналвідповісти на0
VitaliksTwin
· 08-12 05:38
Все ще турбуєшся про джерела даних? Де ж приятелі, які кілька років тому розкручували апаратуру?
Переглянути оригіналвідповісти на0
GasGuzzler
· 08-12 05:37
у блокчейні даних недостатньо, готівкові можливості допоможуть
Новий бар'єр у розвитку штучного інтелекту: дані у блокчейні стали ключовим активом
Новий бар'єр у розвитку штучного інтелекту: дані стають ключовими
Зі зростанням масштабів моделей штучного інтелекту та обчислювальних потужностей, одна з ключових проблем, яку тривалий час ігнорували, поступово стає очевидною — постачання даних. Структурні суперечності, з якими стикається сучасна індустрія ШІ, вже не стосуються архітектури моделей чи потужності чіпів, а полягають у тому, як перетворити фрагментовані дані про людську поведінку у перевірні, структуровані, дружні до ШІ ресурси. Це усвідомлення не лише виявляє сучасний стан розвитку ШІ, але й окреслює абсолютно нову картину епохи "фінансизації даних" — в цю епоху дані стануть вимірними, такими, що підлягають торгівлі, і такими, що можуть бути збільшені, основними виробничими факторами, нарівні з електроенергією та обчислювальною потужністю.
Від конкуренції обчислювальної потужності до голоду даних
Розвиток ШІ протягом тривалого часу здійснювався під впливом двох факторів: "модель-обчислювальна потужність". З моменту революції глибокого навчання масштаби параметрів моделей зросли з мільйонів до трильйонів, а потреби в обчислювальній потужності зросли експоненційно. За статистикою, вартість навчання сучасної великої мовної моделі вже перевищила 100 мільйонів доларів, з яких 90% витрачається на оренду GPU-кластерів. Проте, коли галузь зосереджується на "більших моделях" та "швидших чіпах", криза на стороні постачання даних непомітно наближається.
Згенеровані людьми "органічні дані" досягли стелі зростання. Наприклад, щодо текстових даних, загальний обсяг високоякісних текстів, доступних для збору в Інтернеті, становить приблизно 10^12 слів, тоді як навчання моделі з 100 мільярдами параметрів вимагає приблизно 10^13 слів. Це означає, що існуючий пул даних може підтримувати навчання тільки 10 моделей однакового розміру. Ще гірше, частка повторюваних даних і контенту низької якості перевищує 60%, що ще більше зменшує ефективність постачання даних. Коли моделі починають "поглинати" дані, згенеровані ними самими, "забруднення даних" призводить до деградації продуктивності моделей, що стало тривожним сигналом для галузі.
Ця суперечність має своїм корінням: у тому, що індустрія ШІ довгий час вважала дані «безкоштовними ресурсами», а не «стратегічними активами», які потребують ретельного вирощування. Моделі та обчислювальні потужності вже утворили зрілу ринкову систему, але виробництво, очищення, перевірка та торгівля даними все ще знаходяться на «дикуватому етапі». Наступне десятиліття ШІ буде десятиліттям «інфраструктури даних», а дані на блокчейні криптографічних мереж є ключем до розв'язання цієї проблеми.
Дані на ланцюзі: "База даних людської поведінки", найбільш необхідна AI
На фоні даних дефіциту, ончейн-дані крипто-мережі демонструють незамінну цінність. Порівняно з традиційними даними Інтернету, ончейн-дані природно мають справжність "узгодження стимулів" — кожна транзакція, кожна взаємодія з контрактом, кожна поведінка гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані визначаються як "найконцентрованіші дані про узгодження людських стимулів в Інтернеті", що конкретно проявляється в трьох вимірах:
Реальні "сигнали наміру" світу: дані на ланцюгу записують рішення, які були прийняті за допомогою реальних грошей, що безпосередньо відображає оцінку користувачем вартості проекту, ризикові уподобання та стратегії розподілу капіталу. Ці дані, що "підтверджуються капіталом", мають велику цінність для навчання рішень AI.
Відслідковуваний "ланцюг дій": прозорість блокчейну дозволяє повністю відслідковувати поведінку користувачів. Історія транзакцій одного гаманця, протоколи, з якими відбувалися взаємодії, зміни в активі формують послідовний "ланцюг дій". Ці структуровані дані про поведінку є найбільш дефіцитними "зразками людського міркування" для сучасних AI-моделей.
Відкрита екосистема "безліцензійного доступу": на відміну від закритих даних традиційних підприємств, дані на блокчейні відкриті та не потребують ліцензії. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що забезпечує "безбар'єрне" джерело даних для навчання AI-моделей.
Однак відкритість даних на блокчейні також приносить виклики: ці дані існують у формі "журналу подій", є неструктурованими "сигналами", які потребують очищення, стандартизації та зв'язування, щоб їх могли використовувати моделі ШІ. Наразі "структурована конверсія" даних на блокчейні становить менше 5%, багато цінних сигналів заховані серед десятків мільярдів фрагментованих подій.
"Операційна система" для даних на ланцюгу
Щоб вирішити проблему фрагментації даних в ланцюзі, в галузі було запропоновано концепцію "ланцюгової інтелектуальної операційної системи", спеціально розроблену для ШІ. Її основна мета полягає в перетворенні розсіяних ланцюгових сигналів на структуровані, перевіряємi, в режимі реального часу комбіновані дані, дружні до ШІ. Ця система містить такі ключові компоненти:
Відкриті стандарти даних: уніфікація визначень і описів даних на блокчейні, що забезпечує можливість AI-моделям без адаптації до різних форматів даних ланцюга або протоколу безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.
Механізм верифікації даних: забезпечення достовірності даних через мережу валідаторів блокчейну. Коли система обробляє подію на ланцюгу, вузли верифікації перехресно перевіряють хеш-значення даних, інформацію підпису та стан на ланцюгу, щоб забезпечити повну відповідність вихідних структурованих даних з оригінальними даними на ланцюгу.
Високопродуктивний шар доступності даних: шляхом оптимізації алгоритмів стиснення даних і протоколів передачі, реалізується обробка сотень тисяч подій на ланцюзі в реальному часі на секунду. Такий дизайн дозволяє системі підтримувати потреби в реальних даних для масштабних AI-додатків.
Епоха фінансування даних: коли дані стають торгованим "капіталом"
Кінцевою метою цієї операційної системи даних на блокчейні є просування індустрії штучного інтелекту в еру фінансування даних — дані більше не є пасивним "матеріалом для навчання", а стають активним "капіталом", який може бути оцінений, торгований та підвищений. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
Структурованість: від "первинного сигналу" до "корисного активу", перетворення даних на блокчейні в структуровані дані, щоб їх можна було безпосередньо використовувати в AI моделях.
Можливість комбінування: структуровані дані можна вільно комбінувати, як конструктори LEGO, що значно розширює межі застосування даних і дозволяє інноваціям у сфері ШІ не обмежуватися єдиним джерелом даних.
Верифікація: забезпечення справжності та відстежуваності даних за допомогою технології блокчейн, наділення даних "кредитними властивостями".
Можливість монетизації: постачальники даних можуть безпосередньо монетизувати структуровані дані, наприклад, упаковуючи результати аналізу в API-серві та стягуючи плату за кількість викликів.
У цю епоху фінансування даних дані стануть мостом, що з'єднує ШІ з реальним світом. Торгові агенти можуть відстежувати ринкові настрої за допомогою даних на блокчейні, автономні програми можуть оптимізувати послуги на основі даних про поведінку користувачів, а звичайні користувачі можуть отримувати постійний дохід, ділячись даними.
З розвитком інфраструктури даних ми маємо підстави вірити, що коли дані нарешті отримають належну цінність, ШІ справді звільнить силу для змін у світі. Це не лише технологічний прогрес, але й обов'язковий шлях для зрілості всієї індустрії ШІ.