Новая瓶颈 в развитии искусственного интеллекта: данные становятся ключевыми
С увеличением масштабов моделей искусственного интеллекта и вычислительной мощности нарастает долгосрочно игнорируемая основная проблема — обеспечение данных. Структурные противоречия, с которыми сталкивается современная AI-индустрия, теперь связаны не с архитектурой модели или мощностью чипов, а с тем, как преобразовать фрагментированные данные человеческого поведения в проверяемые, структурированные и дружественные к AI ресурсы. Это понимание не только раскрывает текущее состояние развития AI, но и очерчивает новый пейзаж эпохи "финансирования данных" — в этой эпохе данные станут измеримым, торговым и добавляющим стоимость основным производственным фактором, сопоставимым с электроэнергией и вычислительной мощностью.
От соревнования по вычислительной мощности к дефициту данных
Развитие ИИ на протяжении долгого времени двигалось вдвижении "модель-вычислительная мощность". С момента революции глубокого обучения масштаб параметров моделей вырос с миллионов до триллионов, а потребность в вычислительной мощности возросла в геометрической прогрессии. По статистике, стоимость обучения передовой большой языковой модели уже превысила 100 миллионов долларов, из которых 90% идут на аренду кластеров GPU. Однако, когда отрасль сосредоточилась на "больших моделях" и "быстрых чипах", кризис на стороне поставок данных тихо приближается.
"Органические данные", созданные человеком, достигли предела роста. Например, в случае текстовых данных общее количество доступных для парсинга высококачественных текстов в Интернете составляет около 10^12 слов, в то время как для обучения модели с триллионом параметров требуется примерно данные на уровне 10^13 слов. Это означает, что существующий пул данных может поддерживать обучение только 10 моделей аналогичного масштаба. Более того, доля повторяющихся данных и контента низкого качества превышает 60%, что еще больше сокращает предложение эффективных данных. Когда модели начинают "поглощать" данные, созданные ими самими, деградация производительности модели, вызванная "загрязнением данных", становится серьезной проблемой для отрасли.
Корень этой противоречия в том, что индустрия ИИ долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", который нужно тщательно воспитывать. Модели и вычислительные мощности уже сформировали зрелую рыночную систему, но производство, очистка, проверка и торговля данными все еще находятся в "диком времени". Следующее десятилетие ИИ будет десятилетием "инфраструктуры данных", а данные в цепочках криптосетей являются ключом к решению этой проблемы.
Данные на блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, ончейн-данные криптосетей демонстрируют несравненную ценность. В отличие от традиционных интернет-данных, ончейн-данные изначально обладают подлинностью "согласования стимулов" — каждая транзакция, каждое взаимодействие по контракту, каждое действие адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные определяются как "наиболее концентрированные данные о поведении человека с согласованием стимулов в интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": данные на блокчейне фиксируют решения, принятые с использованием реальных денег, что напрямую отражает оценку пользователями ценности проекта, их рисковую склонность и стратегии распределения капитала. Эти данные, "подтвержденные капиталом", имеют высокую ценность для обучения AI в принятии решений.
Прослеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции одного адреса кошелька, взаимодействия с протоколами и изменения в удерживаемых активах составляют последовательную "цепочку действий". Эти структурированные данные о поведении являются наиболее дефицитными "образцами человеческого рассуждения" для текущих AI моделей.
Открытая экосистема "безлицензионного доступа": в отличие от закрытости данных традиционных предприятий, данные на блокчейне открыты и не требуют лицензии. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет "безбарьерный" источник данных для обучения AI-моделей.
Однако открытость данных в блокчейне также приносит вызовы: эти данные существуют в виде "журналов событий", являются неструктурированными "сырьевыми сигналами", которые необходимо очистить, стандартизировать и связать, чтобы их можно было использовать в AI моделях. В настоящее время "уровень структурированной трансформации" данных в блокчейне составляет менее 5%, и множество высокоценных сигналов теряются среди миллиардов фрагментированных событий.
"Операционная система" на блокчейне
Чтобы решить проблему фрагментации данных в блокчейне, в отрасли было предложено понятие "умной операционной системы на блокчейне", специально разработанной для ИИ. Ее основной целью является преобразование разрозненных сигналов блокчейна в структурированные, проверяемые и совместимые с ИИ данные в реальном времени. Эта система включает в себя следующие ключевые компоненты:
Открытые стандарты данных: унификация определения и описания данных на блокчейне, чтобы модели ИИ могли непосредственно "понимать" бизнес-логику, стоящую за данными, без необходимости адаптации к различным форматам данных цепочки или протокола.
Механизм верификации данных: обеспечение подлинности данных через сеть валидаторов блокчейна. Когда система обрабатывает событие в цепочке, узлы верификации пересекают и проверяют хэш-значения данных, информацию о подписи и состояние в цепочке, чтобы гарантировать, что выходные структурированные данные полностью соответствуют исходным данным в цепочке.
Уровень доступности данных с высокой пропускной способностью: за счет оптимизации алгоритмов сжатия данных и протоколов передачи достигается обработка сотен тысяч событий на блокчейне в реальном времени каждую секунду. Такой дизайн позволяет системе поддерживать требования к данным в реальном времени для масштабных AI-приложений.
Эпоха финансовых данных: когда данные становятся торговым "капиталом"
Конечная цель этой операционной системы данных на блокчейне — способствовать переходу индустрии ИИ в эпоху финансовых данных — данные больше не являются пассивным "материалом для обучения", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать. Реализация этого видения зависит от преобразования данных в четыре ключевые характеристики:
Структурирование: от "исходного сигнала" до "доступных активов", преобразование данных на блокчейне в структурированные данные, чтобы они могли быть напрямую использованы моделями ИИ.
Комбинируемость: структурированные данные могут свободно комбинироваться как детали конструктора Лего, что значительно расширяет границы применения данных, позволяя инновациям в ИИ больше не ограничиваться единственным источником данных.
Проверяемость: обеспечение подлинности и отслеживаемости данных с помощью технологий блокчейна, придавая данным "кредитные свойства".
Монетизация: Поставщики данных могут напрямую монетизировать структурированные данные, например, упаковывая аналитические результаты в API-сервисы и взимая плату за количество вызовов.
В эпоху финансовых данных данные станут мостом между ИИ и реальным миром. Торговые агенты могут воспринимать рыночные настроения через данные на блокчейне, автономные приложения могут оптимизировать услуги на основе данных о поведении пользователей, а обычные пользователи могут получать постоянный доход за счет обмена данными.
С учетом постоянного совершенствования инфраструктуры данных, у нас есть основания полагать, что когда данные наконец получат должную ценность, ИИ действительно освободит силу, способную изменить мир. Это не только технологический прогресс, но и неизбежный путь к зрелости всей индустрии ИИ.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
17 Лайков
Награда
17
6
Репост
Поделиться
комментарий
0/400
FUD_Whisperer
· 08-13 15:19
Какие данные можно назвать финансовыми данными? Неприемлемо.
Посмотреть ОригиналОтветить0
BlockchainBard
· 08-13 15:18
Желание выжить у AI максимальное, он хочет всего.
Посмотреть ОригиналОтветить0
BearMarketBuilder
· 08-12 05:52
Завтра данные будут новым нефтью~
Посмотреть ОригиналОтветить0
VitaliksTwin
· 08-12 05:38
Все еще беспокоитесь о источниках данных? Где же приятель, который несколько лет назад увлекался аппаратным обеспечением?
Посмотреть ОригиналОтветить0
GasGuzzler
· 08-12 05:37
в блокчейне данные недостаточны, чтобы компенсировать способность наличных
Новая瓶颈 в развитии ИИ: данные в блокчейне становятся ключевым активом
Новая瓶颈 в развитии искусственного интеллекта: данные становятся ключевыми
С увеличением масштабов моделей искусственного интеллекта и вычислительной мощности нарастает долгосрочно игнорируемая основная проблема — обеспечение данных. Структурные противоречия, с которыми сталкивается современная AI-индустрия, теперь связаны не с архитектурой модели или мощностью чипов, а с тем, как преобразовать фрагментированные данные человеческого поведения в проверяемые, структурированные и дружественные к AI ресурсы. Это понимание не только раскрывает текущее состояние развития AI, но и очерчивает новый пейзаж эпохи "финансирования данных" — в этой эпохе данные станут измеримым, торговым и добавляющим стоимость основным производственным фактором, сопоставимым с электроэнергией и вычислительной мощностью.
От соревнования по вычислительной мощности к дефициту данных
Развитие ИИ на протяжении долгого времени двигалось вдвижении "модель-вычислительная мощность". С момента революции глубокого обучения масштаб параметров моделей вырос с миллионов до триллионов, а потребность в вычислительной мощности возросла в геометрической прогрессии. По статистике, стоимость обучения передовой большой языковой модели уже превысила 100 миллионов долларов, из которых 90% идут на аренду кластеров GPU. Однако, когда отрасль сосредоточилась на "больших моделях" и "быстрых чипах", кризис на стороне поставок данных тихо приближается.
"Органические данные", созданные человеком, достигли предела роста. Например, в случае текстовых данных общее количество доступных для парсинга высококачественных текстов в Интернете составляет около 10^12 слов, в то время как для обучения модели с триллионом параметров требуется примерно данные на уровне 10^13 слов. Это означает, что существующий пул данных может поддерживать обучение только 10 моделей аналогичного масштаба. Более того, доля повторяющихся данных и контента низкого качества превышает 60%, что еще больше сокращает предложение эффективных данных. Когда модели начинают "поглощать" данные, созданные ими самими, деградация производительности модели, вызванная "загрязнением данных", становится серьезной проблемой для отрасли.
Корень этой противоречия в том, что индустрия ИИ долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", который нужно тщательно воспитывать. Модели и вычислительные мощности уже сформировали зрелую рыночную систему, но производство, очистка, проверка и торговля данными все еще находятся в "диком времени". Следующее десятилетие ИИ будет десятилетием "инфраструктуры данных", а данные в цепочках криптосетей являются ключом к решению этой проблемы.
Данные на блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, ончейн-данные криптосетей демонстрируют несравненную ценность. В отличие от традиционных интернет-данных, ончейн-данные изначально обладают подлинностью "согласования стимулов" — каждая транзакция, каждое взаимодействие по контракту, каждое действие адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные определяются как "наиболее концентрированные данные о поведении человека с согласованием стимулов в интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": данные на блокчейне фиксируют решения, принятые с использованием реальных денег, что напрямую отражает оценку пользователями ценности проекта, их рисковую склонность и стратегии распределения капитала. Эти данные, "подтвержденные капиталом", имеют высокую ценность для обучения AI в принятии решений.
Прослеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции одного адреса кошелька, взаимодействия с протоколами и изменения в удерживаемых активах составляют последовательную "цепочку действий". Эти структурированные данные о поведении являются наиболее дефицитными "образцами человеческого рассуждения" для текущих AI моделей.
Открытая экосистема "безлицензионного доступа": в отличие от закрытости данных традиционных предприятий, данные на блокчейне открыты и не требуют лицензии. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет "безбарьерный" источник данных для обучения AI-моделей.
Однако открытость данных в блокчейне также приносит вызовы: эти данные существуют в виде "журналов событий", являются неструктурированными "сырьевыми сигналами", которые необходимо очистить, стандартизировать и связать, чтобы их можно было использовать в AI моделях. В настоящее время "уровень структурированной трансформации" данных в блокчейне составляет менее 5%, и множество высокоценных сигналов теряются среди миллиардов фрагментированных событий.
"Операционная система" на блокчейне
Чтобы решить проблему фрагментации данных в блокчейне, в отрасли было предложено понятие "умной операционной системы на блокчейне", специально разработанной для ИИ. Ее основной целью является преобразование разрозненных сигналов блокчейна в структурированные, проверяемые и совместимые с ИИ данные в реальном времени. Эта система включает в себя следующие ключевые компоненты:
Открытые стандарты данных: унификация определения и описания данных на блокчейне, чтобы модели ИИ могли непосредственно "понимать" бизнес-логику, стоящую за данными, без необходимости адаптации к различным форматам данных цепочки или протокола.
Механизм верификации данных: обеспечение подлинности данных через сеть валидаторов блокчейна. Когда система обрабатывает событие в цепочке, узлы верификации пересекают и проверяют хэш-значения данных, информацию о подписи и состояние в цепочке, чтобы гарантировать, что выходные структурированные данные полностью соответствуют исходным данным в цепочке.
Уровень доступности данных с высокой пропускной способностью: за счет оптимизации алгоритмов сжатия данных и протоколов передачи достигается обработка сотен тысяч событий на блокчейне в реальном времени каждую секунду. Такой дизайн позволяет системе поддерживать требования к данным в реальном времени для масштабных AI-приложений.
Эпоха финансовых данных: когда данные становятся торговым "капиталом"
Конечная цель этой операционной системы данных на блокчейне — способствовать переходу индустрии ИИ в эпоху финансовых данных — данные больше не являются пассивным "материалом для обучения", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать. Реализация этого видения зависит от преобразования данных в четыре ключевые характеристики:
Структурирование: от "исходного сигнала" до "доступных активов", преобразование данных на блокчейне в структурированные данные, чтобы они могли быть напрямую использованы моделями ИИ.
Комбинируемость: структурированные данные могут свободно комбинироваться как детали конструктора Лего, что значительно расширяет границы применения данных, позволяя инновациям в ИИ больше не ограничиваться единственным источником данных.
Проверяемость: обеспечение подлинности и отслеживаемости данных с помощью технологий блокчейна, придавая данным "кредитные свойства".
Монетизация: Поставщики данных могут напрямую монетизировать структурированные данные, например, упаковывая аналитические результаты в API-сервисы и взимая плату за количество вызовов.
В эпоху финансовых данных данные станут мостом между ИИ и реальным миром. Торговые агенты могут воспринимать рыночные настроения через данные на блокчейне, автономные приложения могут оптимизировать услуги на основе данных о поведении пользователей, а обычные пользователи могут получать постоянный доход за счет обмена данными.
С учетом постоянного совершенствования инфраструктуры данных, у нас есть основания полагать, что когда данные наконец получат должную ценность, ИИ действительно освободит силу, способную изменить мир. Это не только технологический прогресс, но и неизбежный путь к зрелости всей индустрии ИИ.