Nuevo obstáculo en el desarrollo de la IA: los datos on-chain se convierten en activos clave

robot
Generación de resúmenes en curso

Nuevos cuellos de botella en el desarrollo de la inteligencia artificial: los datos se convierten en clave

Con el rápido aumento de la escala de los modelos de inteligencia artificial y la capacidad de cálculo, un problema central que ha sido ignorado durante mucho tiempo está comenzando a aparecer: el suministro de datos. La contradicción estructural que enfrenta actualmente la industria de la IA ya no es la arquitectura del modelo o la potencia de cálculo de los chips, sino cómo transformar los datos de comportamiento humano fragmentados en recursos verificables, estructurados y amigables con la IA. Esta percepción no solo revela el estado actual del desarrollo de la IA, sino que también esboza un nuevo panorama de "financiarización de datos": en esta era, los datos se convertirán en un factor de producción central que se puede medir, intercambiar y valorizar, junto a la electricidad y la potencia de cálculo.

De la competencia de poder de cálculo a la hambruna de datos

El desarrollo de la IA ha sido impulsado durante mucho tiempo por la doble rueda de "modelos-potencia de cálculo". Desde la revolución del aprendizaje profundo, la escala de parámetros de los modelos ha aumentado de millones a billones, y la demanda de potencia de cálculo ha crecido de manera exponencial. Según estadísticas, el costo de entrenar un avanzado modelo de lenguaje grande ya ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria centra su atención en "modelos más grandes" y "chips más rápidos", una crisis en el lado de la oferta de datos está surgiendo silenciosamente.

Los "datos orgánicos" generados por humanos han alcanzado un techo de crecimiento. Tomando como ejemplo los datos de texto, la cantidad total de texto de alta calidad accesible en Internet es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere consumir datos a nivel de aproximadamente 10^13 palabras. Esto significa que el actual conjunto de datos solo puede soportar el entrenamiento de 10 modelos de igual escala. Más severo es el hecho de que la proporción de datos duplicados y contenido de baja calidad supera el 60%, lo que comprime aún más la oferta de datos efectivos. Cuando el modelo comienza a "devorar" los datos que genera, la degradación del rendimiento del modelo debido a la "contaminación de datos" se ha convertido en una preocupación en la industria.

La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos" en lugar de "activos estratégicos" que necesitan ser cuidadosamente cultivados. Los modelos y la potencia de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, validación y transacción de datos aún se encuentran en la "era primitiva". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en la cadena de las redes criptográficas son la clave para deshacer este dilema.

Datos en cadena: la "base de datos de comportamiento humano" más necesaria para la IA

En el contexto de la escasez de datos, los datos en cadena de las redes criptográficas muestran un valor insustituible. En comparación con los datos de Internet tradicional, los datos en cadena poseen de forma inherente la autenticidad de "alineación de incentivos": cada transacción, cada interacción de contrato y cada comportamiento de dirección de billetera están directamente vinculados al capital real y son inalterables. Estos datos se definen como "los datos sobre el comportamiento de alineación de incentivos humanos más concentrados en Internet", que se manifiestan en tres dimensiones:

  1. "Señales de intención" del mundo real: los datos en cadena registran decisiones tomadas con dinero real, reflejando directamente el juicio de los usuarios sobre el valor del proyecto, sus preferencias de riesgo y estrategias de asignación de fondos. Estos datos respaldados por capital tienen un alto valor para entrenar la capacidad de decisión de la IA.

  2. Cadena de "acciones" rastreable: La transparencia de la blockchain permite que las acciones de los usuarios sean completamente rastreables. El historial de transacciones de una dirección de billetera, los protocolos interactuados y los cambios en los activos poseídos forman una cadena coherente de "acciones". Estos datos de comportamiento estructurados son precisamente las "muestras de razonamiento humano" más escasas para los modelos de IA actuales.

  3. Acceso "sin permiso" a un ecosistema abierto: A diferencia de la naturaleza cerrada de los datos empresariales tradicionales, los datos en la cadena son abiertos y sin permisos. Cualquier desarrollador puede acceder a los datos originales a través de un explorador de blockchain o una API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA.

Sin embargo, la apertura de los datos en la cadena también ha traído desafíos: estos datos existen en forma de "registros de eventos", son "señales crudas" no estructuradas que necesitan ser limpiadas, normalizadas y relacionadas para ser utilizadas por modelos de IA. Actualmente, la "tasa de transformación estructurada" de los datos en la cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas en miles de millones de eventos fragmentados.

El "sistema operativo" de datos en cadena

Para resolver el problema de la fragmentación de datos en la cadena, la industria ha propuesto el concepto de "sistema operativo inteligente en la cadena" diseñado específicamente para la IA. Su objetivo principal es transformar las señales dispersas en la cadena en datos estructurados, verificables y amigables con la IA que se puedan combinar en tiempo real. Este sistema incluye los siguientes componentes clave:

  1. Estándar de datos abiertos: unificar la definición y la forma de descripción de los datos en la cadena, asegurando que los modelos de IA no necesiten adaptarse a diferentes formatos de datos de cadenas o protocolos, y puedan "entender" directamente la lógica empresarial detrás de los datos.

  2. Mecanismo de validación de datos: garantizar la autenticidad de los datos a través de la red de validadores de blockchain. Cuando el sistema procesa un evento en la cadena, los nodos de validación verifican de forma cruzada el valor hash de los datos, la información de la firma y el estado en la cadena, asegurando que los datos estructurados generados coincidan exactamente con los datos originales en la cadena.

  3. Capa de disponibilidad de datos de alto rendimiento: mediante la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos en la cadena por segundo. Este diseño permite que el sistema soporte la demanda de datos en tiempo real de aplicaciones de IA a gran escala.

Era de la Financiarización de Datos: Cuando los Datos se Convierten en "Capital" Negociable

El objetivo final de este sistema operativo de datos en la cadena es impulsar a la industria de la IA hacia la era de la financiarización de los datos: los datos ya no son un "material de entrenamiento" pasivo, sino un "capital" activo, que puede ser valorado, negociado y aumentado. La realización de esta visión depende de transformar los datos en cuatro propiedades clave:

  1. Estructurado: De "señal original" a "activo utilizable", transforma los datos en la cadena en datos estructurados, permitiendo que sean llamados directamente por modelos de IA.

  2. Combinable: Los datos estructurados pueden combinarse libremente como bloques de Lego, ampliando enormemente los límites de aplicación de los datos, lo que permite que la innovación de la IA ya no esté limitada a una única fuente de datos.

  3. Verificable: Asegurar la autenticidad y trazabilidad de los datos a través de la tecnología blockchain, otorgando a los datos "atributos de crédito".

  4. Monetizable: Los proveedores de datos pueden monetizar datos estructurados directamente, como empaquetar los resultados del análisis en servicios API y cobrar según el número de llamadas.

En esta era de la financiarización de datos, los datos se convertirán en el puente que conecta la IA con el mundo real. Los agentes de comercio pueden percibir el sentimiento del mercado a través de datos en la cadena, las aplicaciones autónomas pueden optimizar servicios a través de datos de comportamiento de los usuarios, y los usuarios comunes pueden obtener ingresos sostenidos compartiendo datos.

A medida que se perfecciona la infraestructura de datos, tenemos razones para creer que, cuando los datos finalmente se les otorgue el valor que merecen, la IA realmente liberará el poder de cambiar el mundo. Esto no solo es un avance tecnológico, sino también un camino inevitable hacia la madurez de toda la industria de la IA.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
FUD_Whisperervip
· En este momento
¿Qué tipo de datos se atreve a llamar financiarización de datos? Ridículo.
Ver originalesResponder0
BlockchainBardvip
· Hace1m
El deseo de supervivencia de la IA está a tope, quiere de todo.
Ver originalesResponder0
BearMarketBuildervip
· 08-12 05:52
Mañana los datos serán el nuevo petróleo~
Ver originalesResponder0
VitaliksTwinvip
· 08-12 05:38
¿Todavía te preocupas por la fuente de datos? ¿Dónde está el amigo que hacía trading de hardware hace unos años?
Ver originalesResponder0
GasGuzzlervip
· 08-12 05:37
Los datos on-chain no son suficientes, la capacidad de efectivo se une.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)