Le nouveau goulet d'étranglement du développement de l'intelligence artificielle : les données deviennent la clé
Avec l'augmentation rapide de l'échelle des modèles d'intelligence artificielle et de la puissance de calcul, un problème central longtemps négligé commence à émerger : l'approvisionnement en données. Le paradoxe structurel auquel l'industrie de l'IA est confrontée n'est plus l'architecture des modèles ou la puissance des puces, mais plutôt comment transformer les données comportementales humaines fragmentées en ressources vérifiables, structurées et adaptées à l'IA. Cette constatation ne révèle pas seulement l'état actuel du développement de l'IA, mais esquisse également un nouveau paysage de l'"économie des données" - dans cette ère, les données deviendront des éléments de production mesurables, échangeables et valorisables, au même titre que l'électricité et la puissance de calcul.
De la compétition de puissance de calcul à la famine de données
Le développement de l'IA a longtemps été propulsé par le double moteur "modèle-puissance de calcul". Depuis la révolution de l'apprentissage profond, l'échelle des paramètres du modèle est passée de millions à des billions, et la demande en puissance de calcul a augmenté de manière exponentielle. Selon les statistiques, le coût de l'entraînement d'un modèle de langage avancé a déjà dépassé 100 millions de dollars, dont 90 % sont consacrés à la location de grappes GPU. Cependant, alors que l'industrie se concentre sur "des modèles plus grands" et "des puces plus rapides", une crise du côté de l'offre de données est en train de se profiler.
Les "données organiques" générées par l'homme ont atteint un plafond de croissance. Prenons l'exemple des données textuelles, la quantité totale de textes de haute qualité disponibles sur Internet et pouvant être extraits est d'environ 10^12 mots, tandis qu'un modèle de cent milliards de paramètres nécessite environ 10^13 mots de données pour son entraînement. Cela signifie que le pool de données actuel ne peut soutenir l'entraînement que de 10 modèles de taille équivalente. Plus sévère encore, la proportion de données répétées et de contenus de faible qualité dépasse 60 %, ce qui réduit encore l'offre de données efficaces. Lorsque les modèles commencent à "dévorer" les données qu'ils génèrent eux-mêmes, la dégradation des performances du modèle due à la "pollution des données" est devenue une préoccupation dans l'industrie.
La racine de cette contradiction réside dans le fait que l'industrie de l'IA considère depuis longtemps les données comme une "ressource gratuite" plutôt que comme un "actif stratégique" qui nécessite un soin particulier. Les modèles et la puissance de calcul ont déjà formé un système de marché mature, mais la production, le nettoyage, la validation et le commerce des données sont encore à l'"époque sauvage". La prochaine décennie de l'IA sera celle des "infrastructures de données", et les données en chaîne des réseaux cryptographiques sont la clé pour déverrouiller ce dilemme.
Données on-chain : la "base de données sur le comportement humain" la plus nécessaire pour l'IA
Dans le contexte de la famine de données, les données on-chain des réseaux cryptographiques montrent une valeur inestimable. Par rapport aux données de l'internet traditionnel, les données on-chain possèdent naturellement l'authenticité de "l'alignement des incitations" - chaque transaction, chaque interaction contractuelle, chaque comportement d'adresse de portefeuille est directement lié au capital réel et est immuable. Ces données sont définies comme "les données d'alignement des comportements humains les plus concentrées sur Internet", se manifestant concrètement dans trois dimensions :
Signaux d'intention "réels" : Les données on-chain enregistrent les comportements décisionnels votés avec de l'argent réel, reflétant directement le jugement des utilisateurs sur la valeur du projet, leur appétit pour le risque et leurs stratégies de répartition des fonds. Ces données "soutenues par le capital" ont une valeur extrêmement élevée pour former la capacité décisionnelle de l'IA.
Chaîne d'"actions" traçable : La transparence de la blockchain permet de retracer intégralement les comportements des utilisateurs. L'historique des transactions d'une adresse de portefeuille, les protocoles avec lesquels elle a interagi, et les variations des actifs détenus, constituent une "chaîne d'actions" cohérente. Ces données comportementales structurées sont précisément ce qui manque le plus aux modèles d'IA actuels en tant qu'"exemples de raisonnement humain".
Écosystème ouvert avec un "accès sans autorisation" : Contrairement à la fermeture des données des entreprises traditionnelles, les données sur la chaîne sont ouvertes et sans autorisation. Tout développeur peut accéder aux données brutes via un explorateur de blockchain ou une API de données, offrant ainsi une source de données "sans barrières" pour l'entraînement des modèles d'IA.
Cependant, l'ouverture des données on-chain pose également des défis : ces données existent sous forme de "journaux d'événements", ce qui en fait des "signaux bruts" non structurés, nécessitant un nettoyage, une normalisation et une association pour être utilisées par des modèles d'IA. Actuellement, le "taux de conversion structuré" des données on-chain est inférieur à 5 %, et une grande quantité de signaux de haute valeur est enterrée dans des milliards d'événements fragmentés.
"Système d'exploitation" des données on-chain
Pour résoudre le problème de la fragmentation des données sur la chaîne, l'industrie a proposé le concept de "système d'exploitation intelligent sur la chaîne" spécialement conçu pour l'IA. Son objectif principal est de convertir les signaux dispersés sur la chaîne en données amicales pour l'IA, structurées, vérifiables et en temps réel. Ce système comprend les composants clés suivants :
Normes de données ouvertes : unifier la définition et la description des données sur la chaîne, garantir que les modèles d'IA n'ont pas besoin de s'adapter aux formats de données de différentes chaînes ou protocoles, et peuvent directement "comprendre" la logique commerciale sous-jacente des données.
Mécanisme de validation des données : garantir l'authenticité des données grâce au réseau de validateurs de la blockchain. Lorsque le système traite un événement sur la chaîne, les nœuds de validation vérifient de manière croisée les valeurs de hachage des données, les informations de signature et l'état sur la chaîne, garantissant que les données structurées produites correspondent exactement aux données d'origine sur la chaîne.
Couche de disponibilité des données à haut débit : en optimisant les algorithmes de compression des données et les protocoles de transmission, permettant le traitement en temps réel de centaines de milliers d'événements sur la chaîne par seconde. Cette conception permet au système de répondre aux besoins en données en temps réel des applications AI à grande échelle.
L'ère de la financiarisation des données : Quand les données deviennent un "capital" échangeable
L'objectif ultime de ce système d'exploitation de données en chaîne est de propulser l'industrie de l'IA dans l'ère de la financiarisation des données - les données ne sont plus des "matériaux d'entraînement" passifs, mais des "capitaux" actifs qui peuvent être évalués, échangés et valorisés. La réalisation de cette vision repose sur la transformation des données en quatre attributs clés :
Structuré : de "signal brut" à "actif utilisable", transformer les données en chaîne en données structurées afin qu'elles puissent être directement appelées par des modèles d'IA.
Combinable : Les données structurées peuvent être combinées librement, comme des briques Lego, ce qui élargit considérablement les frontières d'application des données et permet à l'IA d'innover sans être limitée à une seule source de données.
Vérifiable : Assurer la véracité et la traçabilité des données grâce à la technologie blockchain, en conférant aux données une "propriété de crédit".
Monétisation : Les fournisseurs de données peuvent monétiser des données structurées directement, par exemple en emballant les résultats d'analyse en services API et en facturant par nombre d'appels.
À l'ère de la financiarisation des données, les données deviendront le pont reliant l'IA au monde réel. Les agents de trading peuvent percevoir le sentiment du marché à travers les données on-chain, les applications autonomes peuvent optimiser leurs services grâce aux données de comportement des utilisateurs, et les utilisateurs ordinaires peuvent obtenir des revenus passifs en partageant leurs données.
Avec l'amélioration continue des infrastructures de données, nous avons des raisons de croire que lorsque les données seront enfin dotées de la valeur qui leur revient, l'IA libérera véritablement le pouvoir de changer le monde. Cela représente non seulement un progrès technologique, mais aussi un passage obligé vers la maturité de l'ensemble de l'industrie de l'IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
5
Reposter
Partager
Commentaire
0/400
FUD_Whisperer
· Il y a 1h
Quel type de données peut vraiment être appelé finance des données ? C'est absurde.
Voir l'originalRépondre0
BlockchainBard
· Il y a 1h
L'IA avec une envie de survie au maximum veut tout.
Voir l'originalRépondre0
BearMarketBuilder
· 08-12 05:52
Demain, les données seront le nouveau pétrole~
Voir l'originalRépondre0
VitaliksTwin
· 08-12 05:38
Vous êtes toujours inquiet pour la source de données ? Que sont devenus les buddies qui spéculaient sur le matériel il y a quelques années ?
Voir l'originalRépondre0
GasGuzzler
· 08-12 05:37
off-chain données pas assez, capacité en espèces pour compenser
Nouveau goulot d'étranglement dans le développement de l'IA : les données off-chain deviennent des actifs clés
Le nouveau goulet d'étranglement du développement de l'intelligence artificielle : les données deviennent la clé
Avec l'augmentation rapide de l'échelle des modèles d'intelligence artificielle et de la puissance de calcul, un problème central longtemps négligé commence à émerger : l'approvisionnement en données. Le paradoxe structurel auquel l'industrie de l'IA est confrontée n'est plus l'architecture des modèles ou la puissance des puces, mais plutôt comment transformer les données comportementales humaines fragmentées en ressources vérifiables, structurées et adaptées à l'IA. Cette constatation ne révèle pas seulement l'état actuel du développement de l'IA, mais esquisse également un nouveau paysage de l'"économie des données" - dans cette ère, les données deviendront des éléments de production mesurables, échangeables et valorisables, au même titre que l'électricité et la puissance de calcul.
De la compétition de puissance de calcul à la famine de données
Le développement de l'IA a longtemps été propulsé par le double moteur "modèle-puissance de calcul". Depuis la révolution de l'apprentissage profond, l'échelle des paramètres du modèle est passée de millions à des billions, et la demande en puissance de calcul a augmenté de manière exponentielle. Selon les statistiques, le coût de l'entraînement d'un modèle de langage avancé a déjà dépassé 100 millions de dollars, dont 90 % sont consacrés à la location de grappes GPU. Cependant, alors que l'industrie se concentre sur "des modèles plus grands" et "des puces plus rapides", une crise du côté de l'offre de données est en train de se profiler.
Les "données organiques" générées par l'homme ont atteint un plafond de croissance. Prenons l'exemple des données textuelles, la quantité totale de textes de haute qualité disponibles sur Internet et pouvant être extraits est d'environ 10^12 mots, tandis qu'un modèle de cent milliards de paramètres nécessite environ 10^13 mots de données pour son entraînement. Cela signifie que le pool de données actuel ne peut soutenir l'entraînement que de 10 modèles de taille équivalente. Plus sévère encore, la proportion de données répétées et de contenus de faible qualité dépasse 60 %, ce qui réduit encore l'offre de données efficaces. Lorsque les modèles commencent à "dévorer" les données qu'ils génèrent eux-mêmes, la dégradation des performances du modèle due à la "pollution des données" est devenue une préoccupation dans l'industrie.
La racine de cette contradiction réside dans le fait que l'industrie de l'IA considère depuis longtemps les données comme une "ressource gratuite" plutôt que comme un "actif stratégique" qui nécessite un soin particulier. Les modèles et la puissance de calcul ont déjà formé un système de marché mature, mais la production, le nettoyage, la validation et le commerce des données sont encore à l'"époque sauvage". La prochaine décennie de l'IA sera celle des "infrastructures de données", et les données en chaîne des réseaux cryptographiques sont la clé pour déverrouiller ce dilemme.
Données on-chain : la "base de données sur le comportement humain" la plus nécessaire pour l'IA
Dans le contexte de la famine de données, les données on-chain des réseaux cryptographiques montrent une valeur inestimable. Par rapport aux données de l'internet traditionnel, les données on-chain possèdent naturellement l'authenticité de "l'alignement des incitations" - chaque transaction, chaque interaction contractuelle, chaque comportement d'adresse de portefeuille est directement lié au capital réel et est immuable. Ces données sont définies comme "les données d'alignement des comportements humains les plus concentrées sur Internet", se manifestant concrètement dans trois dimensions :
Signaux d'intention "réels" : Les données on-chain enregistrent les comportements décisionnels votés avec de l'argent réel, reflétant directement le jugement des utilisateurs sur la valeur du projet, leur appétit pour le risque et leurs stratégies de répartition des fonds. Ces données "soutenues par le capital" ont une valeur extrêmement élevée pour former la capacité décisionnelle de l'IA.
Chaîne d'"actions" traçable : La transparence de la blockchain permet de retracer intégralement les comportements des utilisateurs. L'historique des transactions d'une adresse de portefeuille, les protocoles avec lesquels elle a interagi, et les variations des actifs détenus, constituent une "chaîne d'actions" cohérente. Ces données comportementales structurées sont précisément ce qui manque le plus aux modèles d'IA actuels en tant qu'"exemples de raisonnement humain".
Écosystème ouvert avec un "accès sans autorisation" : Contrairement à la fermeture des données des entreprises traditionnelles, les données sur la chaîne sont ouvertes et sans autorisation. Tout développeur peut accéder aux données brutes via un explorateur de blockchain ou une API de données, offrant ainsi une source de données "sans barrières" pour l'entraînement des modèles d'IA.
Cependant, l'ouverture des données on-chain pose également des défis : ces données existent sous forme de "journaux d'événements", ce qui en fait des "signaux bruts" non structurés, nécessitant un nettoyage, une normalisation et une association pour être utilisées par des modèles d'IA. Actuellement, le "taux de conversion structuré" des données on-chain est inférieur à 5 %, et une grande quantité de signaux de haute valeur est enterrée dans des milliards d'événements fragmentés.
"Système d'exploitation" des données on-chain
Pour résoudre le problème de la fragmentation des données sur la chaîne, l'industrie a proposé le concept de "système d'exploitation intelligent sur la chaîne" spécialement conçu pour l'IA. Son objectif principal est de convertir les signaux dispersés sur la chaîne en données amicales pour l'IA, structurées, vérifiables et en temps réel. Ce système comprend les composants clés suivants :
Normes de données ouvertes : unifier la définition et la description des données sur la chaîne, garantir que les modèles d'IA n'ont pas besoin de s'adapter aux formats de données de différentes chaînes ou protocoles, et peuvent directement "comprendre" la logique commerciale sous-jacente des données.
Mécanisme de validation des données : garantir l'authenticité des données grâce au réseau de validateurs de la blockchain. Lorsque le système traite un événement sur la chaîne, les nœuds de validation vérifient de manière croisée les valeurs de hachage des données, les informations de signature et l'état sur la chaîne, garantissant que les données structurées produites correspondent exactement aux données d'origine sur la chaîne.
Couche de disponibilité des données à haut débit : en optimisant les algorithmes de compression des données et les protocoles de transmission, permettant le traitement en temps réel de centaines de milliers d'événements sur la chaîne par seconde. Cette conception permet au système de répondre aux besoins en données en temps réel des applications AI à grande échelle.
L'ère de la financiarisation des données : Quand les données deviennent un "capital" échangeable
L'objectif ultime de ce système d'exploitation de données en chaîne est de propulser l'industrie de l'IA dans l'ère de la financiarisation des données - les données ne sont plus des "matériaux d'entraînement" passifs, mais des "capitaux" actifs qui peuvent être évalués, échangés et valorisés. La réalisation de cette vision repose sur la transformation des données en quatre attributs clés :
Structuré : de "signal brut" à "actif utilisable", transformer les données en chaîne en données structurées afin qu'elles puissent être directement appelées par des modèles d'IA.
Combinable : Les données structurées peuvent être combinées librement, comme des briques Lego, ce qui élargit considérablement les frontières d'application des données et permet à l'IA d'innover sans être limitée à une seule source de données.
Vérifiable : Assurer la véracité et la traçabilité des données grâce à la technologie blockchain, en conférant aux données une "propriété de crédit".
Monétisation : Les fournisseurs de données peuvent monétiser des données structurées directement, par exemple en emballant les résultats d'analyse en services API et en facturant par nombre d'appels.
À l'ère de la financiarisation des données, les données deviendront le pont reliant l'IA au monde réel. Les agents de trading peuvent percevoir le sentiment du marché à travers les données on-chain, les applications autonomes peuvent optimiser leurs services grâce aux données de comportement des utilisateurs, et les utilisateurs ordinaires peuvent obtenir des revenus passifs en partageant leurs données.
Avec l'amélioration continue des infrastructures de données, nous avons des raisons de croire que lorsque les données seront enfin dotées de la valeur qui leur revient, l'IA libérera véritablement le pouvoir de changer le monde. Cela représente non seulement un progrès technologique, mais aussi un passage obligé vers la maturité de l'ensemble de l'industrie de l'IA.