La bataille pour la technologie de texte long des grandes entreprises de modèles
De 4000 à 400 000 tokens, le grand modèle devient de plus en plus "grand" à une vitesse "visible à l'œil nu".
La capacité de texte long semble devenir un nouveau "standard" symbolique pour les fabricants de grands modèles.
À l'étranger, OpenAI a effectué trois mises à niveau, la longueur d'entrée du contexte de GPT-3.5 est passée de 4 000 à 16 000 tokens, et celle de GPT-4 est passée de 8 000 à 32 000 tokens ; une certaine entreprise a porté la longueur du contexte à 100 000 tokens d'un coup ; LongLLaMA a étendu la longueur du contexte à 256 000 tokens, voire plus.
Dans le pays, une startup de grands modèles a lancé un produit d'assistant intelligent capable de prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens ; l'équipe de l'Université Chinoise de Hong Kong, en collaboration avec le MIT, a publié une nouvelle technologie LongLoRA, qui peut étendre la longueur de texte d'un modèle de 7B à 100 000 tokens et celle d'un modèle de 70B à 32 000 tokens.
Actuellement, un grand nombre de sociétés, d'institutions et d'équipes de pointe en technologie de modèles à grande échelle, tant au niveau national qu'international, considèrent l'extension de la longueur de contexte comme un axe majeur de mise à jour et d'amélioration.
Ces entreprises ou institutions de grands modèles nationaux et internationaux sont toutes les "stars montantes" très prisées par le marché des capitaux. Une certaine entreprise connaît récemment un succès fulgurant, ayant été révélée comme ayant obtenu des investissements de grandes entreprises technologiques, avec une valorisation qui pourrait atteindre 30 milliards de dollars, soit cinq fois plus qu'en mars ; une autre entreprise, fondée il y a seulement six mois, a rapidement terminé son premier tour de financement, attirant l'attention de plusieurs VC de premier plan, avec une valorisation de marché déjà supérieure à 300 millions de dollars.
Les grandes entreprises de modèles mettent les bouchées doubles pour conquérir la technologie des longs textes. Que signifie une augmentation de 100 fois la longueur du texte en amont et en aval ?
À première vue, la longueur des textes pouvant être saisis augmente et la capacité de lecture s'améliore. Si l'on quantifie la valeur abstraite des tokens, le GPT-3.5 avec 4000 tokens ne peut saisir au maximum que 3000 mots en anglais ou 2000 caractères chinois, ce qui rend même difficile la lecture d'un article public sur WeChat ; le GPT-4 avec 32 000 tokens atteint le niveau de lecture d'une nouvelle ; un produit avec 100 000 tokens peut saisir environ 75 000 mots et peut lire "Gatsby le Magnifique" en seulement 22 secondes ; un produit avec 400 000 tokens prend en charge la saisie de 200 000 caractères chinois, permettant de lire un grand roman.
D'autre part, la technologie des longs textes stimule également l'implémentation plus profonde des grands modèles dans des secteurs tels que la finance, la justice et la recherche, où des capacités telles que le résumé de documents longs, la compréhension de lecture et la réponse aux questions sont fondamentales et constituent un terrain d'entraînement nécessitant une mise à niveau intelligente.
En référence aux paramètres de "rouleau" des fabricants de grands modèles lors du tour précédent, les paramètres des grands modèles ne sont pas nécessairement meilleurs s'ils sont plus grands. Chaque entreprise essaie d'élargir autant que possible les paramètres pour trouver le "point critique" de performance optimale des grands modèles. De même, en tant qu'autre indicateur déterminant l'efficacité du modèle — la longueur du texte — elle n'est pas meilleure simplement parce qu'elle est plus longue.
Des études ont déjà prouvé qu'il n'y a pas d'équivalence directe entre la capacité des grands modèles à supporter des entrées contextuelles plus longues et une meilleure performance du modèle. La longueur du contexte que le modèle peut traiter n'est pas le véritable point clé, mais plutôt l'utilisation que le modèle fait du contenu contextuel.
Cependant, pour le moment, l'exploration de la longueur des textes tant au niveau national qu'international n'a pas encore atteint un état de "point critique". Les entreprises de grands modèles, tant nationales qu'internationales, continuent de progresser sans relâche, et 400 000 tokens ne sont peut-être encore qu'un début.
Pourquoi "rouler" des textes longs ?
Le fondateur d'une certaine entreprise a déclaré que, lors du processus de recherche et développement technique, son équipe a découvert que c'était en raison de la limitation de la longueur d'entrée des grands modèles que de nombreux défis pour la mise en œuvre des applications de grands modèles se posaient. C'est également la raison pour laquelle de nombreuses entreprises de grands modèles se concentrent actuellement sur la technologie des longs textes.
Par exemple, dans un scénario de personnages virtuels, en raison d'une capacité insuffisante pour de longs textes, les personnages virtuels oublient des informations importantes ; lors du développement de jeux de type "murder mystery" basés sur de grands modèles, si la longueur du prompt est insuffisante, il ne reste qu'à réduire les règles et les paramètres, ce qui empêche d'atteindre l'effet de jeu escompté ; dans des domaines professionnels de haute précision tels que le droit et la banque, l'analyse et la génération de contenu approfondies sont souvent entravées.
Sur la route vers de futures applications natives d'Agent et d'IA, les longs textes continuent de jouer un rôle important. L'exécution des tâches d'Agent nécessite de s'appuyer sur des informations historiques pour de nouvelles planifications et décisions, tandis que les applications natives d'IA doivent s'appuyer sur le contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Le fondateur estime que, que ce soit par écrit, par la voix ou par vidéo, la compression sans perte de données massives peut atteindre un haut degré d'intelligence. "Les progrès de la compression sans perte ou de la recherche sur les grands modèles ont longtemps dépendu du modèle 'les paramètres sont roi', où le taux de compression est directement lié au nombre de paramètres. Mais nous pensons que le taux de compression sans perte ou la limite des grands modèles est déterminé par la capacité d'un seul pas et le nombre d'étapes d'exécution. Parmi eux, la capacité d'un seul pas est positivement corrélée au nombre de paramètres, tandis que le nombre d'étapes d'exécution est la longueur du contexte."
En même temps, il a été prouvé que même des modèles de grande taille avec des milliards de paramètres ne peuvent pas complètement éviter les problèmes d'hallucination et de discours incohérent. Par rapport aux textes courts, les textes longs peuvent aider le modèle à juger du sens en fournissant plus d'informations contextuelles et de détails, réduisant ainsi l'ambiguïté, et l'induction et le raisonnement basés sur les faits fournis sont également plus précis.
Il en ressort que la technologie des longs textes peut à la fois résoudre certains problèmes qui ont été critiqués au début de l'émergence des grands modèles, renforcer certaines fonctionnalités, et constitue également une technologie clé pour faire avancer davantage l'industrialisation et la mise en œuvre des applications. Cela prouve également de manière indirecte que le développement des grands modèles généraux a franchi une nouvelle étape, passant de l'LLM à l'ère du Long LLM.
À travers le nouveau produit publié par une certaine entreprise, il se pourrait qu'on puisse entrevoir les fonctionnalités de mise à niveau du modèle large Long LLM.
Tout d'abord, il s'agit des fonctionnalités de base pour l'extraction, le résumé et l'analyse des informations clés à partir de textes très longs. Par exemple, en entrant le lien d'un compte public, on peut rapidement analyser l'idée générale de l'article ; les rapports financiers fraîchement publiés peuvent extraire rapidement les informations clés et les présenter sous des formes concises telles que des tableaux ou des cartes mentales ; après avoir saisi un livre entier ou des articles juridiques professionnels, les utilisateurs peuvent obtenir des informations pertinentes en posant des questions.
En termes de code, il est possible de convertir directement du texte en code. Il suffit de soumettre le document à un robot de conversation, et il pourra reproduire le processus de génération de code basé sur le document et le modifier en conséquence. Cela représente un grand pas en avant par rapport à la démonstration lors de la conférence d'une certaine entreprise, où un site de génération de brouillons de code a été présenté.
Dans des scénarios de dialogue prolongé, les robots de dialogue peuvent également réaliser des jeux de rôle. En entrant des corpus de personnalités publiques, en réglant le ton et les traits de caractère, il est possible d'avoir une conversation en tête-à-tête avec Steve Jobs ou Elon Musk. Une entreprise étrangère de modèles de grande taille a déjà développé une application d'IA compagnon similaire, et le DAU sur mobile est bien supérieur à un produit connu, atteignant 3,61 millions. Lors d'une démonstration d'une certaine entreprise, il suffit d'une URL pour discuter avec son personnage préféré de Genshin Impact.
Les exemples ci-dessus illustrent ensemble que, au-delà des simples tours de dialogue, les robots de conversation tels que ChatGPT évoluent vers une spécialisation, une personnalisation et une profondeur. Cela pourrait également être un levier supplémentaire pour faire émerger des industries et des super applications.
Le fondateur d'une certaine entreprise a révélé qu'à la différence d'une entreprise connue qui ne propose qu'un produit et des capacités multimodales de pointe, ils visent à créer le prochain super APP pour les consommateurs : en se basant sur la technologie des longs textes comme percée, pour développer N applications à partir de leur modèle générique de base.
"Le marché des grands modèles nationaux se divisera en deux camps distincts : toB et toC. Dans le camp toC, des super-applications apparaîtront, ces applications super sont basées sur des modèles développés en interne." a déclaré le fondateur.
Cependant, à ce stade, il y a encore beaucoup de place pour l'optimisation des scénarios de dialogue en texte long sur le marché. Par exemple, certains ne prennent pas en charge la connexion Internet et ne peuvent obtenir les dernières informations que par des mises à jour officielles de la base de données ; il n'est pas possible de mettre en pause ou de modifier le processus de génération de dialogues, il faut simplement attendre la fin de la conversation ; même avec des informations de fond et un support de fichiers téléchargés, il arrive encore parfois que des âneries soient dites ou que des choses soient inventées de toutes pièces.
Le dilemme du "triangle impossible" du long texte
Dans le domaine commercial, il existe un groupe typique de "triangle impossible" formé par le prix, la qualité et l'échelle. Ces trois éléments ont une relation d'interdépendance et ne peuvent être obtenus simultanément.
Il existe également un "triangle impossible" similaire en ce qui concerne la longueur des textes, l'attention et la puissance de calcul dans les textes longs.
Cela se manifeste par le fait que plus le texte est long, plus il est difficile de concentrer une attention suffisante et de le digérer complètement ; sous la contrainte de l'attention, les courts textes ne permettent pas de déchiffrer complètement des informations complexes ; traiter de longs textes nécessite une grande puissance de calcul, augmentant ainsi les coûts.
Pour remonter à l'origine, cela est fondamentalement dû au fait que la plupart des modèles actuels sont basés sur la structure Transformer. Cette structure contient un composant le plus important, à savoir le mécanisme d'attention autonome, grâce auquel les robots de conversation peuvent dépasser les limites de l'ordre des informations saisies par l'utilisateur et analyser librement les relations entre les différentes informations.
Mais le coût associé est que la charge de calcul du mécanisme d'attention auto-entretenue augmente de manière quadratique avec la longueur du contexte. Par exemple, lorsque la longueur du contexte augmente de 32 fois, la charge de calcul augmente en réalité de 1000 fois.
Certaines publications ont apporté des preuves : un contexte trop long réduit considérablement la proportion d'informations pertinentes, et la distraction semble devenir un destin inévitable.
Cela constitue le premier ensemble de contradictions dans le "triangle impossible" - la longueur du texte et l'attention, et explique fondamentalement les raisons pour lesquelles les techniques de longs textes des grands modèles ont du mal à progresser.
Depuis les paramètres du grand modèle "卷" jusqu'à présent, la puissance de calcul a toujours été une ressource rare. Le fondateur d'une entreprise renommée a déclaré que leur service 32K ne pouvait pas être immédiatement ouvert à tous les utilisateurs, la plus grande limitation étant la pénurie de GPU.
À cet égard, le fondateur d'une certaine entreprise a également déclaré : "Le GPU est une base importante, mais ce n'est pas seulement une question de GPU. Cela implique une combinaison de différents facteurs ; d'une part le GPU, d'autre part l'efficacité de la conversion de l'énergie en intelligence. La recherche de l'efficacité peut être décomposée en optimisation des algorithmes, optimisation des ingénieries, optimisation des modalités et optimisation des contextes, etc."
Il est d'autant plus important que, lors du déploiement réel des grands modèles, les entreprises ne peuvent tout simplement pas fournir un grand soutien en puissance de calcul, ce qui oblige les fabricants à respecter strictement la limite de puissance de calcul, que ce soit en augmentant les paramètres du modèle ou la longueur du texte. Cependant, à ce stade, pour pouvoir traiter des textes plus longs, il est inévitable de consommer plus de puissance de calcul, ce qui crée un deuxième ensemble de contradictions entre la longueur du texte et la puissance de calcul.
Un ingénieur NLP d'une certaine entreprise a déclaré : "Il n'existe actuellement pas de solution uniforme pour la modélisation de longs textes avec de grands modèles, et la source des problèmes provient de la structure même des Transformers, mais une toute nouvelle architecture est en route."
Actuellement, que ce soit du point de vue du logiciel ou du matériel, la plupart des conceptions sont centrées sur l'architecture Transformer. Il est difficile de renverser complètement cette architecture dans un court laps de temps, mais plusieurs solutions d'optimisation ont émergé autour de l'architecture Transformer.
"Actuellement, il existe principalement trois solutions différentes, à savoir l'utilisation d'outils externes au modèle pour aider à traiter des textes longs, l'optimisation du calcul du mécanisme d'attention auto et l'utilisation de méthodes d'optimisation générales du modèle." a déclaré l'ingénieur.
La principale idée de la première solution est de donner un "avantage" au grand modèle. La méthode principale consiste à diviser un long texte en plusieurs courts textes pour le traitement. Lorsque le modèle traite un long texte, il effectue une recherche dans la base de données pour obtenir plusieurs réponses de courts textes qui composent le long texte. À chaque fois, seuls les segments de courts textes nécessaires sont chargés, évitant ainsi le problème du modèle qui ne peut pas lire l'intégralité du long texte en une seule fois.
La deuxième solution est la méthode la plus utilisée actuellement, dont le noyau principal réside dans la reconstruction de la manière de calculer l'auto-attention. Par exemple, le cœur de la technologie LongLoRA consiste à diviser les longs textes en différents groupes, en effectuant des calculs au sein de chaque groupe, sans avoir à calculer les relations entre chaque mot, afin de réduire la charge de calcul et d'augmenter la vitesse.
Les deux premiers modèles sont également appelés "modèle abeille" par le fondateur d'une certaine entreprise, c'est-à-dire qu'ils permettent de traiter de longs textes en conservant le mécanisme d'attention sur une partie des entrées, grâce à un échantillonnage réduit de la génération améliorée par la recherche ou du contexte.
Selon le fondateur, il existe une autre méthode pour optimiser le calcul du mécanisme d'attention auto-apprise, qualifiée de modèle "poisson rouge". Cela consiste à abandonner activement le contexte précédent par des moyens comme les fenêtres glissantes, afin de se concentrer sur la réponse aux informations les plus récentes saisies par l'utilisateur. Les avantages d'une telle approche sont évidents, mais elle ne permet pas de comparer et d'analyser les résumés à travers les documents ou les conversations.
La troisième solution consiste à se concentrer sur l'optimisation du modèle. Par exemple, LongLLaMA prend comme point de départ les modèles OpenLLaMA-3B et OpenLLaMA-7B, et effectue un ajustement fin pour produire le nouveau modèle LONGLLAMA. Ce modèle peut facilement être extrapolé à des séquences plus longues, par exemple, un modèle entraîné sur 8K tokens peut être facilement extrapolé à une taille de fenêtre de 256K.
Une autre méthode assez courante pour l'optimisation des modèles consiste à augmenter la longueur du contexte en réduisant le nombre de paramètres (par exemple, en le réduisant à plusieurs milliards de paramètres), ce qui a été qualifié de modèle "têtard" par un certain fondateur. Cette méthode réduit la capacité du modèle lui-même, bien qu'elle puisse supporter un contexte plus long, elle pose des problèmes lorsque la difficulté de la tâche augmente.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
5
Reposter
Partager
Commentaire
0/400
TerraNeverForget
· Il y a 10m
Attendre les résultats de la longueur du contexte à montrer.
Voir l'originalRépondre0
SleepTrader
· 08-12 16:46
Chasser les données pour investir sur la dynamique
Voir l'originalRépondre0
MEVictim
· 08-12 06:22
Les fabricants de puces rient de la rapidité avec laquelle cela s'allonge.
Voir l'originalRépondre0
MetaverseHermit
· 08-12 06:22
C'est devenu fou.
Voir l'originalRépondre0
StrawberryIce
· 08-12 06:15
Le modèle a grandi et grandi, il a plus de patience que moi.
Guerre technologique des longs textes : les entreprises de modèles étendus améliorent leur capacité de contexte.
La bataille pour la technologie de texte long des grandes entreprises de modèles
De 4000 à 400 000 tokens, le grand modèle devient de plus en plus "grand" à une vitesse "visible à l'œil nu".
La capacité de texte long semble devenir un nouveau "standard" symbolique pour les fabricants de grands modèles.
À l'étranger, OpenAI a effectué trois mises à niveau, la longueur d'entrée du contexte de GPT-3.5 est passée de 4 000 à 16 000 tokens, et celle de GPT-4 est passée de 8 000 à 32 000 tokens ; une certaine entreprise a porté la longueur du contexte à 100 000 tokens d'un coup ; LongLLaMA a étendu la longueur du contexte à 256 000 tokens, voire plus.
Dans le pays, une startup de grands modèles a lancé un produit d'assistant intelligent capable de prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens ; l'équipe de l'Université Chinoise de Hong Kong, en collaboration avec le MIT, a publié une nouvelle technologie LongLoRA, qui peut étendre la longueur de texte d'un modèle de 7B à 100 000 tokens et celle d'un modèle de 70B à 32 000 tokens.
Actuellement, un grand nombre de sociétés, d'institutions et d'équipes de pointe en technologie de modèles à grande échelle, tant au niveau national qu'international, considèrent l'extension de la longueur de contexte comme un axe majeur de mise à jour et d'amélioration.
Ces entreprises ou institutions de grands modèles nationaux et internationaux sont toutes les "stars montantes" très prisées par le marché des capitaux. Une certaine entreprise connaît récemment un succès fulgurant, ayant été révélée comme ayant obtenu des investissements de grandes entreprises technologiques, avec une valorisation qui pourrait atteindre 30 milliards de dollars, soit cinq fois plus qu'en mars ; une autre entreprise, fondée il y a seulement six mois, a rapidement terminé son premier tour de financement, attirant l'attention de plusieurs VC de premier plan, avec une valorisation de marché déjà supérieure à 300 millions de dollars.
Les grandes entreprises de modèles mettent les bouchées doubles pour conquérir la technologie des longs textes. Que signifie une augmentation de 100 fois la longueur du texte en amont et en aval ?
À première vue, la longueur des textes pouvant être saisis augmente et la capacité de lecture s'améliore. Si l'on quantifie la valeur abstraite des tokens, le GPT-3.5 avec 4000 tokens ne peut saisir au maximum que 3000 mots en anglais ou 2000 caractères chinois, ce qui rend même difficile la lecture d'un article public sur WeChat ; le GPT-4 avec 32 000 tokens atteint le niveau de lecture d'une nouvelle ; un produit avec 100 000 tokens peut saisir environ 75 000 mots et peut lire "Gatsby le Magnifique" en seulement 22 secondes ; un produit avec 400 000 tokens prend en charge la saisie de 200 000 caractères chinois, permettant de lire un grand roman.
D'autre part, la technologie des longs textes stimule également l'implémentation plus profonde des grands modèles dans des secteurs tels que la finance, la justice et la recherche, où des capacités telles que le résumé de documents longs, la compréhension de lecture et la réponse aux questions sont fondamentales et constituent un terrain d'entraînement nécessitant une mise à niveau intelligente.
En référence aux paramètres de "rouleau" des fabricants de grands modèles lors du tour précédent, les paramètres des grands modèles ne sont pas nécessairement meilleurs s'ils sont plus grands. Chaque entreprise essaie d'élargir autant que possible les paramètres pour trouver le "point critique" de performance optimale des grands modèles. De même, en tant qu'autre indicateur déterminant l'efficacité du modèle — la longueur du texte — elle n'est pas meilleure simplement parce qu'elle est plus longue.
Des études ont déjà prouvé qu'il n'y a pas d'équivalence directe entre la capacité des grands modèles à supporter des entrées contextuelles plus longues et une meilleure performance du modèle. La longueur du contexte que le modèle peut traiter n'est pas le véritable point clé, mais plutôt l'utilisation que le modèle fait du contenu contextuel.
Cependant, pour le moment, l'exploration de la longueur des textes tant au niveau national qu'international n'a pas encore atteint un état de "point critique". Les entreprises de grands modèles, tant nationales qu'internationales, continuent de progresser sans relâche, et 400 000 tokens ne sont peut-être encore qu'un début.
Pourquoi "rouler" des textes longs ?
Le fondateur d'une certaine entreprise a déclaré que, lors du processus de recherche et développement technique, son équipe a découvert que c'était en raison de la limitation de la longueur d'entrée des grands modèles que de nombreux défis pour la mise en œuvre des applications de grands modèles se posaient. C'est également la raison pour laquelle de nombreuses entreprises de grands modèles se concentrent actuellement sur la technologie des longs textes.
Par exemple, dans un scénario de personnages virtuels, en raison d'une capacité insuffisante pour de longs textes, les personnages virtuels oublient des informations importantes ; lors du développement de jeux de type "murder mystery" basés sur de grands modèles, si la longueur du prompt est insuffisante, il ne reste qu'à réduire les règles et les paramètres, ce qui empêche d'atteindre l'effet de jeu escompté ; dans des domaines professionnels de haute précision tels que le droit et la banque, l'analyse et la génération de contenu approfondies sont souvent entravées.
Sur la route vers de futures applications natives d'Agent et d'IA, les longs textes continuent de jouer un rôle important. L'exécution des tâches d'Agent nécessite de s'appuyer sur des informations historiques pour de nouvelles planifications et décisions, tandis que les applications natives d'IA doivent s'appuyer sur le contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Le fondateur estime que, que ce soit par écrit, par la voix ou par vidéo, la compression sans perte de données massives peut atteindre un haut degré d'intelligence. "Les progrès de la compression sans perte ou de la recherche sur les grands modèles ont longtemps dépendu du modèle 'les paramètres sont roi', où le taux de compression est directement lié au nombre de paramètres. Mais nous pensons que le taux de compression sans perte ou la limite des grands modèles est déterminé par la capacité d'un seul pas et le nombre d'étapes d'exécution. Parmi eux, la capacité d'un seul pas est positivement corrélée au nombre de paramètres, tandis que le nombre d'étapes d'exécution est la longueur du contexte."
En même temps, il a été prouvé que même des modèles de grande taille avec des milliards de paramètres ne peuvent pas complètement éviter les problèmes d'hallucination et de discours incohérent. Par rapport aux textes courts, les textes longs peuvent aider le modèle à juger du sens en fournissant plus d'informations contextuelles et de détails, réduisant ainsi l'ambiguïté, et l'induction et le raisonnement basés sur les faits fournis sont également plus précis.
Il en ressort que la technologie des longs textes peut à la fois résoudre certains problèmes qui ont été critiqués au début de l'émergence des grands modèles, renforcer certaines fonctionnalités, et constitue également une technologie clé pour faire avancer davantage l'industrialisation et la mise en œuvre des applications. Cela prouve également de manière indirecte que le développement des grands modèles généraux a franchi une nouvelle étape, passant de l'LLM à l'ère du Long LLM.
À travers le nouveau produit publié par une certaine entreprise, il se pourrait qu'on puisse entrevoir les fonctionnalités de mise à niveau du modèle large Long LLM.
Tout d'abord, il s'agit des fonctionnalités de base pour l'extraction, le résumé et l'analyse des informations clés à partir de textes très longs. Par exemple, en entrant le lien d'un compte public, on peut rapidement analyser l'idée générale de l'article ; les rapports financiers fraîchement publiés peuvent extraire rapidement les informations clés et les présenter sous des formes concises telles que des tableaux ou des cartes mentales ; après avoir saisi un livre entier ou des articles juridiques professionnels, les utilisateurs peuvent obtenir des informations pertinentes en posant des questions.
En termes de code, il est possible de convertir directement du texte en code. Il suffit de soumettre le document à un robot de conversation, et il pourra reproduire le processus de génération de code basé sur le document et le modifier en conséquence. Cela représente un grand pas en avant par rapport à la démonstration lors de la conférence d'une certaine entreprise, où un site de génération de brouillons de code a été présenté.
Dans des scénarios de dialogue prolongé, les robots de dialogue peuvent également réaliser des jeux de rôle. En entrant des corpus de personnalités publiques, en réglant le ton et les traits de caractère, il est possible d'avoir une conversation en tête-à-tête avec Steve Jobs ou Elon Musk. Une entreprise étrangère de modèles de grande taille a déjà développé une application d'IA compagnon similaire, et le DAU sur mobile est bien supérieur à un produit connu, atteignant 3,61 millions. Lors d'une démonstration d'une certaine entreprise, il suffit d'une URL pour discuter avec son personnage préféré de Genshin Impact.
Les exemples ci-dessus illustrent ensemble que, au-delà des simples tours de dialogue, les robots de conversation tels que ChatGPT évoluent vers une spécialisation, une personnalisation et une profondeur. Cela pourrait également être un levier supplémentaire pour faire émerger des industries et des super applications.
Le fondateur d'une certaine entreprise a révélé qu'à la différence d'une entreprise connue qui ne propose qu'un produit et des capacités multimodales de pointe, ils visent à créer le prochain super APP pour les consommateurs : en se basant sur la technologie des longs textes comme percée, pour développer N applications à partir de leur modèle générique de base.
"Le marché des grands modèles nationaux se divisera en deux camps distincts : toB et toC. Dans le camp toC, des super-applications apparaîtront, ces applications super sont basées sur des modèles développés en interne." a déclaré le fondateur.
Cependant, à ce stade, il y a encore beaucoup de place pour l'optimisation des scénarios de dialogue en texte long sur le marché. Par exemple, certains ne prennent pas en charge la connexion Internet et ne peuvent obtenir les dernières informations que par des mises à jour officielles de la base de données ; il n'est pas possible de mettre en pause ou de modifier le processus de génération de dialogues, il faut simplement attendre la fin de la conversation ; même avec des informations de fond et un support de fichiers téléchargés, il arrive encore parfois que des âneries soient dites ou que des choses soient inventées de toutes pièces.
Le dilemme du "triangle impossible" du long texte
Dans le domaine commercial, il existe un groupe typique de "triangle impossible" formé par le prix, la qualité et l'échelle. Ces trois éléments ont une relation d'interdépendance et ne peuvent être obtenus simultanément.
Il existe également un "triangle impossible" similaire en ce qui concerne la longueur des textes, l'attention et la puissance de calcul dans les textes longs.
Cela se manifeste par le fait que plus le texte est long, plus il est difficile de concentrer une attention suffisante et de le digérer complètement ; sous la contrainte de l'attention, les courts textes ne permettent pas de déchiffrer complètement des informations complexes ; traiter de longs textes nécessite une grande puissance de calcul, augmentant ainsi les coûts.
Pour remonter à l'origine, cela est fondamentalement dû au fait que la plupart des modèles actuels sont basés sur la structure Transformer. Cette structure contient un composant le plus important, à savoir le mécanisme d'attention autonome, grâce auquel les robots de conversation peuvent dépasser les limites de l'ordre des informations saisies par l'utilisateur et analyser librement les relations entre les différentes informations.
Mais le coût associé est que la charge de calcul du mécanisme d'attention auto-entretenue augmente de manière quadratique avec la longueur du contexte. Par exemple, lorsque la longueur du contexte augmente de 32 fois, la charge de calcul augmente en réalité de 1000 fois.
Certaines publications ont apporté des preuves : un contexte trop long réduit considérablement la proportion d'informations pertinentes, et la distraction semble devenir un destin inévitable.
Cela constitue le premier ensemble de contradictions dans le "triangle impossible" - la longueur du texte et l'attention, et explique fondamentalement les raisons pour lesquelles les techniques de longs textes des grands modèles ont du mal à progresser.
Depuis les paramètres du grand modèle "卷" jusqu'à présent, la puissance de calcul a toujours été une ressource rare. Le fondateur d'une entreprise renommée a déclaré que leur service 32K ne pouvait pas être immédiatement ouvert à tous les utilisateurs, la plus grande limitation étant la pénurie de GPU.
À cet égard, le fondateur d'une certaine entreprise a également déclaré : "Le GPU est une base importante, mais ce n'est pas seulement une question de GPU. Cela implique une combinaison de différents facteurs ; d'une part le GPU, d'autre part l'efficacité de la conversion de l'énergie en intelligence. La recherche de l'efficacité peut être décomposée en optimisation des algorithmes, optimisation des ingénieries, optimisation des modalités et optimisation des contextes, etc."
Il est d'autant plus important que, lors du déploiement réel des grands modèles, les entreprises ne peuvent tout simplement pas fournir un grand soutien en puissance de calcul, ce qui oblige les fabricants à respecter strictement la limite de puissance de calcul, que ce soit en augmentant les paramètres du modèle ou la longueur du texte. Cependant, à ce stade, pour pouvoir traiter des textes plus longs, il est inévitable de consommer plus de puissance de calcul, ce qui crée un deuxième ensemble de contradictions entre la longueur du texte et la puissance de calcul.
Un ingénieur NLP d'une certaine entreprise a déclaré : "Il n'existe actuellement pas de solution uniforme pour la modélisation de longs textes avec de grands modèles, et la source des problèmes provient de la structure même des Transformers, mais une toute nouvelle architecture est en route."
Actuellement, que ce soit du point de vue du logiciel ou du matériel, la plupart des conceptions sont centrées sur l'architecture Transformer. Il est difficile de renverser complètement cette architecture dans un court laps de temps, mais plusieurs solutions d'optimisation ont émergé autour de l'architecture Transformer.
"Actuellement, il existe principalement trois solutions différentes, à savoir l'utilisation d'outils externes au modèle pour aider à traiter des textes longs, l'optimisation du calcul du mécanisme d'attention auto et l'utilisation de méthodes d'optimisation générales du modèle." a déclaré l'ingénieur.
La principale idée de la première solution est de donner un "avantage" au grand modèle. La méthode principale consiste à diviser un long texte en plusieurs courts textes pour le traitement. Lorsque le modèle traite un long texte, il effectue une recherche dans la base de données pour obtenir plusieurs réponses de courts textes qui composent le long texte. À chaque fois, seuls les segments de courts textes nécessaires sont chargés, évitant ainsi le problème du modèle qui ne peut pas lire l'intégralité du long texte en une seule fois.
La deuxième solution est la méthode la plus utilisée actuellement, dont le noyau principal réside dans la reconstruction de la manière de calculer l'auto-attention. Par exemple, le cœur de la technologie LongLoRA consiste à diviser les longs textes en différents groupes, en effectuant des calculs au sein de chaque groupe, sans avoir à calculer les relations entre chaque mot, afin de réduire la charge de calcul et d'augmenter la vitesse.
Les deux premiers modèles sont également appelés "modèle abeille" par le fondateur d'une certaine entreprise, c'est-à-dire qu'ils permettent de traiter de longs textes en conservant le mécanisme d'attention sur une partie des entrées, grâce à un échantillonnage réduit de la génération améliorée par la recherche ou du contexte.
Selon le fondateur, il existe une autre méthode pour optimiser le calcul du mécanisme d'attention auto-apprise, qualifiée de modèle "poisson rouge". Cela consiste à abandonner activement le contexte précédent par des moyens comme les fenêtres glissantes, afin de se concentrer sur la réponse aux informations les plus récentes saisies par l'utilisateur. Les avantages d'une telle approche sont évidents, mais elle ne permet pas de comparer et d'analyser les résumés à travers les documents ou les conversations.
La troisième solution consiste à se concentrer sur l'optimisation du modèle. Par exemple, LongLLaMA prend comme point de départ les modèles OpenLLaMA-3B et OpenLLaMA-7B, et effectue un ajustement fin pour produire le nouveau modèle LONGLLAMA. Ce modèle peut facilement être extrapolé à des séquences plus longues, par exemple, un modèle entraîné sur 8K tokens peut être facilement extrapolé à une taille de fenêtre de 256K.
Une autre méthode assez courante pour l'optimisation des modèles consiste à augmenter la longueur du contexte en réduisant le nombre de paramètres (par exemple, en le réduisant à plusieurs milliards de paramètres), ce qui a été qualifié de modèle "têtard" par un certain fondateur. Cette méthode réduit la capacité du modèle lui-même, bien qu'elle puisse supporter un contexte plus long, elle pose des problèmes lorsque la difficulté de la tâche augmente.
texte long de "