Guerra por la tecnología de texto largo: las empresas de modelos grandes amplían la capacidad de contexto

La batalla por la tecnología de textos largos de las empresas de modelos grandes

De 4000 a 400,000 tokens, el modelo grande está aumentando "visiblemente" en tamaño.

La capacidad de texto largo parece convertirse en un nuevo "estándar" que simboliza la intervención de los fabricantes de modelos grandes.

En el extranjero, OpenAI ha realizado tres actualizaciones, aumentando la longitud de entrada de contexto de GPT-3.5 de 4 mil a 16 mil tokens, y de GPT-4 de 8 mil a 32 mil tokens; una empresa ha llevado la longitud del contexto a 100 mil tokens de una sola vez; LongLLaMA ha expandido la longitud del contexto a 256 mil tokens, e incluso más.

En el país, una startup de modelos grandes ha lanzado un producto de asistente inteligente que puede soportar la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens; el equipo de la Universidad China de Hong Kong, en colaboración con MIT, ha lanzado una nueva tecnología llamada LongLoRA, que puede expandir la longitud de texto del modelo de 7B a 100,000 tokens y la longitud de texto del modelo de 70B a 32,000 tokens.

Actualmente, una gran cantidad de empresas, instituciones y equipos de tecnología de modelos grandes, tanto nacionales como internacionales, están enfocándose en la expansión de la longitud del contexto como un punto clave para la actualización y mejora.

Estas empresas o instituciones de grandes modelos, tanto nacionales como internacionales, son las "sensaciones del momento" que el mercado de capitales adora. Una empresa ha estado en auge recientemente, con reportes de haber recibido inversiones de grandes compañías tecnológicas, y su valoración podría alcanzar los 30,000 millones de dólares, lo que representa un aumento de cinco veces respecto a marzo; otra empresa, que se fundó hace solo seis meses, completó rápidamente su primera ronda de financiamiento, obteniendo el respaldo de varias VC de primera línea, y su valoración de mercado ya supera los 300 millones de dólares.

Las empresas de modelos grandes están trabajando arduamente para conquistar la tecnología de texto largo. ¿Qué significa aumentar la longitud del texto a 100 veces?

A simple vista, parece que la longitud del texto que se puede ingresar se está volviendo cada vez más larga y la capacidad de lectura más fuerte. Si cuantificamos el valor abstracto del token, el GPT-3.5 con 4000 tokens solo puede ingresar un máximo de 3000 palabras en inglés o 2000 caracteres chinos, lo cual es difícil incluso para leer un artículo de WeChat; el GPT-4 con 32,000 tokens ha alcanzado el nivel de leer un cuento corto; un producto con 100,000 tokens puede ingresar aproximadamente 75,000 palabras y se puede leer un libro como "El gran Gatsby" en solo 22 segundos; un producto con 400,000 tokens admite la entrada de 200,000 caracteres chinos, permitiendo leer una gran obra.

Por otro lado, la tecnología de texto largo también está impulsando la implementación más profunda de modelos grandes en la industria, en campos complejos como las finanzas, la justicia y la investigación científica, donde capacidades como el resumen de documentos largos, la comprensión de lectura y las preguntas y respuestas son fundamentales y también son campos de entrenamiento que requieren una actualización inteligente.

Referente a los parámetros de "rollo" de la última ronda de proveedores de grandes modelos, no es cierto que cuanto más grandes sean los parámetros del modelo, mejor será. Cada empresa está tratando de ampliar los parámetros lo más posible para encontrar el "punto crítico" donde el rendimiento del modelo es óptimo. De manera similar, como otro indicador que determina el efecto del modelo, la longitud del texto tampoco significa que cuanto más largo sea, mejor será el rendimiento del modelo.

Investigaciones han demostrado que no se puede establecer una relación directa entre el soporte de un modelo para entradas de contexto más largas y un mejor rendimiento del modelo. La longitud del contexto que un modelo puede manejar no es el verdadero punto clave; lo más importante es cómo el modelo utiliza el contenido del contexto.

Sin embargo, en la actualidad, la exploración de la longitud del texto tanto a nivel nacional como internacional aún no ha alcanzado un estado de "punto crítico". Las empresas de grandes modelos, tanto nacionales como internacionales, siguen trabajando incansablemente para superar este desafío; 400,000 tokens quizás sea solo el comienzo.

¿Por qué "enrollar" textos largos?

El fundador de una empresa declaró que, durante el proceso de investigación y desarrollo tecnológico, su equipo descubrió que la limitación en la longitud de entrada de los grandes modelos era la causa de muchas dificultades en la implementación de aplicaciones de grandes modelos, y esta es también la razón por la que muchas empresas de grandes modelos se están centrando actualmente en la tecnología de texto largo.

Por ejemplo, en escenas de personajes virtuales, debido a la insuficiencia de capacidad para manejar textos largos, los personajes virtuales olvidan información importante; al desarrollar juegos de tipo "murder mystery" basados en modelos grandes, si la longitud del prompt de entrada no es suficiente, solo se pueden reducir las reglas y configuraciones, lo que impide alcanzar el efecto de juego esperado; en campos profesionales de alta precisión como el derecho y la banca, el análisis y la generación de contenido profundo a menudo se ven obstaculizados.

En el camino hacia aplicaciones nativas de Agent y AI en el futuro, los textos largos siguen desempeñando un papel importante. Las tareas de Agent requieren información histórica para realizar nuevas planificaciones y decisiones, y las aplicaciones nativas de AI necesitan depender del contexto para mantener una experiencia de usuario coherente y personalizada.

El fundador cree que, ya sea texto, voz o video, la compresión sin pérdidas de grandes volúmenes de datos puede lograr un alto grado de inteligencia. "El progreso en la compresión sin pérdidas o en la investigación de grandes modelos ha dependido enormemente del modelo 'los parámetros son el rey', donde la relación de compresión está directamente relacionada con la cantidad de parámetros. Pero creemos que el límite de la compresión sin pérdidas o de los grandes modelos está determinado conjuntamente por la capacidad de un solo paso y el número de pasos de ejecución. Donde la capacidad de un solo paso está positivamente correlacionada con la cantidad de parámetros, y el número de pasos de ejecución es la longitud del contexto."

Al mismo tiempo, los hechos han demostrado que incluso los grandes modelos con cientos de miles de millones de parámetros no pueden evitar por completo problemas de alucinaciones y disparates. En comparación con los textos cortos, los textos largos pueden ayudar al modelo a juzgar el significado al proporcionar más información contextual y detalles, reduciendo así la ambigüedad, y la inducción y razonamiento basados en los hechos proporcionados también son más precisos.

Como se puede ver, la tecnología de texto largo no solo puede resolver algunos problemas que se criticaron en las primeras etapas del nacimiento de los grandes modelos y mejorar algunas funciones, sino que también es una tecnología clave para avanzar en la implementación de la industria y las aplicaciones. Esto también demuestra, desde un ángulo diferente, que el desarrollo de modelos generales ha entrado en una nueva etapa, de LLM a la era de Long LLM.

A través del nuevo producto lanzado por cierta empresa, quizás se pueda vislumbrar las funciones de actualización del modelo grande en la fase Long LLM.

Primero, se trata de la función básica de extracción, resumen y análisis de información clave de textos muy largos. Por ejemplo, al ingresar el enlace de una cuenta oficial, se puede analizar rápidamente el significado del artículo; los informes financieros recién publicados pueden extraer información clave rápidamente y presentarse de manera concisa en tablas, mapas mentales, etc.; al ingresar un libro completo o artículos legales profesionales, los usuarios pueden obtener información efectiva a través de preguntas.

En términos de código, se puede lograr la conversión directa de texto a código; solo hay que entregar el trabajo de investigación al robot de conversación, y podrá reproducir el proceso de generación de código basado en el trabajo, además de poder realizar modificaciones sobre esa base. Esto es un gran avance en comparación con la demostración que hizo una empresa en su conferencia de lanzamiento, donde mostraron la generación de código para sitios web a partir de borradores.

En escenarios de diálogo prolongado, los chatbots también pueden realizar juegos de rol. Al introducir el corpus de personajes públicos y establecer el tono y la personalidad del personaje, se puede tener un diálogo uno a uno con Jobs o Musk. Una empresa de modelos a gran escala en el extranjero ya ha desarrollado una aplicación de compañero de IA similar, y el DAU en dispositivos móviles supera con creces el de un producto conocido, alcanzando los 3.61 millones. En la demostración de una empresa, solo se necesita una URL para chatear con el personaje favorito de Genshin Impact.

Los ejemplos anteriores ilustran que, al alejarse de los simples turnos de conversación, los robots de conversación como ChatGPT están avanzando hacia una dirección de especialización, personalización y profundización, lo que podría ser otra palanca para impulsar la industria y la implementación de superaplicaciones.

El fundador de una empresa reveló que, a diferencia de una empresa conocida que solo ofrece un producto y capacidades multimodales de vanguardia, ellos están apuntando al próximo super APP para consumidores: utilizando tecnología de texto largo como un punto de ruptura, para desarrollar N aplicaciones a partir de su modelo base general.

"El mercado nacional de modelos a gran escala se dividirá en dos campos diferentes: toB y toC. En el campo toC, aparecerán super-apps, que son aplicaciones super basadas en modelos desarrollados internamente." dijo el fundador.

Sin embargo, en la actualidad hay mucho espacio para optimizar los escenarios de diálogo de texto largo en el mercado. Por ejemplo, hay algunos que no soportan conexión a Internet y solo pueden obtener información actualizada a través de actualizaciones oficiales de la base de datos; durante el proceso de generación del diálogo, no se puede pausar ni modificar, solo hay que esperar a que termine el diálogo; incluso con el apoyo de material de fondo y archivos subidos, a veces todavía aparecen tonterías y fabricaciones de la nada.

La "triple imposibilidad" del texto largo

En el ámbito comercial, hay un conjunto típico de "triángulo imposible" de precio, calidad y escala, que existe en una relación de restricción mutua, y no se pueden obtener los tres al mismo tiempo.

En el caso de textos largos, también existe un "triángulo imposible" similar en cuanto a la longitud del texto, la atención y la capacidad de cálculo.

Esto se manifiesta en que cuanto más largo es el texto, más difícil es concentrar suficiente atención y digerirlo completamente; bajo las limitaciones de atención, los textos cortos no pueden interpretar completamente la información compleja; procesar textos largos requiere una gran cantidad de poder de cálculo, aumentando los costos.

Rastreando la raíz, en esencia esto se debe a que la mayoría de los modelos actuales están basados en la estructura Transformer. Esta estructura incluye un componente fundamental, que es el mecanismo de autoatención, bajo el cual el robot de conversación puede superar las limitaciones del orden de la información ingresada por el usuario, analizando libremente las relaciones entre la información.

Pero el costo que conlleva esto es que la cantidad de cálculo del mecanismo de autoatención crecerá de manera cuadrática a medida que aumente la longitud del contexto; por ejemplo, si el contexto aumenta 32 veces, la cantidad de cálculo en realidad aumentará 1000 veces.

Algunos artículos publicados han proporcionado evidencia: un contexto demasiado largo puede hacer que la proporción de información relevante disminuya significativamente, y parece que la distracción de la atención se ha convertido en un destino inevitable.

Esto constituye el primer grupo de contradicciones en el "triángulo imposible": la longitud del texto y la atención, y también explica fundamentalmente la razón por la que la tecnología de largos textos de los grandes modelos es difícil de superar.

Desde los parámetros del gran modelo "卷" hasta ahora, la potencia de cálculo siempre ha sido un recurso escaso. El fundador de una conocida empresa afirmó que su servicio de 32K no puede abrirse completamente a todos los usuarios de inmediato, y la mayor limitación es la escasez de GPU.

Al respecto, el fundador de una empresa también afirmó: "La GPU es una base importante, pero no se trata solo del problema de la GPU. Aquí intervienen diferentes factores, por un lado está la GPU y por el otro la eficiencia de la conversión de energía en inteligencia. Un mayor despiece de la eficiencia podría incluir la optimización de algoritmos, la optimización de ingeniería, la optimización de modalidades y la optimización de contextos, entre otros."

Más importante aún, en la fase de implementación real de grandes modelos, las empresas no pueden proporcionar un gran soporte de potencia de cálculo, lo que obliga a los fabricantes a limitarse, ya sea ampliando los parámetros del modelo o la longitud del texto, a la capacidad de cálculo. Sin embargo, en la actualidad, para superar la tecnología de textos más largos, es inevitable consumir más potencia de cálculo, lo que genera un segundo conjunto de contradicciones entre la longitud del texto y la potencia de cálculo.

Un ingeniero de NLP de una cierta empresa declaró: "Actualmente no existe una solución unificada para el modelado de texto largo con grandes modelos, y la razón de esta confusión proviene de la propia estructura del Transformer, aunque una nueva arquitectura ya está en camino."

Actualmente, tanto en el diseño de software como en el de hardware, la mayoría se construye en torno a la arquitectura Transformer. Es difícil que una nueva arquitectura la reemplace por completo en un corto período de tiempo, pero han surgido varias soluciones de optimización en torno a la arquitectura Transformer.

"Actualmente hay tres soluciones diferentes, que son utilizar herramientas externas al modelo para ayudar a procesar textos largos, optimizar los cálculos del mecanismo de autoatención y utilizar métodos generales de optimización del modelo." Dijo el ingeniero.

La idea central de la primera solución es darle un "impulso" a un gran modelo. El método principal consiste en dividir un texto largo en varios textos cortos para su procesamiento. Al manejar un texto largo, el modelo realiza búsquedas en la base de datos de los textos cortos para obtener respuestas que, al unirse, forman el texto largo. Cada vez se cargan solo los fragmentos de texto corto necesarios, evitando así el problema de que el modelo no puede leer todo el texto largo de una vez.

La segunda solución es el método más utilizado actualmente, y su núcleo principal radica en reconstruir la forma de cálculo de la autoatención. Por ejemplo, el núcleo de la tecnología LongLoRA consiste en dividir textos largos en diferentes grupos, realizando cálculos dentro de cada grupo, sin necesidad de calcular la relación entre cada palabra, para así reducir la carga computacional y aumentar la velocidad.

Los dos primeros modos también han sido denominados "modelo de abeja" por el fundador de una empresa, es decir, mediante la generación mejorada por búsqueda o el muestreo descendente del contexto, se conserva el mecanismo de atención sobre parte de la entrada, para lograr el efecto de procesamiento de textos largos.

Según el fundador, existe un método para optimizar el cálculo del mecanismo de autoatención, que también se denomina modelo "pez dorado". Es decir, mediante el uso de ventanas deslizantes y otros métodos, se descartan activamente las informaciones anteriores para centrarse en responder a la información más reciente ingresada por el usuario. Las ventajas de esto son evidentes, pero no se puede comparar y analizar de manera resumida a través de documentos y conversaciones.

La tercera solución se centra en la optimización del modelo. Por ejemplo, LongLLaMA toma como punto de partida los modelos OpenLLaMA-3B y OpenLLaMA-7B, y sobre esa base se realiza un ajuste fino, produciendo un nuevo modelo de LONGLLAMA. Este modelo se puede extrapolar fácilmente a secuencias más largas; por ejemplo, un modelo entrenado en 8K tokens se puede extrapolar fácilmente a un tamaño de ventana de 256K.

Una forma más común de optimizar el modelo es a través de la reducción de la cantidad de parámetros (por ejemplo, reducir a decenas de miles de millones de parámetros) para aumentar la longitud del contexto, lo que un fundador ha denominado modelo "renacuajo". Este método puede disminuir la capacidad del propio modelo; aunque permite soportar contextos más largos, surgen problemas cuando la dificultad de la tarea aumenta.

Texto largo de "

TOKEN-1.72%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Republicar
  • Compartir
Comentar
0/400
SleepTradervip
· 08-12 16:46
Perseguir datos jugando a la inversión de momentum
Ver originalesResponder0
MEVictimvip
· 08-12 06:22
La longitud ha aumentado tan rápido, los fabricantes de chips se ríen.
Ver originalesResponder0
MetaverseHermitvip
· 08-12 06:22
La locura se ha desatado.
Ver originalesResponder0
StrawberryIcevip
· 08-12 06:15
El modelo creció y creció, tiene más paciencia que yo.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)