A batalha pela tecnologia de longos textos das empresas de grandes modelos
De 4000 a 400.000 tokens, o grande modelo está a "crescer" a uma velocidade "visível a olho nu".
A capacidade de texto longo parece tornar-se mais um novo "standard" que simboliza a ação dos fabricantes de grandes modelos.
No exterior, a OpenAI, após três atualizações, aumentou o comprimento da entrada de contexto do GPT-3.5 de 4 mil para 16 mil tokens, e do GPT-4 de 8 mil para 32 mil tokens; uma certa empresa aumentou o comprimento do contexto para 100 mil tokens de uma vez; o LongLLaMA expandiu o comprimento do contexto para 256 mil tokens, ou até mais.
No país, uma startup de grande modelo lançou um produto de assistente inteligente que suporta a entrada de 200 mil caracteres chineses, cerca de 400 mil tokens; a equipe da Universidade Chinesa de Hong Kong, em colaboração com o MIT, lançou uma nova tecnologia chamada LongLoRA, que pode expandir o comprimento do texto do modelo de 7B para 100 mil tokens e do modelo de 70B para 32 mil tokens.
Atualmente, já existem uma série de empresas, instituições e equipes de tecnologia de grandes modelos de topo, tanto a nível nacional como internacional, que estão a focar na expansão do comprimento do contexto como um ponto central de atualização e melhoria.
Essas empresas ou instituições de grandes modelos, tanto nacionais quanto internacionais, são os "queridinhos" do mercado de capitais. Uma empresa, recentemente em alta, foi consecutivamente revelada como tendo recebido investimentos de grandes empresas de tecnologia, com uma avaliação que pode alcançar 30 bilhões de dólares, aumentando cinco vezes em relação a março; outra empresa, que foi fundada há apenas seis meses, rapidamente completou sua primeira rodada de financiamento, recebendo apostas de várias VCs de primeira linha, com uma avaliação de mercado já superior a 300 milhões de dólares.
As empresas de grandes modelos estão a esforçar-se para dominar a tecnologia de texto longo. O que significa expandir o comprimento do texto em 100 vezes?
À primeira vista, parece que o comprimento do texto que pode ser inserido está a aumentar, assim como a capacidade de leitura. Se quantificarmos o valor abstrato do token, o GPT-3.5 com 4000 tokens consegue inserir no máximo 3000 palavras em inglês ou 2000 caracteres em chinês, tornando difícil ler até mesmo um artigo de WeChat; o GPT-4 com 32.000 tokens alcançou o nível de leitura de um conto; um determinado produto com 100.000 tokens pode inserir cerca de 75.000 palavras, conseguindo ler "O Grande Gatsby" em apenas 22 segundos; um determinado produto com 400.000 tokens suporta a inserção de 200.000 caracteres em chinês, permitindo a leitura de uma grande obra.
Por outro lado, a tecnologia de textos longos também está a impulsionar a implementação mais profunda de grandes modelos em indústrias, sendo que, em áreas complexas como finanças, justiça e investigação científica, as capacidades de resumo de documentos longos, compreensão de leitura e perguntas e respostas são fundamentais e representam um campo de treino que necessita urgentemente de uma atualização inteligente.
Referindo-se aos parâmetros de "compilação" dos fabricantes de grandes modelos na última rodada, os parâmetros do grande modelo não são necessariamente melhores quanto maiores, cada empresa está tentando encontrar o "ponto crítico" de desempenho do grande modelo, expandindo os parâmetros tanto quanto possível. Da mesma forma, como outro indicador que determina o efeito do modelo - o comprimento do texto - também não é verdade que quanto mais longo, melhor será o efeito do modelo.
Estudos já demonstraram que não se pode traçar uma linha direta entre o suporte a entradas de contexto mais longas por modelos grandes e a melhoria do desempenho do modelo. O comprimento do contexto que o modelo pode processar não é o ponto realmente crucial; o que é mais importante é como o modelo utiliza o conteúdo do contexto.
No entanto, por enquanto, a exploração do comprimento do texto, tanto a nível nacional como internacional, ainda não atingiu o estado de "ponto crítico". As empresas de grandes modelos, tanto nacionais como internacionais, continuam a avançar sem parar, e 400 mil tokens talvez ainda sejam apenas o começo.
Por que "rolar" textos longos?
O fundador de uma determinada empresa afirmou que, durante o processo de pesquisa e desenvolvimento tecnológico, sua equipe descobriu que a limitação do comprimento de entrada dos grandes modelos era a causa de muitas dificuldades na aplicação desses modelos, o que também explica por que muitas empresas de grandes modelos estão atualmente focadas na tecnologia de textos longos.
Por exemplo, em cenários de personagens virtuais, devido à capacidade insuficiente de texto longo, os personagens virtuais podem esquecer informações importantes; ao desenvolver jogos de tipo "script murder" com base em grandes modelos, se o comprimento do prompt de entrada não for suficiente, só será possível reduzir regras e definições, não conseguindo assim alcançar o efeito de jogo esperado; em áreas profissionais de alta precisão como direito e bancos, a análise e geração de conteúdo profundo muitas vezes enfrentam dificuldades.
No caminho para o futuro das aplicações nativas de Agent e IA, os textos longos continuam a desempenhar um papel importante. As tarefas dos Agents precisam de se basear em informações históricas para novos planos e decisões, enquanto as aplicações nativas de IA precisam de se basear no contexto para manter uma experiência do utilizador coerente e personalizada.
O fundador acredita que, seja texto, voz ou vídeo, a compressão sem perda de grandes volumes de dados pode alcançar um alto grau de inteligência. "O progresso na compressão sem perda ou na pesquisa de grandes modelos dependia extremante do modelo 'parâmetros são tudo', onde a taxa de compressão está diretamente relacionada à quantidade de parâmetros. Mas acreditamos que o limite da taxa de compressão sem perda ou de grandes modelos é determinado pela capacidade de um único passo e pelo número de passos executados. Dentre eles, a capacidade de um único passo é positivamente correlacionada com a quantidade de parâmetros, enquanto o número de passos executados refere-se ao comprimento do contexto."
Ao mesmo tempo, os fatos já provaram que mesmo modelos grandes com centenas de bilhões de parâmetros não conseguem evitar completamente o problema de alucinações e disparates. Comparado a textos curtos, textos longos podem ajudar o modelo a julgar o significado, fornecendo mais informações contextuais e detalhes, reduzindo ainda mais a ambiguidade, e a indução e inferência baseadas nos fatos fornecidos também são mais precisas.
Como pode ser visto, a tecnologia de long text pode resolver alguns problemas que foram criticados no início do surgimento de grandes modelos, melhorando algumas funcionalidades, e é também uma tecnologia chave para promover ainda mais a implementação da indústria e das aplicações. Isso também prova, de certa forma, que o desenvolvimento de grandes modelos genéricos entrou em uma nova fase, passando da era LLM para a era Long LLM.
Através de um novo produto lançado por uma empresa, talvez seja possível vislumbrar as funcionalidades de atualização dos grandes modelos da fase Long LLM.
Primeiro, está a função básica de extração, resumo e análise de informações-chave de textos muito longos. Por exemplo, ao inserir o link de uma conta pública, é possível analisar rapidamente o conteúdo do artigo; os relatórios financeiros recém-publicados podem extrair rapidamente informações-chave e apresentá-las em formatos simples, como tabelas e mapas mentais; ao inserir um livro inteiro ou textos legais profissionais, os usuários podem fazer perguntas para obter informações úteis.
Na parte do código, é possível transformar texto diretamente em código; basta dar o artigo ao robô de conversa, que poderá reproduzir o processo de geração de código com base no artigo e ainda fazer modificações a partir disso. Isso é um grande avanço em comparação com a demonstração feita por uma certa empresa na apresentação, onde foi mostrado como gerar código de site a partir de rascunhos.
Em cenários de diálogos longos, os robôs de conversa também podem realizar interpretação de papéis, inserindo dados de figuras públicas e ajustando o tom e a personalidade do personagem, permitindo diálogos um a um com Steve Jobs e Elon Musk. Uma empresa estrangeira de grandes modelos já desenvolveu uma aplicação de IA semelhante, e o DAU no mobile é muito superior a um produto renomado, alcançando 3,61 milhões. Na demonstração de uma empresa, basta um URL para conversar com o personagem de Genshin Impact que você gosta.
Os exemplos acima ilustram que, ao se afastar de simples interações de diálogo, robôs de conversa como o ChatGPT estão se direcionando para um desenvolvimento mais profissional, personalizado e profundo, o que pode ser outra alavanca para a implementação da indústria e de super aplicativos.
O fundador de uma determinada empresa revelou que, ao contrário de uma empresa conhecida que apenas oferece um produto e capacidades multimodais avançadas, eles estão mirando no próximo super APP para o consumidor final: com um avanço na tecnologia de texto longo, a partir de seu modelo genérico básico, eles irão gerar N aplicações.
"O mercado interno de grandes modelos será dividido em dois campos diferentes: toB e toC. No campo toC, surgirão super-apps, que são aplicações baseadas em modelos desenvolvidos internamente." Afirmou o fundador.
No entanto, neste estágio, ainda há muito espaço para otimização em cenários de diálogo de longo texto disponíveis no mercado. Por exemplo, alguns não suportam conexão à Internet e só podem obter as informações mais recentes através de atualizações oficiais do banco de dados; durante o processo de geração de diálogos, não é possível pausar ou modificar, apenas esperar o final da conversa; mesmo com o suporte a material de fundo e upload de arquivos, ocasionalmente ainda há casos de conversa sem sentido e invenções fantásticas.
O dilema do "triângulo impossível" em textos longos
No campo dos negócios, existe um conjunto típico de "triângulo impossível" que envolve preço, qualidade e escala, onde os três têm uma relação de restrição mútua e não podem ser alcançados simultaneamente.
No que diz respeito a textos longos, também existe um "triângulo impossível" semelhante em relação ao comprimento do texto, atenção e capacidade computacional.
Isto manifesta-se pelo facto de que quanto mais longo o texto, mais difícil é concentrar-se plenamente e mais difícil é digerir completamente; sob limitações de atenção, textos curtos não conseguem interpretar informações complexas de forma completa; processar textos longos requer uma quantidade significativa de poder computacional, aumentando os custos.
A origem do problema, em essência, é que a maioria dos modelos atuais é baseada na estrutura Transformer. Esta estrutura contém um dos componentes mais importantes, que é o mecanismo de autoatenção, que permite que o robô de conversa analise livremente as relações entre as informações, independentemente da ordem em que foram inseridas pelo usuário.
Mas o custo associado a isso é que a quantidade de cálculo do mecanismo de autoatenção aumenta em proporção quadrática com o comprimento do contexto; por exemplo, quando o contexto aumenta 32 vezes, a quantidade de cálculo realmente aumenta 1000 vezes.
Alguns artigos publicados forneceram evidências: um contexto excessivamente longo resulta numa diminuição significativa da proporção de informações relevantes, tornando-se aparentemente um destino inevitável a dispersão da atenção.
Isto constitui o primeiro conjunto de contradições no "triângulo impossível" — a extensão do texto e a atenção, e explica fundamentalmente a razão pela qual a tecnologia de textos longos em grandes modelos é difícil de ultrapassar.
Desde os parâmetros do modelo "卷" até agora, a capacidade de computação sempre foi um recurso escasso. O fundador de uma empresa conhecida afirmou que os seus serviços de 32K não podiam ser totalmente abertos a todos os usuários de imediato, sendo a maior limitação a escassez de GPUs.
A esse respeito, o fundador de uma certa empresa também afirmou: "A GPU é uma base importante, mas não se trata apenas do problema da GPU. Há uma combinação de diferentes fatores, por um lado, a GPU, e por outro, a eficiência da conversão de energia em inteligência. A eficiência, quando desmembrada, pode incluir a otimização de algoritmos, otimização de engenharia, otimização de modalidades e otimização de contexto, entre outros."
Mais importante ainda, na fase de implementação de grandes modelos, as empresas simplesmente não conseguem fornecer um suporte de computação significativo, o que força os fornecedores a manterem um controle rigoroso sobre a capacidade computacional, independentemente de expandirem os parâmetros do modelo ou o comprimento do texto. No entanto, nesta fase, para superar a tecnologia de textos mais longos, é necessário consumir mais capacidade computacional, gerando assim um segundo conjunto de contradições entre o comprimento do texto e a capacidade computacional.
Um engenheiro de NLP de uma certa empresa afirmou: "Atualmente, não há uma solução unificada para modelagem de longos textos com grandes modelos, e a razão para a confusão decorre da própria estrutura do Transformer, mas uma nova arquitetura já está a caminho."
Atualmente, tanto no design de software quanto de hardware, a maioria é construída em torno da arquitetura Transformer. É difícil que uma nova arquitetura a substitua completamente em um curto período de tempo, mas várias soluções de otimização surgiram em torno da arquitetura Transformer.
"Atualmente, existem três soluções diferentes, que são: utilizar ferramentas externas ao modelo para ajudar a processar longos textos, otimizar o cálculo do mecanismo de autoatenção e utilizar métodos gerais de otimização do modelo." disse o engenheiro.
A ideia central da primeira solução é dar um "impulso" ao grande modelo. O método principal é dividir textos longos em vários textos curtos para processamento; quando o modelo processa um texto longo, ele faz uma busca no banco de dados por textos curtos, a fim de obter respostas compostas por múltiplos textos curtos que formam um texto longo. A cada vez, apenas os fragmentos de texto curto necessários são carregados, evitando assim o problema de o modelo não conseguir ler todo o texto longo de uma vez.
A segunda solução é o método mais utilizado atualmente, cujo núcleo principal reside na reconstrução da forma de cálculo da autoatenção. Por exemplo, o núcleo da tecnologia LongLoRA está em dividir textos longos em diferentes grupos, realizando cálculos dentro de cada grupo, sem precisar calcular as relações entre cada palavra, com o objetivo de reduzir a carga computacional e aumentar a velocidade.
Os dois primeiros modos também foram chamados de modelo "abelha" pelo fundador de uma certa empresa, ou seja, através da amostragem descendente de geração ou contexto aprimorado por busca, mantém-se um mecanismo de atenção sobre parte da entrada, para alcançar o efeito de processamento de textos longos.
De acordo com o fundador, existe uma forma de otimizar o cálculo do mecanismo de autoatenção, que também é chamada de modelo "peixe dourado". Isto é feito através de janelas deslizantes e outras maneiras de descartar ativamente o contexto anterior, focando assim nas respostas às informações mais recentes do usuário. As vantagens de fazer isso são evidentes, mas não é possível comparar ou analisar resumos entre documentos e diálogos.
A terceira solução é focar na otimização do modelo. Como o LongLLaMA, que utiliza os modelos OpenLLaMA-3B e OpenLLaMA-7B como ponto de partida, realizando ajustes para produzir o novo modelo LONGLLAMAs. Este modelo pode ser facilmente extrapolado para sequências mais longas, por exemplo, um modelo treinado em 8K tokens pode ser facilmente extrapolado para um tamanho de janela de 256K.
Uma forma bastante comum de otimizar modelos é através da redução da quantidade de parâmetros (por exemplo, reduzindo para bilhões de parâmetros) para aumentar o comprimento do contexto, o que foi chamado de modelo "girino" por um determinado fundador. Esse método reduz a capacidade do próprio modelo; embora possa suportar contextos mais longos, surgirão problemas quando a dificuldade da tarefa aumentar.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
10 gostos
Recompensa
10
4
Republicar
Partilhar
Comentar
0/400
SleepTrader
· 08-12 16:46
perseguindo os dados jogando investimento de momentum
Ver originalResponder0
MEVictim
· 08-12 06:22
Cresceu tão rápido, os fabricantes de chips estão rindo.
Ver originalResponder0
MetaverseHermit
· 08-12 06:22
O rolo ficou louco.
Ver originalResponder0
StrawberryIce
· 08-12 06:15
O modelo cresceu e cresceu, mais paciente do que eu.
Guerra tecnológica de textos longos: empresas de grandes modelos expandem a capacidade de contexto
A batalha pela tecnologia de longos textos das empresas de grandes modelos
De 4000 a 400.000 tokens, o grande modelo está a "crescer" a uma velocidade "visível a olho nu".
A capacidade de texto longo parece tornar-se mais um novo "standard" que simboliza a ação dos fabricantes de grandes modelos.
No exterior, a OpenAI, após três atualizações, aumentou o comprimento da entrada de contexto do GPT-3.5 de 4 mil para 16 mil tokens, e do GPT-4 de 8 mil para 32 mil tokens; uma certa empresa aumentou o comprimento do contexto para 100 mil tokens de uma vez; o LongLLaMA expandiu o comprimento do contexto para 256 mil tokens, ou até mais.
No país, uma startup de grande modelo lançou um produto de assistente inteligente que suporta a entrada de 200 mil caracteres chineses, cerca de 400 mil tokens; a equipe da Universidade Chinesa de Hong Kong, em colaboração com o MIT, lançou uma nova tecnologia chamada LongLoRA, que pode expandir o comprimento do texto do modelo de 7B para 100 mil tokens e do modelo de 70B para 32 mil tokens.
Atualmente, já existem uma série de empresas, instituições e equipes de tecnologia de grandes modelos de topo, tanto a nível nacional como internacional, que estão a focar na expansão do comprimento do contexto como um ponto central de atualização e melhoria.
Essas empresas ou instituições de grandes modelos, tanto nacionais quanto internacionais, são os "queridinhos" do mercado de capitais. Uma empresa, recentemente em alta, foi consecutivamente revelada como tendo recebido investimentos de grandes empresas de tecnologia, com uma avaliação que pode alcançar 30 bilhões de dólares, aumentando cinco vezes em relação a março; outra empresa, que foi fundada há apenas seis meses, rapidamente completou sua primeira rodada de financiamento, recebendo apostas de várias VCs de primeira linha, com uma avaliação de mercado já superior a 300 milhões de dólares.
As empresas de grandes modelos estão a esforçar-se para dominar a tecnologia de texto longo. O que significa expandir o comprimento do texto em 100 vezes?
À primeira vista, parece que o comprimento do texto que pode ser inserido está a aumentar, assim como a capacidade de leitura. Se quantificarmos o valor abstrato do token, o GPT-3.5 com 4000 tokens consegue inserir no máximo 3000 palavras em inglês ou 2000 caracteres em chinês, tornando difícil ler até mesmo um artigo de WeChat; o GPT-4 com 32.000 tokens alcançou o nível de leitura de um conto; um determinado produto com 100.000 tokens pode inserir cerca de 75.000 palavras, conseguindo ler "O Grande Gatsby" em apenas 22 segundos; um determinado produto com 400.000 tokens suporta a inserção de 200.000 caracteres em chinês, permitindo a leitura de uma grande obra.
Por outro lado, a tecnologia de textos longos também está a impulsionar a implementação mais profunda de grandes modelos em indústrias, sendo que, em áreas complexas como finanças, justiça e investigação científica, as capacidades de resumo de documentos longos, compreensão de leitura e perguntas e respostas são fundamentais e representam um campo de treino que necessita urgentemente de uma atualização inteligente.
Referindo-se aos parâmetros de "compilação" dos fabricantes de grandes modelos na última rodada, os parâmetros do grande modelo não são necessariamente melhores quanto maiores, cada empresa está tentando encontrar o "ponto crítico" de desempenho do grande modelo, expandindo os parâmetros tanto quanto possível. Da mesma forma, como outro indicador que determina o efeito do modelo - o comprimento do texto - também não é verdade que quanto mais longo, melhor será o efeito do modelo.
Estudos já demonstraram que não se pode traçar uma linha direta entre o suporte a entradas de contexto mais longas por modelos grandes e a melhoria do desempenho do modelo. O comprimento do contexto que o modelo pode processar não é o ponto realmente crucial; o que é mais importante é como o modelo utiliza o conteúdo do contexto.
No entanto, por enquanto, a exploração do comprimento do texto, tanto a nível nacional como internacional, ainda não atingiu o estado de "ponto crítico". As empresas de grandes modelos, tanto nacionais como internacionais, continuam a avançar sem parar, e 400 mil tokens talvez ainda sejam apenas o começo.
Por que "rolar" textos longos?
O fundador de uma determinada empresa afirmou que, durante o processo de pesquisa e desenvolvimento tecnológico, sua equipe descobriu que a limitação do comprimento de entrada dos grandes modelos era a causa de muitas dificuldades na aplicação desses modelos, o que também explica por que muitas empresas de grandes modelos estão atualmente focadas na tecnologia de textos longos.
Por exemplo, em cenários de personagens virtuais, devido à capacidade insuficiente de texto longo, os personagens virtuais podem esquecer informações importantes; ao desenvolver jogos de tipo "script murder" com base em grandes modelos, se o comprimento do prompt de entrada não for suficiente, só será possível reduzir regras e definições, não conseguindo assim alcançar o efeito de jogo esperado; em áreas profissionais de alta precisão como direito e bancos, a análise e geração de conteúdo profundo muitas vezes enfrentam dificuldades.
No caminho para o futuro das aplicações nativas de Agent e IA, os textos longos continuam a desempenhar um papel importante. As tarefas dos Agents precisam de se basear em informações históricas para novos planos e decisões, enquanto as aplicações nativas de IA precisam de se basear no contexto para manter uma experiência do utilizador coerente e personalizada.
O fundador acredita que, seja texto, voz ou vídeo, a compressão sem perda de grandes volumes de dados pode alcançar um alto grau de inteligência. "O progresso na compressão sem perda ou na pesquisa de grandes modelos dependia extremante do modelo 'parâmetros são tudo', onde a taxa de compressão está diretamente relacionada à quantidade de parâmetros. Mas acreditamos que o limite da taxa de compressão sem perda ou de grandes modelos é determinado pela capacidade de um único passo e pelo número de passos executados. Dentre eles, a capacidade de um único passo é positivamente correlacionada com a quantidade de parâmetros, enquanto o número de passos executados refere-se ao comprimento do contexto."
Ao mesmo tempo, os fatos já provaram que mesmo modelos grandes com centenas de bilhões de parâmetros não conseguem evitar completamente o problema de alucinações e disparates. Comparado a textos curtos, textos longos podem ajudar o modelo a julgar o significado, fornecendo mais informações contextuais e detalhes, reduzindo ainda mais a ambiguidade, e a indução e inferência baseadas nos fatos fornecidos também são mais precisas.
Como pode ser visto, a tecnologia de long text pode resolver alguns problemas que foram criticados no início do surgimento de grandes modelos, melhorando algumas funcionalidades, e é também uma tecnologia chave para promover ainda mais a implementação da indústria e das aplicações. Isso também prova, de certa forma, que o desenvolvimento de grandes modelos genéricos entrou em uma nova fase, passando da era LLM para a era Long LLM.
Através de um novo produto lançado por uma empresa, talvez seja possível vislumbrar as funcionalidades de atualização dos grandes modelos da fase Long LLM.
Primeiro, está a função básica de extração, resumo e análise de informações-chave de textos muito longos. Por exemplo, ao inserir o link de uma conta pública, é possível analisar rapidamente o conteúdo do artigo; os relatórios financeiros recém-publicados podem extrair rapidamente informações-chave e apresentá-las em formatos simples, como tabelas e mapas mentais; ao inserir um livro inteiro ou textos legais profissionais, os usuários podem fazer perguntas para obter informações úteis.
Na parte do código, é possível transformar texto diretamente em código; basta dar o artigo ao robô de conversa, que poderá reproduzir o processo de geração de código com base no artigo e ainda fazer modificações a partir disso. Isso é um grande avanço em comparação com a demonstração feita por uma certa empresa na apresentação, onde foi mostrado como gerar código de site a partir de rascunhos.
Em cenários de diálogos longos, os robôs de conversa também podem realizar interpretação de papéis, inserindo dados de figuras públicas e ajustando o tom e a personalidade do personagem, permitindo diálogos um a um com Steve Jobs e Elon Musk. Uma empresa estrangeira de grandes modelos já desenvolveu uma aplicação de IA semelhante, e o DAU no mobile é muito superior a um produto renomado, alcançando 3,61 milhões. Na demonstração de uma empresa, basta um URL para conversar com o personagem de Genshin Impact que você gosta.
Os exemplos acima ilustram que, ao se afastar de simples interações de diálogo, robôs de conversa como o ChatGPT estão se direcionando para um desenvolvimento mais profissional, personalizado e profundo, o que pode ser outra alavanca para a implementação da indústria e de super aplicativos.
O fundador de uma determinada empresa revelou que, ao contrário de uma empresa conhecida que apenas oferece um produto e capacidades multimodais avançadas, eles estão mirando no próximo super APP para o consumidor final: com um avanço na tecnologia de texto longo, a partir de seu modelo genérico básico, eles irão gerar N aplicações.
"O mercado interno de grandes modelos será dividido em dois campos diferentes: toB e toC. No campo toC, surgirão super-apps, que são aplicações baseadas em modelos desenvolvidos internamente." Afirmou o fundador.
No entanto, neste estágio, ainda há muito espaço para otimização em cenários de diálogo de longo texto disponíveis no mercado. Por exemplo, alguns não suportam conexão à Internet e só podem obter as informações mais recentes através de atualizações oficiais do banco de dados; durante o processo de geração de diálogos, não é possível pausar ou modificar, apenas esperar o final da conversa; mesmo com o suporte a material de fundo e upload de arquivos, ocasionalmente ainda há casos de conversa sem sentido e invenções fantásticas.
O dilema do "triângulo impossível" em textos longos
No campo dos negócios, existe um conjunto típico de "triângulo impossível" que envolve preço, qualidade e escala, onde os três têm uma relação de restrição mútua e não podem ser alcançados simultaneamente.
No que diz respeito a textos longos, também existe um "triângulo impossível" semelhante em relação ao comprimento do texto, atenção e capacidade computacional.
Isto manifesta-se pelo facto de que quanto mais longo o texto, mais difícil é concentrar-se plenamente e mais difícil é digerir completamente; sob limitações de atenção, textos curtos não conseguem interpretar informações complexas de forma completa; processar textos longos requer uma quantidade significativa de poder computacional, aumentando os custos.
A origem do problema, em essência, é que a maioria dos modelos atuais é baseada na estrutura Transformer. Esta estrutura contém um dos componentes mais importantes, que é o mecanismo de autoatenção, que permite que o robô de conversa analise livremente as relações entre as informações, independentemente da ordem em que foram inseridas pelo usuário.
Mas o custo associado a isso é que a quantidade de cálculo do mecanismo de autoatenção aumenta em proporção quadrática com o comprimento do contexto; por exemplo, quando o contexto aumenta 32 vezes, a quantidade de cálculo realmente aumenta 1000 vezes.
Alguns artigos publicados forneceram evidências: um contexto excessivamente longo resulta numa diminuição significativa da proporção de informações relevantes, tornando-se aparentemente um destino inevitável a dispersão da atenção.
Isto constitui o primeiro conjunto de contradições no "triângulo impossível" — a extensão do texto e a atenção, e explica fundamentalmente a razão pela qual a tecnologia de textos longos em grandes modelos é difícil de ultrapassar.
Desde os parâmetros do modelo "卷" até agora, a capacidade de computação sempre foi um recurso escasso. O fundador de uma empresa conhecida afirmou que os seus serviços de 32K não podiam ser totalmente abertos a todos os usuários de imediato, sendo a maior limitação a escassez de GPUs.
A esse respeito, o fundador de uma certa empresa também afirmou: "A GPU é uma base importante, mas não se trata apenas do problema da GPU. Há uma combinação de diferentes fatores, por um lado, a GPU, e por outro, a eficiência da conversão de energia em inteligência. A eficiência, quando desmembrada, pode incluir a otimização de algoritmos, otimização de engenharia, otimização de modalidades e otimização de contexto, entre outros."
Mais importante ainda, na fase de implementação de grandes modelos, as empresas simplesmente não conseguem fornecer um suporte de computação significativo, o que força os fornecedores a manterem um controle rigoroso sobre a capacidade computacional, independentemente de expandirem os parâmetros do modelo ou o comprimento do texto. No entanto, nesta fase, para superar a tecnologia de textos mais longos, é necessário consumir mais capacidade computacional, gerando assim um segundo conjunto de contradições entre o comprimento do texto e a capacidade computacional.
Um engenheiro de NLP de uma certa empresa afirmou: "Atualmente, não há uma solução unificada para modelagem de longos textos com grandes modelos, e a razão para a confusão decorre da própria estrutura do Transformer, mas uma nova arquitetura já está a caminho."
Atualmente, tanto no design de software quanto de hardware, a maioria é construída em torno da arquitetura Transformer. É difícil que uma nova arquitetura a substitua completamente em um curto período de tempo, mas várias soluções de otimização surgiram em torno da arquitetura Transformer.
"Atualmente, existem três soluções diferentes, que são: utilizar ferramentas externas ao modelo para ajudar a processar longos textos, otimizar o cálculo do mecanismo de autoatenção e utilizar métodos gerais de otimização do modelo." disse o engenheiro.
A ideia central da primeira solução é dar um "impulso" ao grande modelo. O método principal é dividir textos longos em vários textos curtos para processamento; quando o modelo processa um texto longo, ele faz uma busca no banco de dados por textos curtos, a fim de obter respostas compostas por múltiplos textos curtos que formam um texto longo. A cada vez, apenas os fragmentos de texto curto necessários são carregados, evitando assim o problema de o modelo não conseguir ler todo o texto longo de uma vez.
A segunda solução é o método mais utilizado atualmente, cujo núcleo principal reside na reconstrução da forma de cálculo da autoatenção. Por exemplo, o núcleo da tecnologia LongLoRA está em dividir textos longos em diferentes grupos, realizando cálculos dentro de cada grupo, sem precisar calcular as relações entre cada palavra, com o objetivo de reduzir a carga computacional e aumentar a velocidade.
Os dois primeiros modos também foram chamados de modelo "abelha" pelo fundador de uma certa empresa, ou seja, através da amostragem descendente de geração ou contexto aprimorado por busca, mantém-se um mecanismo de atenção sobre parte da entrada, para alcançar o efeito de processamento de textos longos.
De acordo com o fundador, existe uma forma de otimizar o cálculo do mecanismo de autoatenção, que também é chamada de modelo "peixe dourado". Isto é feito através de janelas deslizantes e outras maneiras de descartar ativamente o contexto anterior, focando assim nas respostas às informações mais recentes do usuário. As vantagens de fazer isso são evidentes, mas não é possível comparar ou analisar resumos entre documentos e diálogos.
A terceira solução é focar na otimização do modelo. Como o LongLLaMA, que utiliza os modelos OpenLLaMA-3B e OpenLLaMA-7B como ponto de partida, realizando ajustes para produzir o novo modelo LONGLLAMAs. Este modelo pode ser facilmente extrapolado para sequências mais longas, por exemplo, um modelo treinado em 8K tokens pode ser facilmente extrapolado para um tamanho de janela de 256K.
Uma forma bastante comum de otimizar modelos é através da redução da quantidade de parâmetros (por exemplo, reduzindo para bilhões de parâmetros) para aumentar o comprimento do contexto, o que foi chamado de modelo "girino" por um determinado fundador. Esse método reduz a capacidade do próprio modelo; embora possa suportar contextos mais longos, surgirão problemas quando a dificuldade da tarefa aumentar.
Texto longo de "