Битва за технологии длинного текста среди компаний больших моделей
От 4000 до 400000 токенов, большая модель становится "длиннее" с "глазом видимой" скоростью.
Долговременные текстовые возможности, похоже, стали новой "стандартной функцией", символизирующей действия крупных производителей моделей.
За границей OpenAI трижды обновлял свою модель, увеличив длину контекстного ввода GPT-3.5 с 4000 до 16000 токенов, а GPT-4 — с 8000 до 32000 токенов; одна компания единовременно увеличила длину контекста до 100000 токенов; LongLLaMA расширила длину контекста до 256000 токенов и даже больше.
В стране одна стартап-компания по крупным моделям представила продукт умного помощника, который поддерживает ввод 200000 китайских иероглифов, что составляет примерно 400000 токенов; команда Гонконгского университета и MIT представила новую технологию LongLoRA, которая может увеличить длину текста 7B модели до 100000 токенов, а длину текста 70B модели до 32000 токенов.
В настоящее время большое количество ведущих компаний, учреждений и команд в области технологий больших моделей как в стране, так и за рубежом делают расширение длины контекста приоритетным направлением обновления и модернизации.
Эти крупные модели компаний или учреждений как в стране, так и за рубежом являются "горячими пирожками", которые активно поддерживаются капиталом. Одна компания в последнее время на подъеме, и сообщается, что она получила инвестиции от крупных технологических компаний; ее оценка может достичь 30 миллиардов долларов, что в пять раз превышает уровень марта; другая компания, основанная всего полгода назад, быстро завершила свой первый раунд финансирования, получив поддержку от нескольких ведущих венчурных капиталистов, и ее рыночная оценка уже превышает 300 миллионов долларов.
Компания больших моделей прилагает усилия для преодоления технологий длинного текста. Что означает увеличение длины текста на 100 раз?
На поверхности кажется, что длина вводимого текста становится все длиннее, а способности к чтению все сильнее. Если количественно оценить абстрактное значение токена, то 4000 токенов GPT-3.5 могут вместить не более 3000 английских слов или 2000 китайских иероглифов, трудно даже прочитать статью в общественном аккаунте; 32 тысячи токенов GPT-4 достигают уровня чтения короткого романа; продукт на 100 тысяч токенов может ввести около 75 тысяч слов, и всего за 22 секунды можно прочитать книгу "Великий Гэтсби"; продукт на 400 тысяч токенов поддерживает ввод 200 тысяч иероглифов и чтение длинного произведения.
С другой стороны, технологии длинного текста также способствуют более глубокому внедрению крупных моделей в индустрию. В таких сложных областях, как финансы, юстиция и научные исследования, способности к обобщению длинных документов, пониманию прочитанного и ответам на вопросы являются основными и требуют срочной интеллектуальной модернизации.
Ссылаясь на параметры больших моделей, предоставленные предыдущими производителями, можно сказать, что параметры больших моделей не всегда лучше, чем больше они. Каждый производитель пытается максимально увеличить параметры, чтобы найти оптимальную "критическую точку" производительности больших моделей. Аналогично, другая метрика, которая также влияет на качество модели — длина текста, не обязательно должна быть длиннее для достижения лучшего результата модели.
Исследования уже показали, что между поддержкой большими моделями более длинного контекстного ввода и улучшением качества модели нельзя ставить знак равенства. Длина контекста, которую модель может обрабатывать, не является настоящей ключевой точкой; гораздо важнее, как модель использует контент контекста.
Однако на данный момент исследование длины текста как внутри страны, так и за ее пределами еще далеко от достижения "критической точки". Компании, работающие с большими моделями как в стране, так и за границей, продолжают неустанно добиваться прорыва, и 400000 токенов, возможно, всего лишь начало.
Почему нужно «скручивать» длинные тексты?
Основатель одной компании заявил, что в процессе разработки технологий его команда обнаружила, что именно из-за ограниченной длины ввода больших моделей возникли трудности с внедрением многих приложений больших моделей. Это также является причиной, по которой многие компании, занимающиеся большими моделями, в настоящее время сосредоточены на технологии длинных текстов.
Например, в сценах с виртуальными персонажами, из-за недостаточной способности к обработке длинного текста, виртуальные персонажи могут забывать важную информацию; при разработке игр в жанре "скриптовое убийство" на основе больших моделей, если длина входного запроса недостаточна, то правила и установки приходится сокращать, что приводит к невозможности достичь ожидаемого игрового эффекта; в таких высокоточных профессиональных областях, как право и банковское дело, глубокий анализ и генерация контента часто сталкиваются с трудностями.
На пути к будущим приложениям Agent и AI, длинные тексты по-прежнему играют важную роль. Для выполнения задач Agent требуется полагаться на историческую информацию для нового планирования и принятия решений, а приложения AI требуют опоры на контекст для поддержания последовательного и персонализированного пользовательского опыта.
Основатель считает, что независимо от того, текст, речь или видео, без потерь сжатие больших объемов данных может достичь высокой степени интеллекта. "Прогресс в области безпотерьного сжатия или исследования больших моделей в прошлом сильно зависел от модели 'параметры - это всё', в которой коэффициент сжатия напрямую связан с количеством параметров. Однако мы считаем, что предел безпотерьного сжатия или больших моделей определяется как одностепенной способностью, так и количеством выполняемых шагов. При этом одностепенная способность имеет положительную корреляцию с количеством параметров, а количество выполняемых шагов - это длина контекста."
В то же время факты уже доказали, что даже модели с триллионом параметров не могут полностью избежать проблем с галлюцинациями и бессмыслицей. В отличие от коротких текстов, длинные тексты могут помочь модели в определении семантики, предоставляя больше контекстной информации и деталей, что дополнительно уменьшает двусмысленность, а также делает индукцию и выводы, основанные на предоставленных фактах, более точными.
Таким образом, видно, что технологии длинного текста могут решить некоторые проблемы, связанные с критикой на начальном этапе появления больших моделей, улучшить некоторые функции, а также являются ключевой технологией для дальнейшего продвижения в промышленности и реализации приложений. Это также косвенно подтверждает, что развитие универсальных больших моделей вступило в новую стадию, от LLM к эпохе Long LLM.
Через недавно выпущенный продукт компании, возможно, можно заглянуть в обновленные функции больших моделей на этапе Long LLM.
Во-первых, это базовые функции извлечения, обобщения и анализа ключевой информации из очень длинных текстов. Например, введя ссылку на публичный аккаунт, можно быстро проанализировать основную идею статьи; свежие финансовые отчеты могут быстро извлекать ключевую информацию и представлять ее в компактной форме, такой как таблицы или карты ума; после ввода целой книги или профессиональных юридических текстов пользователи могут получать полезную информацию, задавая вопросы.
В области кода можно реализовать прямое преобразование текста в код: достаточно передать论文 в диалогового робота, и он сможет воспроизвести процесс генерации кода на основе论文, а также вносить изменения. Это шаг вперед по сравнению с тем, как на недавней презентации одной компании демонстрировался сайт для генерации кода из черновика.
В длинных диалоговых сценах диалоговые роботы также могут реализовать ролевую игру, вводя данные о публичных личностях, настраивая тон и характер персонажа, что позволяет вести диалог один на один с Джобсом или Маском. Одна зарубежная компания, занимающаяся разработкой больших моделей, уже создала аналогичное приложение для AI-партнеров, и количество активных пользователей на мобильных устройствах значительно превышает некоторые известные продукты, достигнув 3,61 миллиона. На демонстрации одной из компаний достаточно было ввести веб-адрес, чтобы начать общение с любимым персонажем из Genshin Impact.
Приведенные выше примеры совместно указывают на то, что, отходя от простых диалоговых циклов, такие разговорные роботы, как ChatGPT, движутся в направлении профессионализации, персонализации и углубления, что, возможно, является еще одним рычагом для внедрения в индустрию и супер-приложения.
Основатель одной компании сообщил, что в отличие от известной компании, предлагающей только один продукт и самые современные мультимодальные базовые возможности, они нацелены на следующее супер-приложение для конечных пользователей: с прорывом в технологии длинного текста, на основе их общего базового модели они собираются разветвить N приложений.
"Рынок больших моделей в стране будет разделен на два разных лагеря: toB и toC. В лагере toC появятся супер-приложения, которые созданы на основе собственных моделей." - заявил основатель.
Однако на текущем этапе на рынке существует еще много возможностей для оптимизации длинных текстовых диалогов. Например, некоторые из них не поддерживают подключение к интернету и могут получать обновленную информацию только через официальное обновление базы данных; в процессе генерации диалога невозможно приостановить и изменить его, можно только ждать окончания диалога; даже если есть поддержка задней информации и загружаемых файлов, иногда все равно возникают случаи бреда и выдумок.
Дилемма "невозможного треугольника" длинного текста
В коммерческой сфере существует типичный "невозможный треугольник" цен, качества и масштаба, где три элемента находятся в взаимных ограничениях и не могут быть достигнуты одновременно.
В области длинных текстов также существует аналогичный "невозможный треугольник" длины текста, внимания и вычислительной мощности.
Это проявляется в том, что чем длиннее текст, тем труднее сосредоточить достаточное внимание и полностью его усвоить; при ограниченной внимательности короткие тексты не могут полностью интерпретировать сложную информацию; обработка длинных текстов требует значительных вычислительных мощностей, что увеличивает затраты.
Возвращаясь к истокам, в корне это связано с тем, что в настоящее время большинство моделей основаны на структуре Transformer. В этой структуре есть один из самых важных компонентов — механизм самовнимания, благодаря которому диалоговые роботы могут преодолевать ограничения последовательности ввода информации от пользователя и свободно анализировать взаимосвязи между различной информацией.
Но связанная с этим цена заключается в том, что вычислительная сложность механизма самовнимания растет в квадрате с увеличением длины контекста. Например, если длина контекста увеличивается в 32 раза, фактическая вычислительная сложность вырастает в 1000 раз.
Некоторые опубликованные работы подтверждают: слишком длинный контекст значительно снижает долю релевантной информации, и, похоже, отвлечение внимания становится неизбежной судьбой.
Это образует первую группу противоречий в "невозможном треугольнике" — длина текста и внимание, а также в корне объясняет причины, по которым технология длинных текстов больших моделей трудно преодолима.
С момента появления параметров больших моделей "卷" вычислительная мощность всегда была дефицитом. Основатель известной компании ранее заявил, что их 32K сервис не может быть немедленно полностью открыт для всех пользователей, и главным ограничением является нехватка GPU.
На это основатель одной компании также сказал: "GPU является важной основой, но это не только проблема GPU. Здесь сочетаются разные факторы: с одной стороны, GPU, с другой стороны, эффективность преобразования энергии в интеллект. Дальнейшее разбиение эффективности может включать оптимизацию алгоритмов, оптимизацию инженерии, оптимизацию модальностей и оптимизацию контекста и так далее."
Более того, на этапе фактической развертки больших моделей предприятия не могут предоставить значительную поддержку вычислительных мощностей, что заставляет производителей, независимо от того, увеличивают ли они параметры модели или длину текста, строго придерживаться ограничений по вычислительной мощности. Однако на данном этапе, чтобы преодолеть технологии для более длинных текстов, необходимо будет потреблять больше вычислительных мощностей, и таким образом возникает вторая группа противоречий между длиной текста и вычислительными мощностями.
Некоторые инженеры NLP компании заявили: "В настоящее время для моделирования длинных текстов с использованием больших моделей не существует единого решения, и причиной затруднений является структура самого Transformer, однако новая архитектура уже разрабатывается."
В настоящее время большинство программного и аппаратного обеспечения разрабатывается на основе архитектуры Transformer. В краткосрочной перспективе новая архитектура вряд ли сможет полностью ее изменить, но вокруг архитектуры Transformer возникло несколько оптимизационных решений.
"В настоящее время существует три различных решения: использование внешних инструментов модели для обработки длинных текстов, оптимизация вычислений механизма самовнимания и использование общих методов оптимизации модели," сказал инженер.
Основная идея первого решения заключается в том, чтобы дать большой модели "чего-то дополнительного". Основной метод заключается в разбиении длинного текста на несколько коротких для обработки; когда модель обрабатывает длинный текст, она выполняет поиск коротких текстов в базе данных, чтобы получить длинный текст, составленный из ответов на несколько коротких текстов. Каждый раз загружается только необходимый фрагмент короткого текста, тем самым избегая проблемы, когда модель не может прочитать весь длинный текст за один раз.
Второе решение — это наиболее часто используемый метод, основной смысл которого заключается в реконструкции способа вычисления самовнимания. Например, основа технологии LongLoRA заключается в разделении длинного текста на разные группы, с проведением расчетов внутри каждой группы, без вычисления взаимосвязей между каждым словом, чтобы снизить вычислительные затраты и повысить скорость.
Первые две модели также были названы "моделью пчел" одним из основателей компании, то есть через улучшение поиска генерирования или пониженное семплирование контекста, сохраняя механизм внимания к части входных данных, чтобы достичь эффекта обработки длинного текста.
Согласно словам основателя, существует еще один способ оптимизации вычислений механизма самовнимания, который он называет моделью "золотой рыбки". Это означает активное отбрасывание предыдущего контекста, например, с помощью скользящего окна, чтобы сосредоточиться на ответах на последние вводимые пользователем данные. Преимущества такого подхода очевидны, но он не может проводить сопоставление и анализ за пределами одного документа и одного диалога.
Третье решение заключается в том, чтобы сосредоточиться на оптимизации модели. Например, LongLLaMA использует модели OpenLLaMA-3B и OpenLLaMA-7B в качестве исходной точки и проводит донастройку на их базе, создавая новую модель LONGLLAMA. Эта модель легко может быть экстраполирована на более длинные последовательности, например, модель, обученная на 8K токенах, может быть легко экстраполирована на размер окна 256K.
Существует еще один довольно распространенный способ оптимизации модели, который заключается в снижении количества параметров (например, до ста миллиардов параметров) для увеличения длины контекста, что один из основателей назвал моделью "лягушка". Этот метод снижает возможности самой модели, хотя и позволяет поддерживать более длинный контекст, но при увеличении сложности задачи возникают проблемы.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
10 Лайков
Награда
10
4
Репост
Поделиться
комментарий
0/400
SleepTrader
· 08-12 16:46
Гоняться за данными, играя в импульсное инвестирование
Посмотреть ОригиналОтветить0
MEVictim
· 08-12 06:22
Так быстро увеличивается длина, производители чипов смеются.
Долгосрочная борьба за технологии текста: компании больших моделей расширяют свои возможности контекста
Битва за технологии длинного текста среди компаний больших моделей
От 4000 до 400000 токенов, большая модель становится "длиннее" с "глазом видимой" скоростью.
Долговременные текстовые возможности, похоже, стали новой "стандартной функцией", символизирующей действия крупных производителей моделей.
За границей OpenAI трижды обновлял свою модель, увеличив длину контекстного ввода GPT-3.5 с 4000 до 16000 токенов, а GPT-4 — с 8000 до 32000 токенов; одна компания единовременно увеличила длину контекста до 100000 токенов; LongLLaMA расширила длину контекста до 256000 токенов и даже больше.
В стране одна стартап-компания по крупным моделям представила продукт умного помощника, который поддерживает ввод 200000 китайских иероглифов, что составляет примерно 400000 токенов; команда Гонконгского университета и MIT представила новую технологию LongLoRA, которая может увеличить длину текста 7B модели до 100000 токенов, а длину текста 70B модели до 32000 токенов.
В настоящее время большое количество ведущих компаний, учреждений и команд в области технологий больших моделей как в стране, так и за рубежом делают расширение длины контекста приоритетным направлением обновления и модернизации.
Эти крупные модели компаний или учреждений как в стране, так и за рубежом являются "горячими пирожками", которые активно поддерживаются капиталом. Одна компания в последнее время на подъеме, и сообщается, что она получила инвестиции от крупных технологических компаний; ее оценка может достичь 30 миллиардов долларов, что в пять раз превышает уровень марта; другая компания, основанная всего полгода назад, быстро завершила свой первый раунд финансирования, получив поддержку от нескольких ведущих венчурных капиталистов, и ее рыночная оценка уже превышает 300 миллионов долларов.
Компания больших моделей прилагает усилия для преодоления технологий длинного текста. Что означает увеличение длины текста на 100 раз?
На поверхности кажется, что длина вводимого текста становится все длиннее, а способности к чтению все сильнее. Если количественно оценить абстрактное значение токена, то 4000 токенов GPT-3.5 могут вместить не более 3000 английских слов или 2000 китайских иероглифов, трудно даже прочитать статью в общественном аккаунте; 32 тысячи токенов GPT-4 достигают уровня чтения короткого романа; продукт на 100 тысяч токенов может ввести около 75 тысяч слов, и всего за 22 секунды можно прочитать книгу "Великий Гэтсби"; продукт на 400 тысяч токенов поддерживает ввод 200 тысяч иероглифов и чтение длинного произведения.
С другой стороны, технологии длинного текста также способствуют более глубокому внедрению крупных моделей в индустрию. В таких сложных областях, как финансы, юстиция и научные исследования, способности к обобщению длинных документов, пониманию прочитанного и ответам на вопросы являются основными и требуют срочной интеллектуальной модернизации.
Ссылаясь на параметры больших моделей, предоставленные предыдущими производителями, можно сказать, что параметры больших моделей не всегда лучше, чем больше они. Каждый производитель пытается максимально увеличить параметры, чтобы найти оптимальную "критическую точку" производительности больших моделей. Аналогично, другая метрика, которая также влияет на качество модели — длина текста, не обязательно должна быть длиннее для достижения лучшего результата модели.
Исследования уже показали, что между поддержкой большими моделями более длинного контекстного ввода и улучшением качества модели нельзя ставить знак равенства. Длина контекста, которую модель может обрабатывать, не является настоящей ключевой точкой; гораздо важнее, как модель использует контент контекста.
Однако на данный момент исследование длины текста как внутри страны, так и за ее пределами еще далеко от достижения "критической точки". Компании, работающие с большими моделями как в стране, так и за границей, продолжают неустанно добиваться прорыва, и 400000 токенов, возможно, всего лишь начало.
Почему нужно «скручивать» длинные тексты?
Основатель одной компании заявил, что в процессе разработки технологий его команда обнаружила, что именно из-за ограниченной длины ввода больших моделей возникли трудности с внедрением многих приложений больших моделей. Это также является причиной, по которой многие компании, занимающиеся большими моделями, в настоящее время сосредоточены на технологии длинных текстов.
Например, в сценах с виртуальными персонажами, из-за недостаточной способности к обработке длинного текста, виртуальные персонажи могут забывать важную информацию; при разработке игр в жанре "скриптовое убийство" на основе больших моделей, если длина входного запроса недостаточна, то правила и установки приходится сокращать, что приводит к невозможности достичь ожидаемого игрового эффекта; в таких высокоточных профессиональных областях, как право и банковское дело, глубокий анализ и генерация контента часто сталкиваются с трудностями.
На пути к будущим приложениям Agent и AI, длинные тексты по-прежнему играют важную роль. Для выполнения задач Agent требуется полагаться на историческую информацию для нового планирования и принятия решений, а приложения AI требуют опоры на контекст для поддержания последовательного и персонализированного пользовательского опыта.
Основатель считает, что независимо от того, текст, речь или видео, без потерь сжатие больших объемов данных может достичь высокой степени интеллекта. "Прогресс в области безпотерьного сжатия или исследования больших моделей в прошлом сильно зависел от модели 'параметры - это всё', в которой коэффициент сжатия напрямую связан с количеством параметров. Однако мы считаем, что предел безпотерьного сжатия или больших моделей определяется как одностепенной способностью, так и количеством выполняемых шагов. При этом одностепенная способность имеет положительную корреляцию с количеством параметров, а количество выполняемых шагов - это длина контекста."
В то же время факты уже доказали, что даже модели с триллионом параметров не могут полностью избежать проблем с галлюцинациями и бессмыслицей. В отличие от коротких текстов, длинные тексты могут помочь модели в определении семантики, предоставляя больше контекстной информации и деталей, что дополнительно уменьшает двусмысленность, а также делает индукцию и выводы, основанные на предоставленных фактах, более точными.
Таким образом, видно, что технологии длинного текста могут решить некоторые проблемы, связанные с критикой на начальном этапе появления больших моделей, улучшить некоторые функции, а также являются ключевой технологией для дальнейшего продвижения в промышленности и реализации приложений. Это также косвенно подтверждает, что развитие универсальных больших моделей вступило в новую стадию, от LLM к эпохе Long LLM.
Через недавно выпущенный продукт компании, возможно, можно заглянуть в обновленные функции больших моделей на этапе Long LLM.
Во-первых, это базовые функции извлечения, обобщения и анализа ключевой информации из очень длинных текстов. Например, введя ссылку на публичный аккаунт, можно быстро проанализировать основную идею статьи; свежие финансовые отчеты могут быстро извлекать ключевую информацию и представлять ее в компактной форме, такой как таблицы или карты ума; после ввода целой книги или профессиональных юридических текстов пользователи могут получать полезную информацию, задавая вопросы.
В области кода можно реализовать прямое преобразование текста в код: достаточно передать论文 в диалогового робота, и он сможет воспроизвести процесс генерации кода на основе论文, а также вносить изменения. Это шаг вперед по сравнению с тем, как на недавней презентации одной компании демонстрировался сайт для генерации кода из черновика.
В длинных диалоговых сценах диалоговые роботы также могут реализовать ролевую игру, вводя данные о публичных личностях, настраивая тон и характер персонажа, что позволяет вести диалог один на один с Джобсом или Маском. Одна зарубежная компания, занимающаяся разработкой больших моделей, уже создала аналогичное приложение для AI-партнеров, и количество активных пользователей на мобильных устройствах значительно превышает некоторые известные продукты, достигнув 3,61 миллиона. На демонстрации одной из компаний достаточно было ввести веб-адрес, чтобы начать общение с любимым персонажем из Genshin Impact.
Приведенные выше примеры совместно указывают на то, что, отходя от простых диалоговых циклов, такие разговорные роботы, как ChatGPT, движутся в направлении профессионализации, персонализации и углубления, что, возможно, является еще одним рычагом для внедрения в индустрию и супер-приложения.
Основатель одной компании сообщил, что в отличие от известной компании, предлагающей только один продукт и самые современные мультимодальные базовые возможности, они нацелены на следующее супер-приложение для конечных пользователей: с прорывом в технологии длинного текста, на основе их общего базового модели они собираются разветвить N приложений.
"Рынок больших моделей в стране будет разделен на два разных лагеря: toB и toC. В лагере toC появятся супер-приложения, которые созданы на основе собственных моделей." - заявил основатель.
Однако на текущем этапе на рынке существует еще много возможностей для оптимизации длинных текстовых диалогов. Например, некоторые из них не поддерживают подключение к интернету и могут получать обновленную информацию только через официальное обновление базы данных; в процессе генерации диалога невозможно приостановить и изменить его, можно только ждать окончания диалога; даже если есть поддержка задней информации и загружаемых файлов, иногда все равно возникают случаи бреда и выдумок.
Дилемма "невозможного треугольника" длинного текста
В коммерческой сфере существует типичный "невозможный треугольник" цен, качества и масштаба, где три элемента находятся в взаимных ограничениях и не могут быть достигнуты одновременно.
В области длинных текстов также существует аналогичный "невозможный треугольник" длины текста, внимания и вычислительной мощности.
Это проявляется в том, что чем длиннее текст, тем труднее сосредоточить достаточное внимание и полностью его усвоить; при ограниченной внимательности короткие тексты не могут полностью интерпретировать сложную информацию; обработка длинных текстов требует значительных вычислительных мощностей, что увеличивает затраты.
Возвращаясь к истокам, в корне это связано с тем, что в настоящее время большинство моделей основаны на структуре Transformer. В этой структуре есть один из самых важных компонентов — механизм самовнимания, благодаря которому диалоговые роботы могут преодолевать ограничения последовательности ввода информации от пользователя и свободно анализировать взаимосвязи между различной информацией.
Но связанная с этим цена заключается в том, что вычислительная сложность механизма самовнимания растет в квадрате с увеличением длины контекста. Например, если длина контекста увеличивается в 32 раза, фактическая вычислительная сложность вырастает в 1000 раз.
Некоторые опубликованные работы подтверждают: слишком длинный контекст значительно снижает долю релевантной информации, и, похоже, отвлечение внимания становится неизбежной судьбой.
Это образует первую группу противоречий в "невозможном треугольнике" — длина текста и внимание, а также в корне объясняет причины, по которым технология длинных текстов больших моделей трудно преодолима.
С момента появления параметров больших моделей "卷" вычислительная мощность всегда была дефицитом. Основатель известной компании ранее заявил, что их 32K сервис не может быть немедленно полностью открыт для всех пользователей, и главным ограничением является нехватка GPU.
На это основатель одной компании также сказал: "GPU является важной основой, но это не только проблема GPU. Здесь сочетаются разные факторы: с одной стороны, GPU, с другой стороны, эффективность преобразования энергии в интеллект. Дальнейшее разбиение эффективности может включать оптимизацию алгоритмов, оптимизацию инженерии, оптимизацию модальностей и оптимизацию контекста и так далее."
Более того, на этапе фактической развертки больших моделей предприятия не могут предоставить значительную поддержку вычислительных мощностей, что заставляет производителей, независимо от того, увеличивают ли они параметры модели или длину текста, строго придерживаться ограничений по вычислительной мощности. Однако на данном этапе, чтобы преодолеть технологии для более длинных текстов, необходимо будет потреблять больше вычислительных мощностей, и таким образом возникает вторая группа противоречий между длиной текста и вычислительными мощностями.
Некоторые инженеры NLP компании заявили: "В настоящее время для моделирования длинных текстов с использованием больших моделей не существует единого решения, и причиной затруднений является структура самого Transformer, однако новая архитектура уже разрабатывается."
В настоящее время большинство программного и аппаратного обеспечения разрабатывается на основе архитектуры Transformer. В краткосрочной перспективе новая архитектура вряд ли сможет полностью ее изменить, но вокруг архитектуры Transformer возникло несколько оптимизационных решений.
"В настоящее время существует три различных решения: использование внешних инструментов модели для обработки длинных текстов, оптимизация вычислений механизма самовнимания и использование общих методов оптимизации модели," сказал инженер.
Основная идея первого решения заключается в том, чтобы дать большой модели "чего-то дополнительного". Основной метод заключается в разбиении длинного текста на несколько коротких для обработки; когда модель обрабатывает длинный текст, она выполняет поиск коротких текстов в базе данных, чтобы получить длинный текст, составленный из ответов на несколько коротких текстов. Каждый раз загружается только необходимый фрагмент короткого текста, тем самым избегая проблемы, когда модель не может прочитать весь длинный текст за один раз.
Второе решение — это наиболее часто используемый метод, основной смысл которого заключается в реконструкции способа вычисления самовнимания. Например, основа технологии LongLoRA заключается в разделении длинного текста на разные группы, с проведением расчетов внутри каждой группы, без вычисления взаимосвязей между каждым словом, чтобы снизить вычислительные затраты и повысить скорость.
Первые две модели также были названы "моделью пчел" одним из основателей компании, то есть через улучшение поиска генерирования или пониженное семплирование контекста, сохраняя механизм внимания к части входных данных, чтобы достичь эффекта обработки длинного текста.
Согласно словам основателя, существует еще один способ оптимизации вычислений механизма самовнимания, который он называет моделью "золотой рыбки". Это означает активное отбрасывание предыдущего контекста, например, с помощью скользящего окна, чтобы сосредоточиться на ответах на последние вводимые пользователем данные. Преимущества такого подхода очевидны, но он не может проводить сопоставление и анализ за пределами одного документа и одного диалога.
Третье решение заключается в том, чтобы сосредоточиться на оптимизации модели. Например, LongLLaMA использует модели OpenLLaMA-3B и OpenLLaMA-7B в качестве исходной точки и проводит донастройку на их базе, создавая новую модель LONGLLAMA. Эта модель легко может быть экстраполирована на более длинные последовательности, например, модель, обученная на 8K токенах, может быть легко экстраполирована на размер окна 256K.
Существует еще один довольно распространенный способ оптимизации модели, который заключается в снижении количества параметров (например, до ста миллиардов параметров) для увеличения длины контекста, что один из основателей назвал моделью "лягушка". Этот метод снижает возможности самой модели, хотя и позволяет поддерживать более длинный контекст, но при увеличении сложности задачи возникают проблемы.
Длинный текст "