長文テクノロジーの争奪戦 大規模モデル企業がコンテキスト能力を拡張

大手模型会社のためのロングテキスト技術をめぐる戦い

4000から40万トークン、大モデルは"肉眼で見える"速度でますます"長く"なっています。

長文能力は、大規模モデルの提供者が手を出す新たな"標準"を象徴しているようです。

海外では、OpenAIが3回のアップグレードを経て、GPT-3.5のコンテキスト入力長が4000から16000トークンに増加し、GPT-4は8000から32000トークンに増加しました。ある企業は一度にコンテキスト長を10万トークンに引き上げました。LongLLaMAはコンテキストの長さを256000トークン以上にまで拡張しました。

国内のある大規模モデルスタートアップが、20万漢字の入力をサポートするスマートアシスタント製品を発表しました。これは約40万トークンに相当します。また、香港中文大学のチームとMITが共同で発表した新技術LongLoRAは、7Bモデルのテキスト長を10万トークンに、70Bモデルのテキスト長を3.2万トークンに拡張することができます。

現在、国内外には多くのトップレベルの大規模モデル技術の会社、機関、チームがあり、コンテキストの長さの拡張を更新の重点としている。

これらの国内外の大規模モデル会社や機関は、資本市場で熱烈に支持されている「旬なスター」です。ある会社は最近勢いがあり、大手テクノロジー企業からの投資を次々と受けており、評価額は300億ドルに達する見込みで、3月に比べて5倍に増加しています。別の会社は設立からわずか半年で初回の資金調達を迅速に完了し、複数の一流VCからの支援を受け、市場評価額はすでに3億ドルを超えています。

大規模モデル企業は長文技術の克服に全力を注いでいます。テキストの長さが100倍に拡大することは何を意味するのでしょうか?

表面上見れば、入力可能なテキストの長さはますます長くなり、読解能力も向上しています。抽象的なtoken値を量化すると、GPT-3.5の4000 tokenは最大で3000の英単語または2000の漢字しか入力できず、1つの公衆アカウントの記事を読み終えるのも難しいです;3.2万tokenのGPT-4は短編小説を読むレベルに達しています;10万tokenの某製品は約7.5万単語を入力でき、わずか22秒で『素晴らしきギャツビー』を読み終えることができます;40万tokenの某製品は20万の漢字を入力可能で、長編大作を読むことができます。

一方で、長文技術は大規模モデルのより深い産業への展開を促進しており、金融、司法、研究などの専門的な分野において、長文書の要約、読解、質問応答などの能力は基本的であり、知能的なアップグレードを急務とする訓練の場となっています。

前回の大規模モデルベンダーの「巻」パラメーターを参考にすると、大規模モデルのパラメーターは大きければ良いというわけではなく、各社は可能な限りパラメーターを拡大し、大規模モデルの性能の最適な「臨界点」を見つけようとしています。同様に、モデルの効果を共同で決定するもう一つの指標であるテキストの長さも、長ければ長いほどモデルの効果が良いというわけではありません。

研究によると、大規模モデルがより長いコンテキスト入力をサポートすることと、モデルの性能が向上することの間には直接的な関係はない。モデルが処理できるコンテキストの長さは本当の重要なポイントではなく、より重要なのはモデルがコンテキストの内容をどのように使用するかである。

ただし、現時点では、国内外でのテキストの長さに関する探求はまだ「臨界点」状態には達していません。国内外の大規模モデル企業はまだ休むことなく突破を続けており、40万トークンもおそらくまだ始まりに過ぎません。

なぜ長文を"巻"くのか?

ある企業の創業者は、技術開発の過程で、チームが大規模モデルの入力長に制限があるために、多くの大規模モデルの応用が困難になっていることを発見したと述べており、これが多くの大規模モデル企業が現在長文技術に焦点を当てている理由でもある。

例えば、バーチャルキャラクターのシーンでは、長文能力の不足により、バーチャルキャラクターが重要な情報を忘れてしまうことがあります。大規模なモデルを基にした推理ゲームの開発では、入力プロンプトの長さが不十分なため、ルールや設定を削減せざるを得ず、期待されるゲーム効果を達成できません。法律、銀行などの高精度専門分野では、深い内容の分析や生成がしばしば挫折します。

未来のエージェントとAIネイティブアプリケーションへの道のりにおいて、長文は依然として重要な役割を果たしています。エージェントのタスク実行は、歴史的情報に基づいて新しい計画と意思決定を行う必要があります。また、AIネイティブアプリケーションは、文脈に基づいて一貫性のある、パーソナライズされたユーザー体験を維持する必要があります。

その創設者は、文字、音声、または動画に関して、大量データの可逆圧縮が高いレベルの知能を実現できると考えています。"可逆圧縮や大規模モデル研究の進展は、かつては'パラメータが王'というモデルに極度に依存しており、このモデルでは圧縮率が直接的にパラメータの量に関連しています。しかし、私たちは可逆圧縮率や大規模モデルの上限は、単一のステップ能力と実行されるステップ数の両方によって決まると考えています。その中で、単一のステップ能力はパラメータの量と正の相関関係があり、実行ステップ数、すなわちコンテキストの長さです。"

同時に、事実は、数百億のパラメータを持つ大規模モデルでさえ、幻覚や不正確な情報の問題を完全に回避することができないことを示しています。短いテキストと比較して、長いテキストは、より多くの文脈情報や詳細情報を提供することによって、モデルが意味を判断するのを助け、あいまいさをさらに減少させ、提供された事実に基づく帰納や推論もより正確になります。

これにより、長文技術は大規模モデルの誕生初期に批判された問題を解決し、いくつかの機能を強化できるだけでなく、現在、産業とアプリケーションの進展を推進するための重要な技術の一環でもあります。これも、汎用大規模モデルの発展が新しい段階に入ったことを裏付けています。LLMからLong LLM時代へ。

ある企業が新たに発表した製品を通じて、Long LLM段階の大規模モデルのアップグレード機能を垣間見ることができるかもしれません。

まずは超長文の重要情報の抽出、要約、分析の基本機能についてです。例えば、公式アカウントのリンクを入力することで、記事の要点を迅速に分析できます。新しく公開された財務報告書からは、重要な情報を迅速に抽出し、表やマインドマップなどの簡潔な形式で表示できます。また、本全体や専門的な法律条文を入力後、ユーザーは質問を通じて有効な情報を得ることができます。

コードの面では、テキストを直接コードに変換することが可能であり、論文を対話型ロボットに投げかけるだけで、論文に基づいてコード生成プロセスを再現でき、それに基づいて修正も行える。これは、ある会社の発表会で、草稿生成ウェブサイトのコードをデモした時よりも大きな進歩である。

長い対話シーンでは、対話ロボットは役割を演じることもでき、著名人のコーパスを入力し、口調やキャラクターの性格を設定することで、ジョブズやマスクと一対一の対話を実現できます。ある海外の大規模モデル企業は、類似のAIパートナーアプリを開発しており、モバイル端末のDAUはある有名な製品を大きく上回り、361万に達しました。ある企業のデモでは、ただ一つのURLがあれば、自分の好きな原神キャラクターとチャットできます。

上記の例は、単純な対話のラウンドから脱却し、ChatGPTのような対話ロボットが専門化、個性化、深度化の方向に進んでいることを示しています。これは、産業やスーパーAPPの実現を促進する新たな手段かもしれません。

ある企業の創設者は、ある有名企業が単一の製品と最先端のマルチモーダル基盤能力のみを提供しているのとは異なり、次のC向けスーパーAPPを目指していると明らかにしました。長文技術を突破口として、基盤となる汎用モデルの上にN個のアプリケーションを分岐させることを目指しています。

"国内の大規模モデル市場の構図はtoBとtoCの2つの異なる陣営に分かれる。toC陣営では、super-appが登場し、これらのスーパーアプリは独自に開発されたモデルに基づいて作成される。"とその創業者は判断した。

しかし、現段階では市場に出ている長文対話シーンにはまだ大きな最適化の余地があります。例えば、ネットワーク接続をサポートしていないものもあり、最新情報を得るためには公式のデータベース更新を待たなければなりません。また、対話生成の過程で一時停止や修正ができず、対話が終了するのを待つしかありません。背景資料やアップロードファイルのサポートがあっても、時折、無意味なことを言ったり、根拠のないことをでっち上げたりすることがあります。

長文の「不可能な三角」ジレンマ

ビジネス分野には、価格、品質、規模の典型的な「不可能な三角形」があり、これらは相互に制約関係があり、互いに同時に得ることはできません。

長文に関しても、テキストの長さ、注意力、計算能力の間に類似の「不可能三角」が存在します。

これは、テキストが長くなるほど、十分な注意を集めることが難しく、完全に消化することも難しいことを示しています。注意力の制限の下では、短いテキストでは複雑な情報を完全に解読することができません。長いテキストを処理するには大量の計算能力が必要で、コストが増加します。

本質を追求すると、現在のほとんどのモデルがTransformer構造に基づいているためです。この構造には最も重要なコンポーネントである自己注意メカニズムが含まれており、このメカニズムにより、対話型ロボットはユーザーの入力情報の順序の制限を超えて、情報間の関係を自由に分析することができます。

しかし、これに伴うコストは、自己注意機構の計算量が文脈の長さの増加に伴い平方的に増加することであり、例えば文脈が32倍に増加すると、計算量は実際に1000倍に増加します。

いくつかの発表された論文が証拠を提供している:長すぎる文脈は関連情報の割合を著しく低下させ、注意散漫を悪化させることが避けられない運命のように思われる。

これは「不可能な三角形」の最初の矛盾を構成しています——テキストの長さと注意力は、大規模モデルの長文技術が突破しにくい理由を根本的に説明しています。

"巻"の大規模モデルのパラメータから現在に至るまで、計算能力は常に希少な資源です。ある有名な企業の創業者は、彼らの32Kのサービスがすぐにすべてのユーザーに完全に開放できない理由は、GPUの不足にあると述べました。

これについて、ある会社の創業者は次のように述べています:"GPUは重要な基盤ですが、GPUの問題だけではありません。ここには様々な要因の組み合わせがあります。一方はGPUであり、もう一方はエネルギーをスマートに変換する効率です。効率をさらに分解すると、アルゴリズムの最適化、エンジニアリングの最適化、モードの最適化、コンテキストの最適化などが含まれる可能性があります。"

より重要なのは、大規模モデルの実際のデプロイメント段階で、企業側が大きな計算能力のサポートを提供できないため、メーカーはモデルのパラメータやテキストの長さを拡大するにしても、計算能力の制約を厳守せざるを得ないということです。しかし、現段階でより長いテキスト技術を突破しようとすると、より多くの計算能力を消費せざるを得ず、したがってテキストの長さと計算能力の間に第二の矛盾が形成されます。

ある会社のNLPエンジニアは次のように述べています:"大規模モデルの長文モデリングには、まだ統一された解決策がなく、その原因はTransformer自体の構造に起因していますが、新しいアーキテクチャがすでに進行中です。"

現在、ソフトウェアやハードウェアの設計において、大部分がTransformerアーキテクチャを中心に構築されています。短期間で新しいアーキテクチャが完全に覆すことは難しいですが、Transformerアーキテクチャを中心にいくつかの最適化案が生まれました。

"現在、主に三つの異なる解決策があります。それは、モデル外部のツールを利用して長文を処理すること、自注意機構の計算を最適化すること、そしてモデル最適化の一般的な方法を利用することです。"とそのエンジニアは言いました。

第一の解決策の核心的な考え方は、大モデルに"チート"を持たせることです。主な方法は、長いテキストを複数の短いテキストに分割して処理することで、モデルが長いテキストを処理する際に、データベースから短いテキストを検索し、これによって複数の短いテキストの回答を組み合わせて長いテキストを構成します。必要な短いテキストのセグメントだけを毎回読み込むことで、モデルが長いテキスト全体を一度に読み込むことができない問題を回避します。

第二の解決策は現在最も使用されている方法であり、その主な核心は自己注意計算方式の再構築にあります。例えば、LongLoRA技術の核心は長いテキストを異なるグループに分割し、各グループ内で計算を行うことであり、各単語間の関係を計算する必要がないため、計算量を削減し、速度を向上させます。

前の2つのモデルは、ある会社の創設者によって「ハチ」モデルと呼ばれており、検索強化された生成や文脈のダウンサンプリングを通じて、一部の入力に対する注意メカニズムを保持し、長文処理の効果を実現します。

創設者によれば、自己注意機構の計算を最適化する方法の一つとして、「金魚」モデルと呼ばれるものが存在します。これは、スライディングウィンドウなどの手法を通じて、過去の文を積極的に捨てることで、ユーザーの最新の入力情報に対する応答に集中することを目的としています。この方法の利点は明らかですが、文書間や対話間の比較や要約分析はできません。

第3の解決策は、モデルの最適化に焦点を当てることです。LongLLaMAはOpenLLaMA-3BおよびOpenLLaMA-7Bモデルを出発点として、それに基づいて微調整を行い、LONGLLAMAsの新モデルを生成しました。このモデルは、8Kトークンで訓練されたモデルが256Kウィンドウサイズに簡単に外挿できるように、より長いシーケンスに簡単に外挿できます。

モデルの最適化には、パラメーターの量を減らす(例えば、100億パラメーターに減らす)ことによってコンテキストの長さを向上させるという一般的な方法があります。これをある創業者は「オタマジャクシ」モデルと呼びました。この方法はモデル自体の能力を低下させますが、より長いコンテキストをサポートできる一方で、タスクの難易度が上がると問題が発生します。

TOKEN-4.58%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 4
  • リポスト
  • 共有
コメント
0/400
SleepTradervip
· 08-12 16:46
データを追いかけてモメンタム投資をする
原文表示返信0
MEVictimvip
· 08-12 06:22
こんなに早く長くなると、チップメーカーは笑っています。
原文表示返信0
MetaverseHermitvip
· 08-12 06:22
巻き込まれた
原文表示返信0
StrawberryIcevip
· 08-12 06:15
モデルは長くなり、私よりも忍耐強い
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)