長文本技術爭奪戰 大模型公司擴展上下文能力

大模型公司的長文本技術爭奪戰

4000到40萬token,大模型正在以"肉眼可見"的速度越變越"長"。

長文本能力似乎成爲象徵着大模型廠商出手的又一新"標配"。

國外,OpenAI經過三次升級,GPT-3.5上下文輸入長度從4千增長至1.6萬token,GPT-4從8千增長至3.2萬token;某公司一次性將上下文長度打到了10萬token;LongLLaMA將上下文的長度擴展到25.6萬token,甚至更多。

國內,某大模型初創公司發布智能助手產品可支持輸入20萬漢字,約爲40萬token;港中文團隊聯合MIT發布的新技術LongLoRA,可將7B模型的文本長度拓展到10萬token,70B模型的文本長度拓展到3.2萬token。

目前,國內外已有一大批頂級的大模型技術公司、機構和團隊將對上下文長度的拓展作爲更新升級的重點。

這些國內外大模型公司或機構都是資本市場熱捧的"當紅炸子雞"。某公司近期風頭正盛,接連被曝獲得大型科技公司投資,估值有望達到300億美元,較3月份翻五番;另一家公司成立僅半年就迅速完成首輪融資,獲得多家一線VC的押注,市場估值已超過3億美元。

大模型公司鉚足勁攻克長文本技術,上下文本長度擴大100倍意味着什麼?

表面上看是可輸入的文本長度越來越長,閱讀能力越來越強。若將抽象的token值量化,GPT-3.5的4000 token最多只能輸入3000個英文單詞或者2000個漢字,連一篇公衆號文章都難以讀完;3.2萬token的GPT-4達到了閱讀一篇短篇小說的程度;10萬token的某產品可輸入約7.5萬個單詞,僅22秒就可以閱讀完一本《了不起的蓋茨比》;40萬token的某產品支持輸入20萬漢字,閱讀一本長篇巨著。

另一方面,長文本技術也在推動大模型更深層次的產業落地,金融、司法、科研等精艱深的領域裏,長文檔摘要總結、閱讀理解、問答等能力是其基本,也是亟待智能化升級的練兵場。

參考上一輪大模型廠商"卷"參數,大模型參數不是越大就越好,各家都在通過盡可能地擴大參數找到大模型性能最優的"臨界點"。同理,作爲共同決定模型效果的另一項指標——文本長度,也不是越長,模型效果就越好。

有研究已經證明,大模型可以支持更長的上下文輸入與模型效果更好之間並不能直接畫上等號。模型能夠處理的上下文長度不是真正的關鍵點,更重要的是模型對上下文內容的使用。

不過,就目前而言,國內外對於文本長度的探索還遠沒有達到"臨界點"狀態。國內外大模型公司還在馬不停蹄地突破,40萬token或許也還只是開始。

爲什麼要"卷"長文本?

某公司創始人表示,在技術研發過程中,其團隊發現正是由於大模型輸入長度受限,才造成了許多大模型應用落地的困境,這也是衆多大模型公司在當下聚焦長文本技術的原因所在。

比如在虛擬角色場景中,由於長文本能力不足,虛擬角色會忘記重要信息;基於大模型開發劇本殺類遊戲時,輸入prompt長度不夠,則只能削減規則和設定,從而無法達到預期遊戲效果;在法律、銀行等高精度專業領域,深度內容分析、生成常常受挫。

在通往未來Agent和AI原生應用的道路上,長文本依然扮演着重要的角色,Agent任務運行需要依靠歷史信息進行新的規劃和決策,AI原生應用需要依靠上下文本來保持連貫、個性化的用戶體驗。

該創始人認爲,無論是文字、語音還是視頻,對海量數據的無損壓縮可以實現高程度的智能。"無損壓縮或大模型研究的進展曾極度依賴'參數爲王'模式,該模式下壓縮比直接與參數量相關。但我們認爲無損壓縮比或大模型的上限是由單步能力和執行的步驟數共同決定的。其中,單步能力與參數量呈正相關,而執行步驟數即上下文長度。"

同時,事實已經證明,即使是千億參數的大模型也無法完全避免幻覺和胡說八道的問題。相比於短文本,長文本可以通過提供更多上下文信息和細節信息,來輔助模型判斷語義,進一步減少歧義,並且基於所提供事實基礎上的歸納、推理也更加準確。

由此可見,長文本技術既可以解決大模型誕生初期被詬病的一些問題,增強一些功能,同時也是當前進一步推進產業和應用落地的一環關鍵技術,這也從側面證明通用大模型的發展又邁入了一個新的階段,從LLM到Long LLM時代。

透過某公司新發布的產品,或許能一窺Long LLM階段大模型的升級功能。

首先是對超長文本關鍵信息提取、總結和分析的基礎功能。如輸入公衆號的連結可以快速分析文章大意;新出爐的財報可以快速提取關鍵信息,並能以表格、思維導圖等簡潔的形式呈現;輸入整本書、專業法律條文後,用戶可以通過提問來獲取有效信息。

在代碼方面,可以實現文字直接轉化代碼,只要將論文丟給對話機器人,就能根據論文復現代碼生成過程,並能在其基礎上進行修改,這比當初某公司發布會上,演示草稿生成網站代碼又進了一大步。

在長對話場景中,對話機器人還可以實現角色扮演,通過輸入公衆人物的語料,設置語氣、人物性格,可以實現與喬布斯、馬斯克一對一對話,某國外大模型公司已經開發了類似的AI伴侶應用,且移動端的DAU遠高於某知名產品,達到了361萬。在某公司的演示中,只需要一個網址,就可以和自己喜歡的原神角色聊天。

以上的例子,共同說明了脫離簡單的對話輪次,類ChatGPT等對話機器人正在走向專業化、個性化、深度化的發展方向,這或許也是撬動產業和超級APP落地的又一抓手。

某公司創始人透露,不同於某知名公司只提供一個產品和最先進的多模態基礎能力,他們瞄準的是下一個C端超級APP:以長文本技術爲突破,在其基礎通用模型基礎上去裂變出N個應用。

"國內大模型市場格局會分爲 toB 和 toC 兩個不同的陣營,在 toC 陣營裏,會出現super-app,這些超級應用是基於自研模型做出來的。"該創始人判斷道。

不過,現階段市面上的長文本對話場景還有很大的優化空間。比如有些不支持聯網,只能通過官方更新數據庫才獲得最新信息;在生成對話的過程中無法暫停和修改,只能等待對話結束;即使有了背景資料和上傳文件支持,還是偶爾會出現胡說八道、憑空捏造的情況。

長文本的"不可能三角"困境

在商業領域有一組典型的價格、質量和規模的"不可能三角",三者存在相互制約關係,互相之間不可兼得。

在長文本方面,也存在文本長短、注意力和算力類似的"不可能三角"。

這表現爲,文本越長,越難聚集充分注意力,難以完整消化;注意力限制下,短文本無法完整解讀復雜信息;處理長文本需要大量算力,提高成本。

追本溯源,從根本上看這是因爲現在大部分模型都是基於Transformer結構。該結構中包含一項最重要的組件即自注意力機制,在該機制下,對話機器人就可以跨越用戶輸入信息順序的限制,隨意地去分析各信息間的關係。

但與之帶來的代價是,自注意力機制的計算量會隨着上下文長度的增加呈平方級增長,比如上下文增加32倍時,計算量實際會增長1000倍。

一些發表的論文給予了佐證:過長的上下文會使得相關信息的佔比顯著下降,加劇注意力分散似乎成爲了不可避免的命運。

這就構成了"不可能三角"中的第一組矛盾——文本長短與注意力,也從根本上解釋了大模型長文本技術難以突破的原因。

從"卷"大模型參數到現在,算力一直都是稀缺的資源。某知名公司創始人曾表示,他們的32K的服務無法立馬完全向所有用戶開放,最大的限制就在於GPU短缺。

對此,某公司創始人也稱:"GPU是一個重要的基礎,但還不光是GPU的問題。這裏面是不同因素的結合,一方面是GPU,一方面是能源轉換成智能的效率。效率進一步拆解可能包含算法的優化、工程的優化、模態的優化以及上下文的優化等等。"

更爲重要的是,在大模型實際部署環節,企業端根本無法提供很大的算力支持,這也就倒逼廠商無論是擴大模型參數還是文本長度,都要緊守算力一關。但現階段要想突破更長的文本技術,就不得不消耗更多的算力,於是就形成了文本長短與算力之間的第二組矛盾。

某公司NLP工程師表示:"大模型長文本建模目前還沒有一個統一的解決方案,造成困擾的原因正是源於Transformer自身的結構,而全新的架構已經在路上了。"

當前無論從軟件還是硬件設計,大部分都是圍繞Transformer架構來打造,短時間內新架構很難完全顛覆,但圍繞Transformer架構產生了幾種優化方案。

"目前主要有三種不同的解決方案,分別爲借助模型外部工具輔助處理長文本,優化自注意力機制計算和利用模型優化的一般方法。"該工程師說。

第一種解決方案的核心思路就是給大模型開"外掛"。主要方法是將長文本切分爲多個短文本處理,模型在處理長文本時,會在數據庫中對短文本進行檢索,以此來獲得多個短文本回答構成的長文本。每次只加載所需要的短文本片段,從而避開了模型無法一次讀入整個長文本的問題。

第二種解決方案是現在使用最多的方法,主要核心在於重新構建自注意力計算方式。比如LongLoRA技術的核心就在於將長文本劃分成不同的組,在每個組裏進行計算,而不用計算每個詞之間的關係,以此來降低計算量,提高速度。

前兩種模式也被某公司創始人稱之爲"蜜蜂"模型,即通過對檢索增強的生成或上下文的降採樣,保留對部分輸入的注意力機制,來實現長文本處理的效果。

據該創始人介紹,在優化自注意力機制計算還存在一種方式,也被其稱之爲 "金魚"模型。即通過滑動窗口等方式主動拋棄上文,以此來專注對用戶最新輸入信息的回答。這樣做的優點顯而易見,但是卻無法跨文檔、跨對話比較和總結分析。

第三種解決方案是專注於對模型的優化。如LongLLaMA以OpenLLaMA-3B和OpenLLaMA-7B 模型爲起點,在其基礎上進行微調,產生了LONGLLAMAs新模型。該模型很容易外推到更長的序列,例如在8K token上訓練的模型,可以很容易外推到256K窗口大小。

對模型的優化還有一種較爲普遍的方式,就是通過通過減少參數量(例如減少到百億參數)來提升上下文長度,這被某創始人稱之爲 "蝌蚪"模型。這種方法會降低模型本身的能力,雖然能支持更長上下文,但是任務難度變大後就會出現問題。

長文本的"

TOKEN-9.69%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 5
  • 轉發
  • 分享
留言
0/400
TerraNeverForgetvip
· 2小時前
等着炫耀上下文长度的结果
回復0
梦游交易者vip
· 08-12 16:46
追着数据玩追涨杀跌
回復0
ME_Victimvip
· 08-12 06:22
变长这么快,芯片厂家笑了
回復0
MetaverseHermitvip
· 08-12 06:22
卷疯了属于是
回復0
心若草莓冰vip
· 08-12 06:15
模型长了又长 比我有耐心
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)