Büyük Model Şirketlerinin Uzun Metin Teknolojisi Mücadelesi
4000'den 400.000'e kadar token, büyük model "gözle görülür" bir hızla giderek "uzun" hale geliyor.
Uzun metin yeteneği, büyük model üreticilerinin harekete geçtiğinin bir başka yeni "standartı" gibi görünmektedir.
Yurt dışında, OpenAI üç güncelleme sonrası, GPT-3.5'in bağlam girdi uzunluğunu 4 bin token'dan 16 bin token'a, GPT-4'ü ise 8 bin token'dan 32 bin token'a çıkardı; bir şirket, bağlam uzunluğunu bir seferde 100 bin token'a yükseltti; LongLLaMA bağlam uzunluğunu 256 bin token'a, hatta daha fazlasına genişletti.
Ülkede, bir büyük model girişimi akıllı asistan ürünü piyasaya sürdü ve 200.000 Çince karakter girişi destekleyebiliyor, bu da yaklaşık 400.000 token'a eşdeğer; Hong Kong Çince Üniversitesi ekibi ile MIT'nin ortaklaşa geliştirdiği yeni teknoloji LongLoRA, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelinin metin uzunluğunu ise 32.000 token'a kadar genişletebiliyor.
Şu anda, yurtiçinde ve yurtdışında birçok üst düzey büyük model teknolojisi şirketi, kurumu ve ekibi, bağlam uzunluğunun genişletilmesini güncelleme ve yükseltme konusunda bir öncelik olarak almaktadır.
Bu yerli ve yabancı büyük model şirketleri veya kuruluşları, sermaye piyasasının gözde "yıldızları" haline geldi. Bir şirket son zamanlarda büyük bir çıkış yakaladı ve büyük teknoloji şirketlerinden yatırım aldığı iddiaları ortaya atıldı, piyasa değeri 30 milyar dolara ulaşması bekleniyor, Mart ayına göre beş kat artış; başka bir şirket ise yalnızca altı ay içinde ilk finansman turunu hızla tamamladı ve birçok birinci sınıf VC'nin desteklemesiyle piyasa değeri 3 milyar doları geçti.
Büyük model şirketleri, uzun metin teknolojisini aşmak için tüm gücünü topluyor; metinlerin uzunluğunun 100 kat artırılması ne anlama geliyor?
Görünüşte, girilebilen metin uzunluğu giderek artıyor ve okuma yeteneği güçleniyor. Soyut token değerlerini nicelleştirirsek, GPT-3.5'in 4000 token'ı en fazla 3000 İngilizce kelime veya 2000 Çince karakter girebilir; bir WeChat makalesini bile bitirmek zor. 32.000 token'lık GPT-4, bir kısa romanı okuma seviyesine ulaştı; 100.000 token'lık bir ürün yaklaşık 75.000 kelime girebilir ve sadece 22 saniyede "Muhteşem Gatsby" kitabını okuyabilir; 400.000 token'lık bir ürün 200.000 Çince karakter girebilir, bir uzun romanı okumayı destekler.
Öte yandan, uzun metin teknolojisi de büyük modellerin daha derin sanayi uygulamalarını teşvik ediyor; finans, hukuk, araştırma gibi karmaşık alanlarda uzun belge özetleme, okuma anlama, soru-cevap gibi yetenekler temel bir gereklilik olup, akıllı yükseltmelere ihtiyaç duyulan bir eğitim sahasıdır.
Önceki büyük model üreticilerinin "katman" parametrelerine bakarak, büyük model parametrelerinin ne kadar büyük olursa o kadar iyi olmadığı görülüyor. Her firma, büyük model performansının en iyi olduğu "kritik nokta"yı bulmak için parametreleri mümkün olduğunca genişletmeye çalışıyor. Benzer şekilde, model performansını belirleyen bir diğer ölçüt olan metin uzunluğu da, ne kadar uzun olursa o kadar iyi olmadığı anlamına geliyor.
Araştırmalar, büyük modellerin daha uzun bağlam girişlerini destekleyebilmesi ile modelin daha iyi performansı arasında doğrudan bir ilişki olmadığını kanıtlamıştır. Modelin işleyebildiği bağlam uzunluğu gerçekten de anahtar nokta değildir, daha önemli olan modelin bağlam içeriğini nasıl kullandığıdır.
Ancak şu an itibarıyla, yurt içi ve yurt dışındaki metin uzunluğu araştırmaları hala "kritik nokta" durumuna ulaşmış değil. Yurt içi ve yurt dışındaki büyük model şirketleri hala durmaksızın ilerlemeye çalışıyor, 400.000 token belki de sadece bir başlangıç.
Neden uzun metinleri "sarmalamalıyız"?
Bir şirketin kurucusu, teknik araştırma ve geliştirme sürecinde ekiplerinin büyük model giriş uzunluğunun sınırlı olmasının, birçok büyük model uygulamasının hayata geçmesinde yaşanan zorluklara neden olduğunu keşfettiğini belirtti. Bu da, birçok büyük model şirketinin şu anda uzun metin teknolojisine odaklanmasının sebebidir.
Örneğin sanal karakter sahnelerinde, uzun metin yeteneklerinin yetersizliği nedeniyle sanal karakterler önemli bilgileri unutabilir; büyük model bazlı senaryo tabanlı oyunlar geliştirirken, giriş promptunun uzunluğu yeterli değilse, kurallar ve ayarlar azaltılmak zorunda kalınır ve bu da beklenen oyun etkisine ulaşılmasını engeller; hukuk, bankacılık gibi yüksek hassasiyet gerektiren profesyonel alanlarda derin içerik analizi ve üretimi sıklıkla engellenir.
Gelecekteki Agent ve AI yerel uygulamaların yolculuğunda, uzun metinler hala önemli bir rol oynamaktadır; Agent görevlerinin yürütülmesi, yeni planlama ve kararlar almak için tarihsel bilgilere dayanırken, AI yerel uygulamaları, tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama dayanmaktadır.
Kurucu, yazılı, sesli veya video olsun, büyük veri setlerinin kayıpsız sıkıştırmasının yüksek bir zeka seviyesine ulaşabileceğini düşünüyor. "Kaybı olmayan sıkıştırma veya büyük model araştırmalarının ilerlemesi, 'parametreler kraldır' modeliyle aşırı derecede bağımlıydı; bu modelde sıkıştırma oranı doğrudan parametre miktarıyla ilişkilidir. Ancak kayıpsız sıkıştırma oranı veya büyük modellerin üst sınırının, tek adım yeteneği ve yürütme adım sayısı tarafından belirlendiğine inanıyoruz. Burada, tek adım yeteneği ile parametreler arasında pozitif bir ilişki vardır, yürütme adım sayısı ise bağlam uzunluğudur."
Aynı zamanda, gerçekte, trilyon parametreli büyük modellerin bile yanılsama ve saçmalık sorunlarından tamamen kaçınamayacağı kanıtlanmıştır. Kısa metinlere kıyasla, uzun metinler daha fazla bağlam ve ayrıntı bilgisi sağlayarak modelin anlamı değerlendirmesine yardımcı olabilir, böylece belirsizliği daha da azaltır ve sağlanan gerçekler temelinde yapılan çıkarım ve akıl yürütmeler daha kesin hale gelir.
Bu nedenle, uzun metin teknolojisi, büyük modellerin doğuşunun başlangıcında eleştirilen bazı sorunları çözebilir, bazı işlevleri güçlendirebilir ve aynı zamanda mevcut endüstri ve uygulamaların ilerlemesini sağlamak için kritik bir teknoloji haline gelmiştir. Bu durum, genel büyük modellerin gelişiminin yeni bir aşamaya geçtiğini de dolaylı olarak kanıtlamaktadır; LLM'den Long LLM dönemine geçiş.
Belirli bir şirketin yeni çıkardığı ürün aracılığıyla, Long LLM aşamasındaki büyük modelin yükseltme işlevine bir göz atılabilir.
Öncelikle, çok uzun metinlerden anahtar bilgi çıkarma, özetleme ve analiz etme temel işlevleri vardır. Örneğin, bir kamu hesabının bağlantısını girdiğinizde, makalenin genel anlamını hızlı bir şekilde analiz edebilirsiniz; yeni çıkan bir mali rapordan anahtar bilgileri hızla çıkarabilir ve bunları tablo, zihin haritası gibi sade formatlarda sunabilirsiniz; bir kitabın tamamını veya uzmanlık alanına ait yasal metni girdikten sonra, kullanıcılar sorular sorarak etkili bilgilere ulaşabilir.
Kodlama açısından, metinlerin doğrudan koda dönüştürülmesi mümkün hale geliyor, tek yapmanız gereken makaleyi sohbet robotuna bırakmak, bu sayede makalenin kod oluşturma sürecini yeniden üretebilir ve bunun üzerine değişiklikler yapabilirsiniz. Bu, o zamanlar bir şirketin basın toplantısında, taslak oluşturma sitesinin kodunu gösterdiği zamandan çok daha ileri bir adım.
Uzun diyalog senaryolarında, diyalog botları rol yapma yeteneğine de sahip olabilir. Kamu figürlerinin verilerini girerek, tonunu ve karakter özelliklerini ayarlayarak, Jobs ve Musk ile birebir konuşmalar gerçekleştirebiliriz. Yabancı bir büyük model şirketi, benzer bir AI arkadaş uygulaması geliştirmiştir ve mobildeki DAU, tanınmış bir ürünün çok üstünde, 3.61 milyona ulaşmıştır. Bir şirketin sunumunda, sadece bir web sitesi ile sevdiğiniz Genshin Impact karakteriyle sohbet edebilirsiniz.
Yukarıdaki örnekler, basit diyalog döngülerinden uzaklaşarak, ChatGPT gibi diyalog robotlarının uzmanlaşma, kişiselleşme ve derinleşme yönünde bir gelişim gösterdiğini ortak olarak vurgulamaktadır. Bu belki de sanayiyi ve süper uygulamaları hayata geçirmenin bir başka anahtarıdır.
Bir şirketin kurucusu, tanınmış bir şirketin sadece bir ürün ve en ileri çok modlu temel yetenekler sunduğundan farklı olarak, onların hedefinin bir sonraki C-son kullanıcı süper uygulaması olduğunu açıkladı: uzun metin teknolojisini bir atılım olarak kullanarak, bu temel genel modelin üzerine N uygulama türetecekler.
"Yerli büyük model pazarındaki yapı, toB ve toC olarak iki farklı kamp arasında bölünecek. toC kampında, kendi geliştirdikleri modellere dayanan süper uygulamalar ortaya çıkacak." diye belirtti kurucu.
Ancak, mevcut aşamada piyasadaki uzun metinli diyalog sahnelerinde hala büyük bir optimizasyon alanı var. Örneğin, bazıları internete bağlanmayı desteklemiyor, sadece resmi güncellemelerle veritabanını güncelleyerek en son bilgilere ulaşabiliyor; diyalog oluşturma sürecinde duraklatma ve düzenleme yapılamıyor, sadece diyalog bitene kadar beklemek gerekiyor; arka plan bilgileri ve dosya yükleme desteği olsa bile, ara sıra saçmalama ve uydurma durumları ortaya çıkabiliyor.
Uzun Metnin "İmkansız Üçgen" Çelişkisi
Ticaret alanında, fiyat, kalite ve ölçekten oluşan tipik bir "imkansız üçgen" bulunmaktadır; bu üç öğe arasında karşılıklı kısıtlayıcı bir ilişki vardır ve birbirleriyle bir arada elde edilemezler.
Uzun metinler açısından, metin uzunluğu, dikkat ve hesaplama gücü ile benzer bir "imkansız üçgen" de mevcuttur.
Bu, metin ne kadar uzunsa, dikkat toplamanın o kadar zorlaştığı ve tam olarak sindirilmesinin güçleştiği şeklinde kendini gösterir; dikkat kısıtlamaları altında, kısa metinler karmaşık bilgileri tam olarak yorumlayamaz; uzun metinlerin işlenmesi büyük miktarda hesap gücü gerektirir, bu da maliyetleri artırır.
Köklere inmek gerekirse, bunun nedeni şu anda çoğu modelin Transformer yapısına dayalı olmasıdır. Bu yapıda en önemli bileşenlerden biri olan öz-dikkat mekanizması bulunmaktadır. Bu mekanizma sayesinde, diyalog robotları kullanıcı girişi bilgileri sırasının sınırlamalarını aşarak, bilgilerin arasındaki ilişkileri özgürce analiz edebilir.
Ancak bunun getirdiği maliyet, kendine dikkat mekanizmasının hesaplama miktarının bağlam uzunluğunun artmasıyla birlikte kare olarak büyümesidir; örneğin, bağlam 32 kat arttığında, hesaplama miktarı aslında 1000 kat artacaktır.
Bazı yayımlanan makaleler şunu doğruladı: Aşırı uzun bağlam, ilgili bilgilerin oranını önemli ölçüde azaltır ve dikkat dağılmasının kaçınılmaz bir kader haline gelmesine neden olur.
Bu, "imkansız üçgen" içindeki ilk çelişki grubunu oluşturur - metin uzunluğu ile dikkat arasında, aynı zamanda büyük modellerin uzun metin teknolojisinde neden zorlandığını temel bir şekilde açıklar.
"Kapsama" büyük model parametrelerinden günümüze, hesaplama gücü her zaman kıt bir kaynak olmuştur. Tanınmış bir şirketin kurucusu, 32K hizmetlerinin hemen tüm kullanıcılara tamamen açılamayacağını, en büyük kısıtlamanın GPU kıtlığı olduğunu belirtmiştir.
Bu konuda, bir şirketin kurucusu da şunları söyledi: "GPU önemli bir temeldir, ama mesele yalnızca GPU ile ilgili değildir. Burada farklı faktörlerin birleşimi söz konusudur; bir yandan GPU, diğer yandan enerji dönüşümünün akıllı hale gelme verimliliğidir. Verimlilik daha da detaylandırıldığında, algoritma optimizasyonu, mühendislik optimizasyonu, modalite optimizasyonu ve bağlam optimizasyonu gibi unsurları içerebilir."
Daha da önemlisi, büyük modellerin gerçek dağıtım aşamasında, işletmelerin büyük bir hesaplama gücü desteği sağlaması imkânsızdır; bu da tedarikçileri, ister model parametrelerini ister metin uzunluğunu genişletsinler, hesaplama gücüne sıkı sıkıya bağlı kalmaya zorlamaktadır. Ancak mevcut aşamada daha uzun metin teknolojilerini aşmak için daha fazla hesaplama gücü tüketmek zorunda kalındığı için, metin uzunluğu ile hesaplama gücü arasında ikinci bir çelişki grubu oluşmaktadır.
Bir şirketin NLP mühendisi şunları belirtti: "Büyük model uzun metin modellemesi için şu anda bir birleşik çözüm yok, bu sorunun kaynağı Transformer'ın kendine özgü yapısından kaynaklanıyor ve tamamen yeni bir mimari yolda."
Şu anda hem yazılım hem de donanım tasarımında, çoğu Transformer mimarisi etrafında şekilleniyor. Kısa vadede yeni bir mimarinin tamamen devrim yaratması zor, ancak Transformer mimarisi etrafında birkaç optimizasyon çözümü ortaya çıktı.
"Şu anda üç farklı çözüm var: uzun metinleri işlemek için model dışı araçları kullanmak, kendine dikkat mekanizması hesaplamalarını optimize etmek ve model optimizasyonunun genel yöntemlerini kullanmak." dedi mühendis.
Birinci çözüm önerisinin temel düşüncesi, büyük modele "ekstra güç" sağlamaktır. Ana yöntem, uzun metinleri birden fazla kısa metne bölerek işlemektir; model uzun metinleri işlerken, veritabanında kısa metinleri arayacak ve bu şekilde birden fazla kısa metin yanıtından oluşan uzun metni elde edecektir. Her seferinde yalnızca gereken kısa metin parçaları yüklenerek, modelin tüm uzun metni bir seferde okuyamama sorunundan kaçınılmış olur.
İkinci çözüm, şu anda en çok kullanılan yöntemdir ve özünde kendi kendine dikkat hesaplama yönteminin yeniden yapılandırılmasına dayanır. Örneğin, LongLoRA teknolojisinin temelinde uzun metinlerin farklı gruplara ayrılması ve her grupta hesaplamaların yapılması yatmaktadır; böylece her kelime arasındaki ilişkilerin hesaplanmasına gerek kalmadan hesaplama yükü azaltılır ve hız artırılır.
İki model, bir şirketin kurucusu tarafından "arı" modeli olarak adlandırılmıştır; bu model, artırılmış arama ile üretilen veya bağlamın azaltılması yoluyla, bazı girişlerin dikkat mekanizmasını koruyarak uzun metin işleme etkisini gerçekleştirmeyi amaçlamaktadır.
Kurucunun belirttiğine göre, öz dikkat mekanizmasının hesaplamalarını optimize etmenin başka bir yolu daha var, buna "balık modeli" deniyor. Yani, kaydırma penceresi gibi yöntemlerle önceki metni aktif bir şekilde atarak, kullanıcıların en son girdileriyle ilgili yanıt vermeye odaklanmak. Bunu yapmanın avantajları barizdir, ancak belgeler arasında, diyaloglar arasında karşılaştırma ve özetleme analizi yapmak mümkün değildir.
Üçüncü çözüm, modelin optimize edilmesine odaklanmaktır. LongLLaMA, OpenLLaMA-3B ve OpenLLaMA-7B modellerini başlangıç noktası olarak alarak, bunlar üzerinde ince ayar yaparak LONGLLAMAs yeni modelini üretmiştir. Bu model, daha uzun dizilere kolayca genellenebilir; örneğin, 8K token üzerinde eğitilmiş bir model, 256K pencere boyutuna kolayca genellenebilir.
Modelin optimizasyonunun oldukça yaygın bir yolu, parametre sayısını azaltarak (örneğin, yüz milyar parametreye düşürerek) bağlam uzunluğunu artırmaktır. Bu, bir kurucu tarafından "kurbağa yavrusu" modeli olarak adlandırılmıştır. Bu yöntem, modelin kendisinin yeteneklerini azaltacak, daha uzun bağlamları desteklese de görev zorluğu arttığında sorunlar ortaya çıkacaktır.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
10 Likes
Reward
10
4
Repost
Share
Comment
0/400
SleepTrader
· 08-12 16:46
Veriyle oynayarak fiyatı takip et ve düşüş piyasasında satış yap
View OriginalReply0
MEVictim
· 08-12 06:22
Bu kadar hızlı uzanması, çip üreticilerini güldürdü.
Uzun metin teknolojisi çekişmesi Büyük model şirketleri bağlam yeteneklerini genişletiyor
Büyük Model Şirketlerinin Uzun Metin Teknolojisi Mücadelesi
4000'den 400.000'e kadar token, büyük model "gözle görülür" bir hızla giderek "uzun" hale geliyor.
Uzun metin yeteneği, büyük model üreticilerinin harekete geçtiğinin bir başka yeni "standartı" gibi görünmektedir.
Yurt dışında, OpenAI üç güncelleme sonrası, GPT-3.5'in bağlam girdi uzunluğunu 4 bin token'dan 16 bin token'a, GPT-4'ü ise 8 bin token'dan 32 bin token'a çıkardı; bir şirket, bağlam uzunluğunu bir seferde 100 bin token'a yükseltti; LongLLaMA bağlam uzunluğunu 256 bin token'a, hatta daha fazlasına genişletti.
Ülkede, bir büyük model girişimi akıllı asistan ürünü piyasaya sürdü ve 200.000 Çince karakter girişi destekleyebiliyor, bu da yaklaşık 400.000 token'a eşdeğer; Hong Kong Çince Üniversitesi ekibi ile MIT'nin ortaklaşa geliştirdiği yeni teknoloji LongLoRA, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelinin metin uzunluğunu ise 32.000 token'a kadar genişletebiliyor.
Şu anda, yurtiçinde ve yurtdışında birçok üst düzey büyük model teknolojisi şirketi, kurumu ve ekibi, bağlam uzunluğunun genişletilmesini güncelleme ve yükseltme konusunda bir öncelik olarak almaktadır.
Bu yerli ve yabancı büyük model şirketleri veya kuruluşları, sermaye piyasasının gözde "yıldızları" haline geldi. Bir şirket son zamanlarda büyük bir çıkış yakaladı ve büyük teknoloji şirketlerinden yatırım aldığı iddiaları ortaya atıldı, piyasa değeri 30 milyar dolara ulaşması bekleniyor, Mart ayına göre beş kat artış; başka bir şirket ise yalnızca altı ay içinde ilk finansman turunu hızla tamamladı ve birçok birinci sınıf VC'nin desteklemesiyle piyasa değeri 3 milyar doları geçti.
Büyük model şirketleri, uzun metin teknolojisini aşmak için tüm gücünü topluyor; metinlerin uzunluğunun 100 kat artırılması ne anlama geliyor?
Görünüşte, girilebilen metin uzunluğu giderek artıyor ve okuma yeteneği güçleniyor. Soyut token değerlerini nicelleştirirsek, GPT-3.5'in 4000 token'ı en fazla 3000 İngilizce kelime veya 2000 Çince karakter girebilir; bir WeChat makalesini bile bitirmek zor. 32.000 token'lık GPT-4, bir kısa romanı okuma seviyesine ulaştı; 100.000 token'lık bir ürün yaklaşık 75.000 kelime girebilir ve sadece 22 saniyede "Muhteşem Gatsby" kitabını okuyabilir; 400.000 token'lık bir ürün 200.000 Çince karakter girebilir, bir uzun romanı okumayı destekler.
Öte yandan, uzun metin teknolojisi de büyük modellerin daha derin sanayi uygulamalarını teşvik ediyor; finans, hukuk, araştırma gibi karmaşık alanlarda uzun belge özetleme, okuma anlama, soru-cevap gibi yetenekler temel bir gereklilik olup, akıllı yükseltmelere ihtiyaç duyulan bir eğitim sahasıdır.
Önceki büyük model üreticilerinin "katman" parametrelerine bakarak, büyük model parametrelerinin ne kadar büyük olursa o kadar iyi olmadığı görülüyor. Her firma, büyük model performansının en iyi olduğu "kritik nokta"yı bulmak için parametreleri mümkün olduğunca genişletmeye çalışıyor. Benzer şekilde, model performansını belirleyen bir diğer ölçüt olan metin uzunluğu da, ne kadar uzun olursa o kadar iyi olmadığı anlamına geliyor.
Araştırmalar, büyük modellerin daha uzun bağlam girişlerini destekleyebilmesi ile modelin daha iyi performansı arasında doğrudan bir ilişki olmadığını kanıtlamıştır. Modelin işleyebildiği bağlam uzunluğu gerçekten de anahtar nokta değildir, daha önemli olan modelin bağlam içeriğini nasıl kullandığıdır.
Ancak şu an itibarıyla, yurt içi ve yurt dışındaki metin uzunluğu araştırmaları hala "kritik nokta" durumuna ulaşmış değil. Yurt içi ve yurt dışındaki büyük model şirketleri hala durmaksızın ilerlemeye çalışıyor, 400.000 token belki de sadece bir başlangıç.
Neden uzun metinleri "sarmalamalıyız"?
Bir şirketin kurucusu, teknik araştırma ve geliştirme sürecinde ekiplerinin büyük model giriş uzunluğunun sınırlı olmasının, birçok büyük model uygulamasının hayata geçmesinde yaşanan zorluklara neden olduğunu keşfettiğini belirtti. Bu da, birçok büyük model şirketinin şu anda uzun metin teknolojisine odaklanmasının sebebidir.
Örneğin sanal karakter sahnelerinde, uzun metin yeteneklerinin yetersizliği nedeniyle sanal karakterler önemli bilgileri unutabilir; büyük model bazlı senaryo tabanlı oyunlar geliştirirken, giriş promptunun uzunluğu yeterli değilse, kurallar ve ayarlar azaltılmak zorunda kalınır ve bu da beklenen oyun etkisine ulaşılmasını engeller; hukuk, bankacılık gibi yüksek hassasiyet gerektiren profesyonel alanlarda derin içerik analizi ve üretimi sıklıkla engellenir.
Gelecekteki Agent ve AI yerel uygulamaların yolculuğunda, uzun metinler hala önemli bir rol oynamaktadır; Agent görevlerinin yürütülmesi, yeni planlama ve kararlar almak için tarihsel bilgilere dayanırken, AI yerel uygulamaları, tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama dayanmaktadır.
Kurucu, yazılı, sesli veya video olsun, büyük veri setlerinin kayıpsız sıkıştırmasının yüksek bir zeka seviyesine ulaşabileceğini düşünüyor. "Kaybı olmayan sıkıştırma veya büyük model araştırmalarının ilerlemesi, 'parametreler kraldır' modeliyle aşırı derecede bağımlıydı; bu modelde sıkıştırma oranı doğrudan parametre miktarıyla ilişkilidir. Ancak kayıpsız sıkıştırma oranı veya büyük modellerin üst sınırının, tek adım yeteneği ve yürütme adım sayısı tarafından belirlendiğine inanıyoruz. Burada, tek adım yeteneği ile parametreler arasında pozitif bir ilişki vardır, yürütme adım sayısı ise bağlam uzunluğudur."
Aynı zamanda, gerçekte, trilyon parametreli büyük modellerin bile yanılsama ve saçmalık sorunlarından tamamen kaçınamayacağı kanıtlanmıştır. Kısa metinlere kıyasla, uzun metinler daha fazla bağlam ve ayrıntı bilgisi sağlayarak modelin anlamı değerlendirmesine yardımcı olabilir, böylece belirsizliği daha da azaltır ve sağlanan gerçekler temelinde yapılan çıkarım ve akıl yürütmeler daha kesin hale gelir.
Bu nedenle, uzun metin teknolojisi, büyük modellerin doğuşunun başlangıcında eleştirilen bazı sorunları çözebilir, bazı işlevleri güçlendirebilir ve aynı zamanda mevcut endüstri ve uygulamaların ilerlemesini sağlamak için kritik bir teknoloji haline gelmiştir. Bu durum, genel büyük modellerin gelişiminin yeni bir aşamaya geçtiğini de dolaylı olarak kanıtlamaktadır; LLM'den Long LLM dönemine geçiş.
Belirli bir şirketin yeni çıkardığı ürün aracılığıyla, Long LLM aşamasındaki büyük modelin yükseltme işlevine bir göz atılabilir.
Öncelikle, çok uzun metinlerden anahtar bilgi çıkarma, özetleme ve analiz etme temel işlevleri vardır. Örneğin, bir kamu hesabının bağlantısını girdiğinizde, makalenin genel anlamını hızlı bir şekilde analiz edebilirsiniz; yeni çıkan bir mali rapordan anahtar bilgileri hızla çıkarabilir ve bunları tablo, zihin haritası gibi sade formatlarda sunabilirsiniz; bir kitabın tamamını veya uzmanlık alanına ait yasal metni girdikten sonra, kullanıcılar sorular sorarak etkili bilgilere ulaşabilir.
Kodlama açısından, metinlerin doğrudan koda dönüştürülmesi mümkün hale geliyor, tek yapmanız gereken makaleyi sohbet robotuna bırakmak, bu sayede makalenin kod oluşturma sürecini yeniden üretebilir ve bunun üzerine değişiklikler yapabilirsiniz. Bu, o zamanlar bir şirketin basın toplantısında, taslak oluşturma sitesinin kodunu gösterdiği zamandan çok daha ileri bir adım.
Uzun diyalog senaryolarında, diyalog botları rol yapma yeteneğine de sahip olabilir. Kamu figürlerinin verilerini girerek, tonunu ve karakter özelliklerini ayarlayarak, Jobs ve Musk ile birebir konuşmalar gerçekleştirebiliriz. Yabancı bir büyük model şirketi, benzer bir AI arkadaş uygulaması geliştirmiştir ve mobildeki DAU, tanınmış bir ürünün çok üstünde, 3.61 milyona ulaşmıştır. Bir şirketin sunumunda, sadece bir web sitesi ile sevdiğiniz Genshin Impact karakteriyle sohbet edebilirsiniz.
Yukarıdaki örnekler, basit diyalog döngülerinden uzaklaşarak, ChatGPT gibi diyalog robotlarının uzmanlaşma, kişiselleşme ve derinleşme yönünde bir gelişim gösterdiğini ortak olarak vurgulamaktadır. Bu belki de sanayiyi ve süper uygulamaları hayata geçirmenin bir başka anahtarıdır.
Bir şirketin kurucusu, tanınmış bir şirketin sadece bir ürün ve en ileri çok modlu temel yetenekler sunduğundan farklı olarak, onların hedefinin bir sonraki C-son kullanıcı süper uygulaması olduğunu açıkladı: uzun metin teknolojisini bir atılım olarak kullanarak, bu temel genel modelin üzerine N uygulama türetecekler.
"Yerli büyük model pazarındaki yapı, toB ve toC olarak iki farklı kamp arasında bölünecek. toC kampında, kendi geliştirdikleri modellere dayanan süper uygulamalar ortaya çıkacak." diye belirtti kurucu.
Ancak, mevcut aşamada piyasadaki uzun metinli diyalog sahnelerinde hala büyük bir optimizasyon alanı var. Örneğin, bazıları internete bağlanmayı desteklemiyor, sadece resmi güncellemelerle veritabanını güncelleyerek en son bilgilere ulaşabiliyor; diyalog oluşturma sürecinde duraklatma ve düzenleme yapılamıyor, sadece diyalog bitene kadar beklemek gerekiyor; arka plan bilgileri ve dosya yükleme desteği olsa bile, ara sıra saçmalama ve uydurma durumları ortaya çıkabiliyor.
Uzun Metnin "İmkansız Üçgen" Çelişkisi
Ticaret alanında, fiyat, kalite ve ölçekten oluşan tipik bir "imkansız üçgen" bulunmaktadır; bu üç öğe arasında karşılıklı kısıtlayıcı bir ilişki vardır ve birbirleriyle bir arada elde edilemezler.
Uzun metinler açısından, metin uzunluğu, dikkat ve hesaplama gücü ile benzer bir "imkansız üçgen" de mevcuttur.
Bu, metin ne kadar uzunsa, dikkat toplamanın o kadar zorlaştığı ve tam olarak sindirilmesinin güçleştiği şeklinde kendini gösterir; dikkat kısıtlamaları altında, kısa metinler karmaşık bilgileri tam olarak yorumlayamaz; uzun metinlerin işlenmesi büyük miktarda hesap gücü gerektirir, bu da maliyetleri artırır.
Köklere inmek gerekirse, bunun nedeni şu anda çoğu modelin Transformer yapısına dayalı olmasıdır. Bu yapıda en önemli bileşenlerden biri olan öz-dikkat mekanizması bulunmaktadır. Bu mekanizma sayesinde, diyalog robotları kullanıcı girişi bilgileri sırasının sınırlamalarını aşarak, bilgilerin arasındaki ilişkileri özgürce analiz edebilir.
Ancak bunun getirdiği maliyet, kendine dikkat mekanizmasının hesaplama miktarının bağlam uzunluğunun artmasıyla birlikte kare olarak büyümesidir; örneğin, bağlam 32 kat arttığında, hesaplama miktarı aslında 1000 kat artacaktır.
Bazı yayımlanan makaleler şunu doğruladı: Aşırı uzun bağlam, ilgili bilgilerin oranını önemli ölçüde azaltır ve dikkat dağılmasının kaçınılmaz bir kader haline gelmesine neden olur.
Bu, "imkansız üçgen" içindeki ilk çelişki grubunu oluşturur - metin uzunluğu ile dikkat arasında, aynı zamanda büyük modellerin uzun metin teknolojisinde neden zorlandığını temel bir şekilde açıklar.
"Kapsama" büyük model parametrelerinden günümüze, hesaplama gücü her zaman kıt bir kaynak olmuştur. Tanınmış bir şirketin kurucusu, 32K hizmetlerinin hemen tüm kullanıcılara tamamen açılamayacağını, en büyük kısıtlamanın GPU kıtlığı olduğunu belirtmiştir.
Bu konuda, bir şirketin kurucusu da şunları söyledi: "GPU önemli bir temeldir, ama mesele yalnızca GPU ile ilgili değildir. Burada farklı faktörlerin birleşimi söz konusudur; bir yandan GPU, diğer yandan enerji dönüşümünün akıllı hale gelme verimliliğidir. Verimlilik daha da detaylandırıldığında, algoritma optimizasyonu, mühendislik optimizasyonu, modalite optimizasyonu ve bağlam optimizasyonu gibi unsurları içerebilir."
Daha da önemlisi, büyük modellerin gerçek dağıtım aşamasında, işletmelerin büyük bir hesaplama gücü desteği sağlaması imkânsızdır; bu da tedarikçileri, ister model parametrelerini ister metin uzunluğunu genişletsinler, hesaplama gücüne sıkı sıkıya bağlı kalmaya zorlamaktadır. Ancak mevcut aşamada daha uzun metin teknolojilerini aşmak için daha fazla hesaplama gücü tüketmek zorunda kalındığı için, metin uzunluğu ile hesaplama gücü arasında ikinci bir çelişki grubu oluşmaktadır.
Bir şirketin NLP mühendisi şunları belirtti: "Büyük model uzun metin modellemesi için şu anda bir birleşik çözüm yok, bu sorunun kaynağı Transformer'ın kendine özgü yapısından kaynaklanıyor ve tamamen yeni bir mimari yolda."
Şu anda hem yazılım hem de donanım tasarımında, çoğu Transformer mimarisi etrafında şekilleniyor. Kısa vadede yeni bir mimarinin tamamen devrim yaratması zor, ancak Transformer mimarisi etrafında birkaç optimizasyon çözümü ortaya çıktı.
"Şu anda üç farklı çözüm var: uzun metinleri işlemek için model dışı araçları kullanmak, kendine dikkat mekanizması hesaplamalarını optimize etmek ve model optimizasyonunun genel yöntemlerini kullanmak." dedi mühendis.
Birinci çözüm önerisinin temel düşüncesi, büyük modele "ekstra güç" sağlamaktır. Ana yöntem, uzun metinleri birden fazla kısa metne bölerek işlemektir; model uzun metinleri işlerken, veritabanında kısa metinleri arayacak ve bu şekilde birden fazla kısa metin yanıtından oluşan uzun metni elde edecektir. Her seferinde yalnızca gereken kısa metin parçaları yüklenerek, modelin tüm uzun metni bir seferde okuyamama sorunundan kaçınılmış olur.
İkinci çözüm, şu anda en çok kullanılan yöntemdir ve özünde kendi kendine dikkat hesaplama yönteminin yeniden yapılandırılmasına dayanır. Örneğin, LongLoRA teknolojisinin temelinde uzun metinlerin farklı gruplara ayrılması ve her grupta hesaplamaların yapılması yatmaktadır; böylece her kelime arasındaki ilişkilerin hesaplanmasına gerek kalmadan hesaplama yükü azaltılır ve hız artırılır.
İki model, bir şirketin kurucusu tarafından "arı" modeli olarak adlandırılmıştır; bu model, artırılmış arama ile üretilen veya bağlamın azaltılması yoluyla, bazı girişlerin dikkat mekanizmasını koruyarak uzun metin işleme etkisini gerçekleştirmeyi amaçlamaktadır.
Kurucunun belirttiğine göre, öz dikkat mekanizmasının hesaplamalarını optimize etmenin başka bir yolu daha var, buna "balık modeli" deniyor. Yani, kaydırma penceresi gibi yöntemlerle önceki metni aktif bir şekilde atarak, kullanıcıların en son girdileriyle ilgili yanıt vermeye odaklanmak. Bunu yapmanın avantajları barizdir, ancak belgeler arasında, diyaloglar arasında karşılaştırma ve özetleme analizi yapmak mümkün değildir.
Üçüncü çözüm, modelin optimize edilmesine odaklanmaktır. LongLLaMA, OpenLLaMA-3B ve OpenLLaMA-7B modellerini başlangıç noktası olarak alarak, bunlar üzerinde ince ayar yaparak LONGLLAMAs yeni modelini üretmiştir. Bu model, daha uzun dizilere kolayca genellenebilir; örneğin, 8K token üzerinde eğitilmiş bir model, 256K pencere boyutuna kolayca genellenebilir.
Modelin optimizasyonunun oldukça yaygın bir yolu, parametre sayısını azaltarak (örneğin, yüz milyar parametreye düşürerek) bağlam uzunluğunu artırmaktır. Bu, bir kurucu tarafından "kurbağa yavrusu" modeli olarak adlandırılmıştır. Bu yöntem, modelin kendisinin yeteneklerini azaltacak, daha uzun bağlamları desteklese de görev zorluğu arttığında sorunlar ortaya çıkacaktır.
Uzun metin "