Perang Teknologi Teks Panjang Perusahaan Model Besar
4000 hingga 400.000 token, model besar sedang "memanjang" dengan kecepatan yang "terlihat oleh mata".
Kemampuan teks panjang tampaknya menjadi "standar" baru yang melambangkan langkah produsen model besar.
Di luar negeri, OpenAI telah melakukan tiga kali peningkatan, panjang input konteks GPT-3.5 meningkat dari 4 ribu menjadi 16 ribu token, GPT-4 dari 8 ribu menjadi 32 ribu token; sebuah perusahaan secara sekaligus meningkatkan panjang konteks menjadi 100 ribu token; LongLLaMA telah memperluas panjang konteks hingga 256 ribu token, bahkan lebih.
Di dalam negeri, sebuah perusahaan rintisan model besar meluncurkan produk asisten cerdas yang dapat mendukung input 200.000 karakter Han, sekitar 400.000 token; tim dari Hong Kong Chinese University bekerja sama dengan MIT merilis teknologi baru LongLoRA, yang dapat memperluas panjang teks model 7B hingga 100.000 token, dan panjang teks model 70B hingga 32.000 token.
Saat ini, banyak perusahaan, lembaga, dan tim teknologi model besar terkemuka di dalam dan luar negeri yang menjadikan perluasan panjang konteks sebagai fokus pembaruan dan peningkatan.
Perusahaan atau lembaga model besar di dalam dan luar negeri ini adalah "bintang panas" yang sangat diminati oleh pasar modal. Sebuah perusahaan baru-baru ini sangat mencolok, terus-menerus dilaporkan mendapatkan investasi dari perusahaan teknologi besar, dengan valuasi yang diharapkan mencapai 30 miliar USD, meningkat lima kali lipat dibandingkan Maret; perusahaan lain yang baru berdiri selama enam bulan dengan cepat menyelesaikan putaran pendanaan pertama, mendapatkan dukungan dari beberapa VC terkemuka, dengan valuasi pasar sudah melebihi 300 juta USD.
Perusahaan model besar berusaha keras untuk mengatasi teknologi teks panjang, apa arti dari perpanjangan panjang teks hingga 100 kali lipat?
Secara superficial, tampaknya panjang teks yang dapat dimasukkan semakin panjang, dan kemampuan membaca semakin kuat. Jika nilai token yang abstrak dikuantifikasi, GPT-3.5 dengan 4000 token hanya dapat memasukkan maksimum 3000 kata dalam bahasa Inggris atau 2000 karakter dalam bahasa Mandarin, bahkan sulit untuk menyelesaikan satu artikel publikasi; GPT-4 dengan 32.000 token telah mencapai tingkat membaca sebuah novel pendek; produk tertentu dengan 100.000 token dapat memasukkan sekitar 75.000 kata dan hanya membutuhkan 22 detik untuk membaca satu buku "The Great Gatsby"; produk tertentu dengan 400.000 token mendukung input 200.000 karakter dalam bahasa Mandarin, membaca sebuah karya panjang.
Di sisi lain, teknologi teks panjang juga mendorong penerapan yang lebih dalam dari model besar di industri, dalam bidang-bidang yang kompleks seperti keuangan, peradilan, dan penelitian, kemampuan seperti ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah dasar dan juga merupakan arena yang mendesak untuk peningkatan kecerdasan.
Merujuk pada parameter "gulungan" dari penyedia model besar pada putaran sebelumnya, parameter model besar tidak selalu lebih baik jika semakin besar. Setiap perusahaan berusaha untuk memperluas parameter sebisa mungkin untuk menemukan "titik kritis" di mana performa model besar menjadi optimal. Demikian pula, sebagai indikator lain yang secara bersama-sama menentukan efektivitas model — panjang teks — juga tidak berarti semakin panjang, efektivitas model akan semakin baik.
Penelitian telah membuktikan bahwa tidak ada hubungan langsung antara kemampuan model besar untuk mendukung input konteks yang lebih panjang dan hasil model yang lebih baik. Panjang konteks yang dapat diproses oleh model bukanlah titik kunci yang sebenarnya, melainkan lebih penting bagaimana model menggunakan konten konteks.
Namun, untuk saat ini, eksplorasi panjang teks baik di dalam maupun luar negeri masih jauh dari mencapai status "titik kritis". Perusahaan model besar di dalam dan luar negeri masih terus berupaya untuk menerobos, 400.000 token mungkin masih baru permulaan.
Mengapa "menggulung" teks panjang?
Pendiri suatu perusahaan menyatakan bahwa selama proses penelitian dan pengembangan teknologi, tim mereka menemukan bahwa keterbatasan panjang input model besar adalah penyebab dari banyak kesulitan dalam penerapan model besar, yang juga menjadi alasan mengapa banyak perusahaan model besar saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kemampuan teks yang panjang tidak mencukupi, karakter virtual akan melupakan informasi penting; saat mengembangkan permainan jenis skrip pembunuhan berdasarkan model besar, jika panjang prompt input tidak cukup, maka hanya dapat mengurangi aturan dan pengaturan, sehingga tidak dapat mencapai efek permainan yang diharapkan; dalam bidang profesional presisi tinggi seperti hukum dan perbankan, analisis dan generasi konten mendalam seringkali terhambat.
Dalam perjalanan menuju aplikasi asli Agent dan AI di masa depan, teks panjang tetap memainkan peran penting. Pelaksanaan tugas Agent memerlukan informasi sejarah untuk perencanaan dan pengambilan keputusan baru, sementara aplikasi asli AI memerlukan konteks untuk menjaga pengalaman pengguna yang koheren dan personal.
Pendiri tersebut percaya bahwa baik teks, suara, maupun video, kompresi tanpa kehilangan dari data dalam jumlah besar dapat mencapai tingkat kecerdasan yang tinggi. "Kemajuan dalam kompresi tanpa kehilangan atau penelitian model besar sangat bergantung pada mode 'parameter adalah raja', di mana rasio kompresi terkait langsung dengan jumlah parameter. Namun, kami percaya bahwa batasan rasio kompresi tanpa kehilangan atau model besar ditentukan oleh kemampuan satu langkah dan jumlah langkah yang dieksekusi. Di mana, kemampuan satu langkah berkorelasi positif dengan jumlah parameter, dan jumlah langkah eksekusi adalah panjang konteks."
Pada saat yang sama, fakta telah menunjukkan bahwa bahkan model besar dengan ratusan miliar parameter pun tidak dapat sepenuhnya menghindari masalah ilusi dan omong kosong. Dibandingkan dengan teks pendek, teks panjang dapat membantu model dalam menentukan makna dengan memberikan lebih banyak informasi konteks dan detail, sehingga dapat mengurangi ambiguitas lebih lanjut, dan induksi serta penalaran yang didasarkan pada fakta yang diberikan juga lebih akurat.
Dari sini terlihat bahwa teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah yang dikritik pada awal kelahiran model besar, tetapi juga memperkuat beberapa fungsi. Selain itu, ini juga merupakan teknologi kunci dalam memajukan industri dan penerapan saat ini. Ini juga secara tidak langsung membuktikan bahwa perkembangan model besar umum telah memasuki tahap baru, dari LLM ke era Long LLM.
Melalui produk baru yang dirilis oleh suatu perusahaan, mungkin kita bisa melihat sekilas fungsi upgrade dari model besar Long LLM.
Pertama adalah fungsi dasar untuk mengekstrak, meringkas, dan menganalisis informasi kunci dari teks yang sangat panjang. Misalnya, dengan memasukkan tautan akun publik, dapat dengan cepat menganalisis inti artikel; laporan keuangan yang baru dirilis dapat dengan cepat mengekstrak informasi kunci dan menyajikannya dalam bentuk tabel, peta pikiran, dan bentuk sederhana lainnya; setelah memasukkan buku utuh atau pasal hukum profesional, pengguna dapat mengajukan pertanyaan untuk mendapatkan informasi yang efektif.
Dalam hal kode, teks dapat langsung diubah menjadi kode; cukup dengan memberikan makalah kepada robot percakapan, maka dapat mereproduksi proses pembuatan kode berdasarkan makalah tersebut dan melakukan modifikasi di atasnya. Ini adalah langkah besar dibandingkan dengan saat perusahaan tertentu menunjukkan kode situs web yang dihasilkan dari draf pada konferensi pers.
Dalam skenario percakapan panjang, robot percakapan juga dapat melakukan peran, dengan memasukkan korpus tokoh publik, mengatur nada, dan karakter orang, memungkinkan percakapan satu lawan satu dengan Jobs atau Musk. Sebuah perusahaan model besar luar negeri telah mengembangkan aplikasi pendamping AI serupa, dan DAU di platform mobile jauh lebih tinggi daripada produk terkenal tertentu, mencapai 3,61 juta. Dalam demonstrasi perusahaan tertentu, hanya dengan satu URL, pengguna dapat mengobrol dengan karakter Genshin Impact favorit mereka.
Contoh di atas bersama-sama menunjukkan bahwa terlepas dari siklus dialog yang sederhana, robot dialog seperti ChatGPT sedang menuju arah pengembangan yang profesional, personal, dan mendalam, yang mungkin juga menjadi salah satu cara untuk mendorong penerapan industri dan super APP.
Pendiri sebuah perusahaan mengungkapkan, berbeda dengan perusahaan terkenal yang hanya menyediakan satu produk dan kemampuan multimodal paling canggih, mereka menargetkan super APP C-end berikutnya: dengan teknologi teks panjang sebagai terobosan, untuk mengembangkan N aplikasi berdasarkan model umum dasarnya.
"Pasar model besar domestik akan dibagi menjadi dua kamp yang berbeda, yaitu toB dan toC. Di kamp toC, akan muncul super-app, aplikasi super ini dibangun berdasarkan model yang dikembangkan sendiri." kata pendiri tersebut.
Namun, pada tahap ini, masih ada banyak ruang untuk mengoptimalkan skenario percakapan teks panjang di pasar. Misalnya, ada beberapa yang tidak mendukung koneksi internet dan hanya dapat memperoleh informasi terbaru melalui pembaruan database resmi; selama proses pembuatan percakapan, tidak dapat dijeda atau dimodifikasi, hanya dapat menunggu percakapan selesai; bahkan dengan dukungan latar belakang dan pengunggahan file, terkadang masih muncul kebohongan dan penciptaan informasi yang tidak berdasar.
Dilema "segitiga tak mungkin" dari teks panjang
Dalam bidang bisnis terdapat satu set "segitiga tidak mungkin" yang khas antara harga, kualitas, dan skala, di mana ketiganya saling membatasi dan tidak dapat dicapai secara bersamaan.
Dalam hal teks panjang, juga ada "segitiga tak mungkin" yang mirip dengan panjang teks, perhatian, dan daya komputasi.
Ini ditunjukkan bahwa semakin panjang teks, semakin sulit untuk mengumpulkan perhatian yang cukup dan sulit untuk mencerna secara lengkap; di bawah batasan perhatian, teks pendek tidak dapat sepenuhnya menginterpretasikan informasi yang kompleks; memproses teks panjang memerlukan daya komputasi yang besar, meningkatkan biaya.
Menelusuri akar masalah, pada dasarnya ini karena sebagian besar model saat ini didasarkan pada struktur Transformer. Struktur tersebut mencakup salah satu komponen terpenting yaitu mekanisme perhatian diri, di mana dalam mekanisme ini, robot percakapan dapat melampaui batasan urutan informasi yang dimasukkan oleh pengguna dan dengan bebas menganalisis hubungan antar informasi.
Namun, biaya yang ditimbulkan adalah bahwa jumlah perhitungan dari mekanisme perhatian diri akan meningkat secara kuadrat seiring dengan bertambahnya panjang konteks. Misalnya, ketika konteks meningkat 32 kali, jumlah perhitungannya sebenarnya akan meningkat 1000 kali.
Beberapa makalah yang diterbitkan memberikan bukti: konteks yang terlalu panjang akan membuat proporsi informasi yang relevan menurun secara signifikan, dan perhatian yang teralihkan tampaknya menjadi nasib yang tak terhindarkan.
Ini membentuk kelompok kontradiksi pertama dalam "segitiga ketidakmungkinan" — panjang teks dan perhatian, dan juga secara fundamental menjelaskan alasan mengapa teknologi teks panjang model besar sulit untuk terobosan.
Sejak parameter model besar "roll" hingga sekarang, daya komputasi selalu menjadi sumber daya yang langka. Seorang pendiri perusahaan terkenal pernah menyatakan bahwa layanan 32K mereka tidak dapat segera dibuka sepenuhnya untuk semua pengguna, batasan terbesar adalah kekurangan GPU.
Terkait hal ini, pendiri suatu perusahaan juga menyatakan: "GPU adalah dasar yang penting, tetapi bukan hanya masalah GPU. Ini adalah kombinasi dari berbagai faktor, di satu sisi adalah GPU, di sisi lain adalah efisiensi konversi energi menjadi kecerdasan. Efisiensi yang lebih lanjut dapat mencakup optimasi algoritma, optimasi rekayasa, optimasi modal, serta optimasi konteks, dan sebagainya."
Yang lebih penting, dalam tahap penerapan model besar, perusahaan sama sekali tidak dapat memberikan dukungan daya komputasi yang besar, yang memaksa penyedia untuk tetap menjaga batas daya komputasi baik dalam memperluas parameter model maupun panjang teks. Namun, pada tahap ini, untuk dapat melampaui teknologi teks yang lebih panjang, harus mengkonsumsi lebih banyak daya komputasi, sehingga terbentuklah kelompok kontradiksi kedua antara panjang teks dan daya komputasi.
Seorang insinyur NLP dari sebuah perusahaan menyatakan: "Model besar untuk pemodelan teks panjang saat ini belum memiliki solusi yang seragam, dan penyebab kebingungan berasal dari struktur Transformer itu sendiri, sementara arsitektur yang sepenuhnya baru sudah dalam perjalanan."
Saat ini, baik dari segi perangkat lunak maupun desain perangkat keras, sebagian besar dibangun di sekitar arsitektur Transformer. Dalam waktu singkat, arsitektur baru sulit untuk sepenuhnya menggantikan, tetapi telah muncul beberapa solusi optimasi yang mengelilingi arsitektur Transformer.
"Saat ini, ada tiga solusi berbeda yang utama, yaitu memanfaatkan alat eksternal untuk membantu memproses teks panjang, mengoptimalkan perhitungan mekanisme perhatian diri, dan menggunakan metode optimasi umum model." kata insinyur tersebut.
Inti pemikiran dari solusi pertama adalah memberikan "modifikasi" pada model besar. Metode utamanya adalah membagi teks panjang menjadi beberapa teks pendek untuk diproses. Saat model memproses teks panjang, ia akan mencari teks pendek dalam database untuk mendapatkan jawaban dari beberapa teks pendek yang membentuk teks panjang. Setiap kali hanya memuat potongan teks pendek yang diperlukan, sehingga menghindari masalah di mana model tidak dapat membaca seluruh teks panjang sekaligus.
Solusi kedua adalah metode yang paling banyak digunakan saat ini, dengan inti utama pada membangun kembali cara perhitungan self-attention. Misalnya, inti dari teknologi LongLoRA adalah membagi teks panjang menjadi kelompok yang berbeda, melakukan perhitungan di setiap kelompok, tanpa perlu menghitung hubungan antara setiap kata, sehingga mengurangi beban perhitungan dan meningkatkan kecepatan.
Dua model pertama juga disebut sebagai model "bee" oleh pendiri suatu perusahaan, yaitu dengan mempertahankan mekanisme perhatian terhadap sebagian input melalui pengurangan sampel dari konteks atau generasi yang diperkuat pencarian, untuk mencapai efek pemrosesan teks panjang.
Menurut pendiri tersebut, ada satu cara lain untuk mengoptimalkan perhitungan mekanisme perhatian diri, yang juga disebut sebagai model "ikan mas". Yaitu dengan secara aktif membuang konteks sebelumnya melalui metode seperti jendela geser, untuk fokus pada respons terhadap informasi terbaru yang dimasukkan oleh pengguna. Kelebihan dari pendekatan ini jelas, tetapi tidak dapat digunakan untuk membandingkan dan menganalisis ringkasan antar dokumen dan antar percakapan.
Solusi ketiga adalah fokus pada optimasi model. Seperti LongLLaMA yang mengambil model OpenLLaMA-3B dan OpenLLaMA-7B sebagai titik awal, kemudian melakukan fine-tuning untuk menghasilkan model baru LONGLLAMAs. Model ini mudah diekstrapolasi ke urutan yang lebih panjang, misalnya model yang dilatih pada 8K token dapat dengan mudah diekstrapolasi ke ukuran jendela 256K.
Salah satu cara yang cukup umum untuk mengoptimalkan model adalah dengan mengurangi jumlah parameter (misalnya mengurangi menjadi puluhan miliar parameter) untuk meningkatkan panjang konteks, yang disebut oleh salah satu pendiri sebagai model "kecebong". Metode ini akan mengurangi kemampuan model itu sendiri, meskipun dapat mendukung konteks yang lebih panjang, tetapi ketika kesulitan tugas meningkat, masalah akan muncul.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
12 Suka
Hadiah
12
4
Posting ulang
Bagikan
Komentar
0/400
SleepTrader
· 08-12 16:46
Mengejar data sambil berinvestasi momentum
Lihat AsliBalas0
MEVictim
· 08-12 06:22
Panjang berubah dengan cepat, produsen chip tersenyum.
Perang teknologi teks panjang Perusahaan model besar memperluas kemampuan konteks
Perang Teknologi Teks Panjang Perusahaan Model Besar
4000 hingga 400.000 token, model besar sedang "memanjang" dengan kecepatan yang "terlihat oleh mata".
Kemampuan teks panjang tampaknya menjadi "standar" baru yang melambangkan langkah produsen model besar.
Di luar negeri, OpenAI telah melakukan tiga kali peningkatan, panjang input konteks GPT-3.5 meningkat dari 4 ribu menjadi 16 ribu token, GPT-4 dari 8 ribu menjadi 32 ribu token; sebuah perusahaan secara sekaligus meningkatkan panjang konteks menjadi 100 ribu token; LongLLaMA telah memperluas panjang konteks hingga 256 ribu token, bahkan lebih.
Di dalam negeri, sebuah perusahaan rintisan model besar meluncurkan produk asisten cerdas yang dapat mendukung input 200.000 karakter Han, sekitar 400.000 token; tim dari Hong Kong Chinese University bekerja sama dengan MIT merilis teknologi baru LongLoRA, yang dapat memperluas panjang teks model 7B hingga 100.000 token, dan panjang teks model 70B hingga 32.000 token.
Saat ini, banyak perusahaan, lembaga, dan tim teknologi model besar terkemuka di dalam dan luar negeri yang menjadikan perluasan panjang konteks sebagai fokus pembaruan dan peningkatan.
Perusahaan atau lembaga model besar di dalam dan luar negeri ini adalah "bintang panas" yang sangat diminati oleh pasar modal. Sebuah perusahaan baru-baru ini sangat mencolok, terus-menerus dilaporkan mendapatkan investasi dari perusahaan teknologi besar, dengan valuasi yang diharapkan mencapai 30 miliar USD, meningkat lima kali lipat dibandingkan Maret; perusahaan lain yang baru berdiri selama enam bulan dengan cepat menyelesaikan putaran pendanaan pertama, mendapatkan dukungan dari beberapa VC terkemuka, dengan valuasi pasar sudah melebihi 300 juta USD.
Perusahaan model besar berusaha keras untuk mengatasi teknologi teks panjang, apa arti dari perpanjangan panjang teks hingga 100 kali lipat?
Secara superficial, tampaknya panjang teks yang dapat dimasukkan semakin panjang, dan kemampuan membaca semakin kuat. Jika nilai token yang abstrak dikuantifikasi, GPT-3.5 dengan 4000 token hanya dapat memasukkan maksimum 3000 kata dalam bahasa Inggris atau 2000 karakter dalam bahasa Mandarin, bahkan sulit untuk menyelesaikan satu artikel publikasi; GPT-4 dengan 32.000 token telah mencapai tingkat membaca sebuah novel pendek; produk tertentu dengan 100.000 token dapat memasukkan sekitar 75.000 kata dan hanya membutuhkan 22 detik untuk membaca satu buku "The Great Gatsby"; produk tertentu dengan 400.000 token mendukung input 200.000 karakter dalam bahasa Mandarin, membaca sebuah karya panjang.
Di sisi lain, teknologi teks panjang juga mendorong penerapan yang lebih dalam dari model besar di industri, dalam bidang-bidang yang kompleks seperti keuangan, peradilan, dan penelitian, kemampuan seperti ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah dasar dan juga merupakan arena yang mendesak untuk peningkatan kecerdasan.
Merujuk pada parameter "gulungan" dari penyedia model besar pada putaran sebelumnya, parameter model besar tidak selalu lebih baik jika semakin besar. Setiap perusahaan berusaha untuk memperluas parameter sebisa mungkin untuk menemukan "titik kritis" di mana performa model besar menjadi optimal. Demikian pula, sebagai indikator lain yang secara bersama-sama menentukan efektivitas model — panjang teks — juga tidak berarti semakin panjang, efektivitas model akan semakin baik.
Penelitian telah membuktikan bahwa tidak ada hubungan langsung antara kemampuan model besar untuk mendukung input konteks yang lebih panjang dan hasil model yang lebih baik. Panjang konteks yang dapat diproses oleh model bukanlah titik kunci yang sebenarnya, melainkan lebih penting bagaimana model menggunakan konten konteks.
Namun, untuk saat ini, eksplorasi panjang teks baik di dalam maupun luar negeri masih jauh dari mencapai status "titik kritis". Perusahaan model besar di dalam dan luar negeri masih terus berupaya untuk menerobos, 400.000 token mungkin masih baru permulaan.
Mengapa "menggulung" teks panjang?
Pendiri suatu perusahaan menyatakan bahwa selama proses penelitian dan pengembangan teknologi, tim mereka menemukan bahwa keterbatasan panjang input model besar adalah penyebab dari banyak kesulitan dalam penerapan model besar, yang juga menjadi alasan mengapa banyak perusahaan model besar saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kemampuan teks yang panjang tidak mencukupi, karakter virtual akan melupakan informasi penting; saat mengembangkan permainan jenis skrip pembunuhan berdasarkan model besar, jika panjang prompt input tidak cukup, maka hanya dapat mengurangi aturan dan pengaturan, sehingga tidak dapat mencapai efek permainan yang diharapkan; dalam bidang profesional presisi tinggi seperti hukum dan perbankan, analisis dan generasi konten mendalam seringkali terhambat.
Dalam perjalanan menuju aplikasi asli Agent dan AI di masa depan, teks panjang tetap memainkan peran penting. Pelaksanaan tugas Agent memerlukan informasi sejarah untuk perencanaan dan pengambilan keputusan baru, sementara aplikasi asli AI memerlukan konteks untuk menjaga pengalaman pengguna yang koheren dan personal.
Pendiri tersebut percaya bahwa baik teks, suara, maupun video, kompresi tanpa kehilangan dari data dalam jumlah besar dapat mencapai tingkat kecerdasan yang tinggi. "Kemajuan dalam kompresi tanpa kehilangan atau penelitian model besar sangat bergantung pada mode 'parameter adalah raja', di mana rasio kompresi terkait langsung dengan jumlah parameter. Namun, kami percaya bahwa batasan rasio kompresi tanpa kehilangan atau model besar ditentukan oleh kemampuan satu langkah dan jumlah langkah yang dieksekusi. Di mana, kemampuan satu langkah berkorelasi positif dengan jumlah parameter, dan jumlah langkah eksekusi adalah panjang konteks."
Pada saat yang sama, fakta telah menunjukkan bahwa bahkan model besar dengan ratusan miliar parameter pun tidak dapat sepenuhnya menghindari masalah ilusi dan omong kosong. Dibandingkan dengan teks pendek, teks panjang dapat membantu model dalam menentukan makna dengan memberikan lebih banyak informasi konteks dan detail, sehingga dapat mengurangi ambiguitas lebih lanjut, dan induksi serta penalaran yang didasarkan pada fakta yang diberikan juga lebih akurat.
Dari sini terlihat bahwa teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah yang dikritik pada awal kelahiran model besar, tetapi juga memperkuat beberapa fungsi. Selain itu, ini juga merupakan teknologi kunci dalam memajukan industri dan penerapan saat ini. Ini juga secara tidak langsung membuktikan bahwa perkembangan model besar umum telah memasuki tahap baru, dari LLM ke era Long LLM.
Melalui produk baru yang dirilis oleh suatu perusahaan, mungkin kita bisa melihat sekilas fungsi upgrade dari model besar Long LLM.
Pertama adalah fungsi dasar untuk mengekstrak, meringkas, dan menganalisis informasi kunci dari teks yang sangat panjang. Misalnya, dengan memasukkan tautan akun publik, dapat dengan cepat menganalisis inti artikel; laporan keuangan yang baru dirilis dapat dengan cepat mengekstrak informasi kunci dan menyajikannya dalam bentuk tabel, peta pikiran, dan bentuk sederhana lainnya; setelah memasukkan buku utuh atau pasal hukum profesional, pengguna dapat mengajukan pertanyaan untuk mendapatkan informasi yang efektif.
Dalam hal kode, teks dapat langsung diubah menjadi kode; cukup dengan memberikan makalah kepada robot percakapan, maka dapat mereproduksi proses pembuatan kode berdasarkan makalah tersebut dan melakukan modifikasi di atasnya. Ini adalah langkah besar dibandingkan dengan saat perusahaan tertentu menunjukkan kode situs web yang dihasilkan dari draf pada konferensi pers.
Dalam skenario percakapan panjang, robot percakapan juga dapat melakukan peran, dengan memasukkan korpus tokoh publik, mengatur nada, dan karakter orang, memungkinkan percakapan satu lawan satu dengan Jobs atau Musk. Sebuah perusahaan model besar luar negeri telah mengembangkan aplikasi pendamping AI serupa, dan DAU di platform mobile jauh lebih tinggi daripada produk terkenal tertentu, mencapai 3,61 juta. Dalam demonstrasi perusahaan tertentu, hanya dengan satu URL, pengguna dapat mengobrol dengan karakter Genshin Impact favorit mereka.
Contoh di atas bersama-sama menunjukkan bahwa terlepas dari siklus dialog yang sederhana, robot dialog seperti ChatGPT sedang menuju arah pengembangan yang profesional, personal, dan mendalam, yang mungkin juga menjadi salah satu cara untuk mendorong penerapan industri dan super APP.
Pendiri sebuah perusahaan mengungkapkan, berbeda dengan perusahaan terkenal yang hanya menyediakan satu produk dan kemampuan multimodal paling canggih, mereka menargetkan super APP C-end berikutnya: dengan teknologi teks panjang sebagai terobosan, untuk mengembangkan N aplikasi berdasarkan model umum dasarnya.
"Pasar model besar domestik akan dibagi menjadi dua kamp yang berbeda, yaitu toB dan toC. Di kamp toC, akan muncul super-app, aplikasi super ini dibangun berdasarkan model yang dikembangkan sendiri." kata pendiri tersebut.
Namun, pada tahap ini, masih ada banyak ruang untuk mengoptimalkan skenario percakapan teks panjang di pasar. Misalnya, ada beberapa yang tidak mendukung koneksi internet dan hanya dapat memperoleh informasi terbaru melalui pembaruan database resmi; selama proses pembuatan percakapan, tidak dapat dijeda atau dimodifikasi, hanya dapat menunggu percakapan selesai; bahkan dengan dukungan latar belakang dan pengunggahan file, terkadang masih muncul kebohongan dan penciptaan informasi yang tidak berdasar.
Dilema "segitiga tak mungkin" dari teks panjang
Dalam bidang bisnis terdapat satu set "segitiga tidak mungkin" yang khas antara harga, kualitas, dan skala, di mana ketiganya saling membatasi dan tidak dapat dicapai secara bersamaan.
Dalam hal teks panjang, juga ada "segitiga tak mungkin" yang mirip dengan panjang teks, perhatian, dan daya komputasi.
Ini ditunjukkan bahwa semakin panjang teks, semakin sulit untuk mengumpulkan perhatian yang cukup dan sulit untuk mencerna secara lengkap; di bawah batasan perhatian, teks pendek tidak dapat sepenuhnya menginterpretasikan informasi yang kompleks; memproses teks panjang memerlukan daya komputasi yang besar, meningkatkan biaya.
Menelusuri akar masalah, pada dasarnya ini karena sebagian besar model saat ini didasarkan pada struktur Transformer. Struktur tersebut mencakup salah satu komponen terpenting yaitu mekanisme perhatian diri, di mana dalam mekanisme ini, robot percakapan dapat melampaui batasan urutan informasi yang dimasukkan oleh pengguna dan dengan bebas menganalisis hubungan antar informasi.
Namun, biaya yang ditimbulkan adalah bahwa jumlah perhitungan dari mekanisme perhatian diri akan meningkat secara kuadrat seiring dengan bertambahnya panjang konteks. Misalnya, ketika konteks meningkat 32 kali, jumlah perhitungannya sebenarnya akan meningkat 1000 kali.
Beberapa makalah yang diterbitkan memberikan bukti: konteks yang terlalu panjang akan membuat proporsi informasi yang relevan menurun secara signifikan, dan perhatian yang teralihkan tampaknya menjadi nasib yang tak terhindarkan.
Ini membentuk kelompok kontradiksi pertama dalam "segitiga ketidakmungkinan" — panjang teks dan perhatian, dan juga secara fundamental menjelaskan alasan mengapa teknologi teks panjang model besar sulit untuk terobosan.
Sejak parameter model besar "roll" hingga sekarang, daya komputasi selalu menjadi sumber daya yang langka. Seorang pendiri perusahaan terkenal pernah menyatakan bahwa layanan 32K mereka tidak dapat segera dibuka sepenuhnya untuk semua pengguna, batasan terbesar adalah kekurangan GPU.
Terkait hal ini, pendiri suatu perusahaan juga menyatakan: "GPU adalah dasar yang penting, tetapi bukan hanya masalah GPU. Ini adalah kombinasi dari berbagai faktor, di satu sisi adalah GPU, di sisi lain adalah efisiensi konversi energi menjadi kecerdasan. Efisiensi yang lebih lanjut dapat mencakup optimasi algoritma, optimasi rekayasa, optimasi modal, serta optimasi konteks, dan sebagainya."
Yang lebih penting, dalam tahap penerapan model besar, perusahaan sama sekali tidak dapat memberikan dukungan daya komputasi yang besar, yang memaksa penyedia untuk tetap menjaga batas daya komputasi baik dalam memperluas parameter model maupun panjang teks. Namun, pada tahap ini, untuk dapat melampaui teknologi teks yang lebih panjang, harus mengkonsumsi lebih banyak daya komputasi, sehingga terbentuklah kelompok kontradiksi kedua antara panjang teks dan daya komputasi.
Seorang insinyur NLP dari sebuah perusahaan menyatakan: "Model besar untuk pemodelan teks panjang saat ini belum memiliki solusi yang seragam, dan penyebab kebingungan berasal dari struktur Transformer itu sendiri, sementara arsitektur yang sepenuhnya baru sudah dalam perjalanan."
Saat ini, baik dari segi perangkat lunak maupun desain perangkat keras, sebagian besar dibangun di sekitar arsitektur Transformer. Dalam waktu singkat, arsitektur baru sulit untuk sepenuhnya menggantikan, tetapi telah muncul beberapa solusi optimasi yang mengelilingi arsitektur Transformer.
"Saat ini, ada tiga solusi berbeda yang utama, yaitu memanfaatkan alat eksternal untuk membantu memproses teks panjang, mengoptimalkan perhitungan mekanisme perhatian diri, dan menggunakan metode optimasi umum model." kata insinyur tersebut.
Inti pemikiran dari solusi pertama adalah memberikan "modifikasi" pada model besar. Metode utamanya adalah membagi teks panjang menjadi beberapa teks pendek untuk diproses. Saat model memproses teks panjang, ia akan mencari teks pendek dalam database untuk mendapatkan jawaban dari beberapa teks pendek yang membentuk teks panjang. Setiap kali hanya memuat potongan teks pendek yang diperlukan, sehingga menghindari masalah di mana model tidak dapat membaca seluruh teks panjang sekaligus.
Solusi kedua adalah metode yang paling banyak digunakan saat ini, dengan inti utama pada membangun kembali cara perhitungan self-attention. Misalnya, inti dari teknologi LongLoRA adalah membagi teks panjang menjadi kelompok yang berbeda, melakukan perhitungan di setiap kelompok, tanpa perlu menghitung hubungan antara setiap kata, sehingga mengurangi beban perhitungan dan meningkatkan kecepatan.
Dua model pertama juga disebut sebagai model "bee" oleh pendiri suatu perusahaan, yaitu dengan mempertahankan mekanisme perhatian terhadap sebagian input melalui pengurangan sampel dari konteks atau generasi yang diperkuat pencarian, untuk mencapai efek pemrosesan teks panjang.
Menurut pendiri tersebut, ada satu cara lain untuk mengoptimalkan perhitungan mekanisme perhatian diri, yang juga disebut sebagai model "ikan mas". Yaitu dengan secara aktif membuang konteks sebelumnya melalui metode seperti jendela geser, untuk fokus pada respons terhadap informasi terbaru yang dimasukkan oleh pengguna. Kelebihan dari pendekatan ini jelas, tetapi tidak dapat digunakan untuk membandingkan dan menganalisis ringkasan antar dokumen dan antar percakapan.
Solusi ketiga adalah fokus pada optimasi model. Seperti LongLLaMA yang mengambil model OpenLLaMA-3B dan OpenLLaMA-7B sebagai titik awal, kemudian melakukan fine-tuning untuk menghasilkan model baru LONGLLAMAs. Model ini mudah diekstrapolasi ke urutan yang lebih panjang, misalnya model yang dilatih pada 8K token dapat dengan mudah diekstrapolasi ke ukuran jendela 256K.
Salah satu cara yang cukup umum untuk mengoptimalkan model adalah dengan mengurangi jumlah parameter (misalnya mengurangi menjadi puluhan miliar parameter) untuk meningkatkan panjang konteks, yang disebut oleh salah satu pendiri sebagai model "kecebong". Metode ini akan mengurangi kemampuan model itu sendiri, meskipun dapat mendukung konteks yang lebih panjang, tetapi ketika kesulitan tugas meningkat, masalah akan muncul.
Teks panjangnya"