معركة التكنولوجيا للنصوص الطويلة بين شركات النماذج الكبيرة
من 4000 إلى 400000 توكن، النموذج الكبير يتغير بشكل "مرئي" بسرعة متزايدة.
يبدو أن قدرة النص الطويل أصبحت رمزا جديدا "للإعداد القياسي" الذي يقدمه مصنعو النماذج الكبيرة.
في الخارج، قامت OpenAI بثلاث ترقيات، حيث زاد طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، وزاد لـ GPT-4 من 8000 إلى 32000 توكن؛ شركة معينة رفعت طول السياق مرة واحدة إلى 100000 توكن؛ ووسعت LongLLaMA طول السياق إلى 256000 توكن، وحتى أكثر.
في البلاد، أصدرت إحدى شركات النماذج الكبيرة الناشئة منتج مساعد ذكي يدعم إدخال 200,000 حرف صيني، وهو ما يعادل حوالي 400,000 توكن؛ فريق جامعة هونغ كونغ الصينية بالتعاون مع MIT أطلق تقنية جديدة تُدعى LongLoRA، والتي يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، وطول النص لنموذج 70B إلى 32,000 توكن.
في الوقت الحالي، هناك مجموعة كبيرة من شركات التكنولوجيا والنماذج الكبرى الرائدة، والمؤسسات، والفرق المحلية والأجنبية التي تركز على توسيع طول السياق كأحد أولويات التحديث والتطوير.
تعتبر هذه الشركات أو المؤسسات الكبرى في الداخل والخارج من "الأبطال الساخنين" الذين يحظون بشغف سوق المال. إحدى الشركات حققت نجاحًا كبيرًا مؤخرًا، حيث تم الكشف عن حصولها على استثمارات من شركات تكنولوجيا كبيرة، ومن المتوقع أن تصل قيمتها إلى 30 مليار دولار، وهو ما يزيد خمس مرات عن قيمتها في مارس؛ بينما شركة أخرى، تأسست منذ ستة أشهر فقط، أكملت بسرعة جولتها الأولى من التمويل، وحصلت على دعم من العديد من شركات رأس المال المغامر الرائدة، وقد تجاوزت قيمتها السوقية 300 مليون دولار.
ما الذي يعنيه توسيع طول النصوص بمقدار 100 مرة من قبل شركات النماذج الكبيرة؟
من السطح، يبدو أن طول النص القابل للإدخال يتزايد، وتزداد القدرة على القراءة. إذا قمنا بتكميم القيمة المجردة للتوكين، يمكن لـ GPT-3.5 إدخال 3000 كلمة إنجليزية أو 2000 حرف صيني كحد أقصى من أصل 4000 توكن، مما يجعل من الصعب حتى قراءة مقال واحد في حساب رسمي؛ بينما تمكن GPT-4 الذي يحتوي على 32,000 توكن من الوصول إلى مستوى قراءة قصة قصيرة؛ ومنتج يحتوي على 100,000 توكن يمكنه إدخال حوالي 75,000 كلمة، ويمكن قراءة كتاب "غاتسبي العظيم" خلال 22 ثانية فقط؛ ومنتج يحتوي على 400,000 توكن يدعم إدخال 200,000 حرف صيني، مما يسمح بقراءة عمل طويل.
من ناحية أخرى، فإن تقنيات النصوص الطويلة تدفع أيضًا إلى توطين نماذج أكبر في الصناعات بشكل أعمق، وفي مجالات مثل المالية، والعدالة، والبحث العلمي، تعتبر قدرات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة أساسية، كما أنها ساحة تدريب بحاجة ماسة إلى ترقية ذكية.
بالاستناد إلى معايير "اللف" للدوائر الكبيرة السابقة، فإن حجم نموذج الدائرة الكبيرة ليس بالضرورة كلما كان أكبر كان أفضل، حيث تحاول كل شركة توسيع حجم النموذج إلى أقصى حد ممكن من أجل إيجاد "نقطة الحرجة" التي تحقق الأداء الأمثل للنموذج. وبالمثل، كمعيار آخر يحدد فعالية النموذج - طول النص، ليس كلما كان أطول كان أداء النموذج أفضل.
لقد أثبتت الأبحاث أن النماذج الكبيرة لا يمكن أن تُرسم على أنها تعني بالضرورة وجود علاقة مباشرة بين دعمها لسياقات أطول وتحسين أداء النموذج. إن طول السياق الذي يمكن للنموذج التعامل معه ليس هو النقطة الحاسمة، بل الأهم هو كيفية استخدام النموذج لمحتوى السياق.
ومع ذلك، في الوقت الحالي، لا يزال الاستكشاف حول طول النصوص في الداخل والخارج بعيدًا عن الوصول إلى حالة "نقطة حرجة". لا تزال شركات النماذج الكبيرة في الداخل والخارج تسعى بلا هوادة لتحقيق突破، وقد تكون 400000 توكن مجرد بداية.
لماذا "تدور" النصوص الطويلة؟
قال مؤسس إحدى الشركات إن فريقه اكتشف أثناء عملية البحث والتطوير التقنية أن القيود المفروضة على طول مدخلات النماذج الكبيرة هي السبب وراء العديد من الصعوبات التي تواجه تطبيقات النماذج الكبيرة، وهذا هو السبب وراء تركيز العديد من شركات النماذج الكبيرة على تقنية النصوص الطويلة في الوقت الحالي.
على سبيل المثال، في سيناريوهات الشخصيات الافتراضية، بسبب عدم كفاية القدرة على التعامل مع النصوص الطويلة، قد تنسى الشخصيات الافتراضية معلومات مهمة؛ عند تطوير ألعاب القتل بالسيناريوهات استنادًا إلى نماذج كبيرة، إذا كان طول الإدخال غير كافٍ، فسيكون من الضروري تقليل القواعد والإعدادات، مما يجعل من المستحيل تحقيق التأثيرات المتوقعة للعبة؛ في المجالات المهنية عالية الدقة مثل القانون والبنوك، غالبًا ما تتعرض التحليلات العميقة للمحتوى والتوليد للإحباط.
في الطريق نحو التطبيقات الأصلية للوكيل والذكاء الاصطناعي في المستقبل، لا يزال للنصوص الطويلة دور مهم. تعتمد مهام الوكيل على المعلومات التاريخية لإجراء تخطيط وقرارات جديدة، بينما تحتاج التطبيقات الأصلية للذكاء الاصطناعي إلى الاعتماد على السياق للحفاظ على تجربة مستخدم متماسكة وشخصية.
يعتقد المؤسس أنه يمكن تحقيق مستوى عالٍ من الذكاء من خلال الضغط غير المفقود للبيانات الضخمة، سواء كان ذلك نصًا أو صوتًا أو فيديو. "لقد اعتمدت التقدم في ضغط البيانات غير المفقود أو أبحاث النماذج الكبيرة بشدة على نموذج 'البارامترات هي الملك'، حيث يرتبط معدل الضغط مباشرة بكمية البارامترات. لكننا نعتقد أن الحد الأقصى لمعدل الضغط غير المفقود أو النماذج الكبيرة تحدده القدرة على الخطوة الواحدة وعدد الخطوات التنفيذية معًا. حيث ترتبط القدرة على الخطوة الواحدة إيجابيًا بكمية البارامترات، بينما يمثل عدد الخطوات التنفيذية طول السياق."
في الوقت نفسه، أثبتت الحقائق أنه حتى النماذج الكبيرة التي تحتوي على مئات المليارات من المعلمات لا يمكنها تجنب مشاكل الوهم والهراء بالكامل. مقارنة بالنصوص القصيرة، يمكن للنصوص الطويلة أن تساعد النموذج في الحكم على المعنى من خلال توفير المزيد من المعلومات السياقية والتفصيلية، مما يقلل من الغموض، كما أن الاستنتاج والاستدلال المبني على الحقائق المقدمة يكون أكثر دقة.
من هنا، يتضح أن تقنية النصوص الطويلة يمكن أن تحل بعض المشكلات التي تم انتقاد النماذج الكبيرة في بدايتها، وتعزز بعض الوظائف، وفي نفس الوقت تعتبر جزءًا أساسيًا من推进 الصناعة وتطبيقاتها الحالية، وهذا يثبت بشكل غير مباشر أن تطوير النماذج الكبيرة العامة قد دخل مرحلة جديدة، من LLM إلى عصر Long LLM.
من خلال المنتج الجديد الذي أطلقته إحدى الشركات، قد نتمكن من إلقاء نظرة على ميزات الترقية لنموذج Long LLM في مرحلته.
أولاً، هو الوظيفة الأساسية لاستخراج، تلخيص وتحليل المعلومات الرئيسية من النصوص الطويلة جداً. على سبيل المثال، يمكن تحليل محتوى المقالة بسرعة عند إدخال رابط الحساب الرسمي؛ يمكن استخراج المعلومات الرئيسية بسرعة من التقارير المالية الجديدة، وتقديمها بشكل مبسط مثل الجداول أو الخرائط الذهنية؛ بعد إدخال كتاب كامل أو نصوص قانونية متخصصة، يمكن للمستخدم الحصول على معلومات فعالة من خلال طرح الأسئلة.
في مجال البرمجة، يمكن تحويل النص مباشرة إلى كود، فقط قم بإلقاء البحث على روبوت الدردشة، وسيقوم بإعادة إنتاج عملية توليد الكود بناءً على البحث، ويمكنه إجراء تعديلات بناءً على ذلك، وهذا يعد خطوة كبيرة مقارنةً بالعرض الذي قدمته إحدى الشركات في مؤتمرها عندما عرضت توليد كود موقع ويب من مسودة.
في سيناريوهات الحوار الطويلة، يمكن لروبوتات المحادثة أيضًا تحقيق تمثيل الأدوار، من خلال إدخال نصوص شخصيات عامة، وضبط النغمة، وشخصية الشخصية، يمكن تحقيق محادثة فردية مع ستيف جوبز وإيلون ماسك. وقد طورت إحدى الشركات الكبرى في الخارج تطبيق رفيق ذكاء اصطناعي مشابه، حيث أن عدد المستخدمين اليومي على الهواتف المحمولة أعلى بكثير من منتج معروف، حيث وصل إلى 3.61 مليون. في عرض تقديمي لشركة معينة، يكفي وجود عنوان ويب واحد للدردشة مع شخصية جينشين التي تحبها.
توضح الأمثلة المذكورة أعلاه أنه بعيدًا عن دورات الحوار البسيطة، تتجه روبوتات المحادثة مثل ChatGPT نحو التخصص، والتخصيص، والتعمق، وقد تكون هذه أيضًا إحدى الأدوات التي تفتح الطريق للصناعة وتطبيقات السوبر.
كشف مؤسس شركة معينة أن، على عكس شركة معروفة تقدم منتجًا واحدًا فقط وأحدث قدرات متعددة النماذج، فإنهم يستهدفون تطبيق C النهائي التالي: مع تحقيق اختراق في تقنية النصوص الطويلة، سيتم تفريع N تطبيقات على أساس نموذجهم العام الأساسي.
"سوف ينقسم نمط سوق النماذج الكبيرة المحلية إلى معسكرين مختلفين: toB و toC. في معسكر toC، ستظهر التطبيقات الفائقة، وهذه التطبيقات الفائقة مبنية على نماذج مطورة ذاتيا." حكم المؤسس.
ومع ذلك، لا يزال هناك مجال كبير لتحسين سيناريوهات المحادثة الطويلة في السوق في المرحلة الحالية. على سبيل المثال، هناك بعض الأنظمة التي لا تدعم الاتصال بالإنترنت، ولا يمكنها الحصول على المعلومات الأحدث إلا من خلال تحديثات رسمية لقاعدة البيانات؛ خلال عملية إنشاء المحادثة، لا يمكن إيقافها أو تعديلها، ويجب الانتظار حتى انتهاء المحادثة؛ حتى مع وجود معلومات خلفية ودعم الملفات المحملة، لا يزال يحدث أحيانًا أن تتحدث بشكل غير منطقي أو تخترع معلومات من العدم.
معضلة "مثلث المستحيل" للنصوص الطويلة
في مجال الأعمال، هناك مجموعة من "مثلث المستحيل" الكلاسيكي الذي يتكون من السعر والجودة والحجم، حيث توجد علاقات تقييد متبادلة بين الثلاثة ولا يمكن الحصول عليها جميعًا في نفس الوقت.
في النصوص الطويلة، هناك أيضًا "مثلث مستحيل" يشبه طول النص والتركيز وقدرة الحساب.
يظهر هذا أنه كلما زاد طول النص، أصبح من الصعب جمع الانتباه الكافي، وصعب هضمه بالكامل؛ تحت قيود الانتباه، لا يمكن تفسير المعلومات المعقدة بشكل كامل من خلال النصوص القصيرة؛ تتطلب معالجة النصوص الطويلة قوة حسابية كبيرة، مما يزيد من التكاليف.
تتبع الجذور ، في جوهر الأمر ، هذا لأن معظم النماذج الحالية تعتمد على هيكل المحولات. يحتوي هذا الهيكل على عنصر رئيسي واحد وهو آلية الانتباه الذاتي ، حيث يمكن لروبوت المحادثة تجاوز قيود تسلسل إدخال معلومات المستخدم وتحليل العلاقات بين المعلومات بحرية.
لكن التكلفة المترتبة على ذلك هي أن كمية الحسابات اللازمة لآلية الانتباه الذاتي ستزداد بشكل مربع مع زيادة طول السياق، على سبيل المثال، عندما تزداد السياق بمقدار 32 مرة، ستزداد كمية الحسابات فعلياً بمقدار 1000 مرة.
بعض الأوراق المنشورة قدمت دليلاً: السياق الطويل جداً يؤدي إلى انخفاض كبير في نسبة المعلومات ذات الصلة، ويبدو أن تشتت الانتباه أصبح مصيراً لا مفر منه.
هذا يشكل المجموعة الأولى من التناقضات في "مثلث المستحيل" - طول النص والانتباه، ويشرح من حيث الجوهر السبب وراء صعوبة نماذج اللغة الكبيرة في تجاوز التقنيات المتعلقة بالنصوص الطويلة.
من "نموذج" كبير المعلمات إلى الآن، كانت القدرة الحاسوبية دائمًا موردًا نادرًا. وقد صرح أحد مؤسسي شركة معروفة أن خدمتهم البالغة 32K لا يمكن فتحها بالكامل لجميع المستخدمين على الفور، وأكبر قيد هو نقص وحدات معالجة الرسومات.
في هذا الصدد، قال مؤسس شركة معينة: "تعتبر وحدة المعالجة الرسومية (GPU) أساسًا مهمًا، لكنها ليست مجرد قضية وحدة المعالجة الرسومية. هنا يوجد مزيج من عوامل مختلفة، من ناحية وحدة المعالجة الرسومية، ومن ناحية أخرى كفاءة تحويل الطاقة إلى ذكاء. يمكن أن تتضمن الكفاءة، عند تحليلها بشكل أكبر، تحسين الخوارزميات، وتحسين الهندسة، وتحسين الأنماط، وتحسين السياق، وما إلى ذلك."
الأهم من ذلك، في مرحلة نشر النموذج الكبير، لا تستطيع الشركات توفير دعم كبير للقدرة الحوسبية، مما يجبر الشركات المصنعة على الحفاظ على القدرة الحوسبية، سواء كان ذلك في توسيع معلمات النموذج أو طول النص. ولكن في المرحلة الحالية، لكسر تقنية النصوص الأطول، يجب استهلاك المزيد من القدرة الحوسبية، وبالتالي تتشكل مجموعة ثانية من التناقضات بين طول النص والقدرة الحوسبية.
قال مهندس NLP في إحدى الشركات: "لا يوجد حتى الآن حل موحد لنمذجة النصوص الطويلة باستخدام النماذج الكبيرة، وأسباب الارتباك تأتي من بنية Transformer نفسها، بينما تم بالفعل تطوير هيكل جديد."
في الوقت الحالي، يتم تصميم معظم البرمجيات والأجهزة حول بنية Transformer، ومن الصعب في فترة قصيرة أن يتم استبدالها بشكل كامل، ولكن تم تطوير عدة حلول تحسين حول بنية Transformer.
"هناك حاليًا ثلاثة حلول مختلفة رئيسية، وهي استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة، وتحسين حساب آلية الانتباه الذاتي، واستخدام الطرق العامة لتحسين النموذج." قال المهندس.
النهج الأساسي للحل الأول هو إعطاء النموذج الكبير "ملحق". تتمثل الطريقة الرئيسية في تقسيم النصوص الطويلة إلى نصوص قصيرة متعددة لمعالجتها، وعندما يقوم النموذج بمعالجة نص طويل، فإنه يقوم بالبحث في قاعدة البيانات للحصول على إجابات تتكون من نصوص قصيرة متعددة. يتم تحميل مقاطع النص القصير المطلوبة فقط في كل مرة، مما يتجنب مشكلة عدم قدرة النموذج على قراءة النص الطويل بالكامل دفعة واحدة.
الحل الثاني هو الطريقة الأكثر استخدامًا حاليًا، حيث تركز على إعادة بناء طريقة حساب الانتباه الذاتي. على سبيل المثال، تكمن جوهر تقنية LongLoRA في تقسيم النصوص الطويلة إلى مجموعات مختلفة، وإجراء الحسابات داخل كل مجموعة، دون الحاجة لحساب العلاقات بين كل كلمة، مما يقلل من حجم الحسابات ويزيد من السرعة.
النموذجان الأولان يُطلق عليهما أيضًا اسم "نموذج النحل" من قبل مؤسس إحدى الشركات، حيث يتم من خلال تعزيز البحث أو تقليل العينة من السياق، الاحتفاظ بآلية الانتباه لبعض المدخلات، لتحقيق تأثير معالجة النصوص الطويلة.
وفقًا لمؤسسها، هناك طريقة أخرى لتحسين حساب آلية الانتباه الذاتي، والتي يُطلق عليها أيضًا نموذج "سمكة ذهبية". أي من خلال وسائل مثل نافذة التمرير للتخلص بنشاط من النص السابق، من أجل التركيز على الرد على أحدث معلومات مدخلة من المستخدم. المزايا واضحة، ولكن لا يمكنها مقارنة وتحليل تلخيص عبر المستندات أو المحادثات.
الحل الثالث هو التركيز على تحسين النموذج. مثل LongLLaMA الذي يستخدم نموذج OpenLLaMA-3B و OpenLLaMA-7B كنقطة انطلاق، ويقوم بتعديله لإنتاج نموذج LONGLLAMA الجديد. من السهل جدًا تعميم هذا النموذج على تسلسلات أطول، على سبيل المثال، يمكن للنموذج المدرب على 8K توكن أن يتعمم بسهولة على حجم نافذة 256K.
هناك طريقة شائعة لتحسين النموذج، وهي تقليل عدد المعلمات (مثل تقليلها إلى عشرة مليارات معلمة) لزيادة طول السياق، وقد أطلق عليها أحد المؤسسين اسم نموذج "الضفدع". ستؤدي هذه الطريقة إلى تقليل قدرة النموذج نفسه، على الرغم من أنها تدعم سياقات أطول، إلا أن المشاكل ستظهر عندما تزداد صعوبة المهام.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
حرب التكنولوجيا الطويلة على النصوص: شركات النماذج الكبيرة توسع قدراتها على السياق
معركة التكنولوجيا للنصوص الطويلة بين شركات النماذج الكبيرة
من 4000 إلى 400000 توكن، النموذج الكبير يتغير بشكل "مرئي" بسرعة متزايدة.
يبدو أن قدرة النص الطويل أصبحت رمزا جديدا "للإعداد القياسي" الذي يقدمه مصنعو النماذج الكبيرة.
في الخارج، قامت OpenAI بثلاث ترقيات، حيث زاد طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، وزاد لـ GPT-4 من 8000 إلى 32000 توكن؛ شركة معينة رفعت طول السياق مرة واحدة إلى 100000 توكن؛ ووسعت LongLLaMA طول السياق إلى 256000 توكن، وحتى أكثر.
في البلاد، أصدرت إحدى شركات النماذج الكبيرة الناشئة منتج مساعد ذكي يدعم إدخال 200,000 حرف صيني، وهو ما يعادل حوالي 400,000 توكن؛ فريق جامعة هونغ كونغ الصينية بالتعاون مع MIT أطلق تقنية جديدة تُدعى LongLoRA، والتي يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، وطول النص لنموذج 70B إلى 32,000 توكن.
في الوقت الحالي، هناك مجموعة كبيرة من شركات التكنولوجيا والنماذج الكبرى الرائدة، والمؤسسات، والفرق المحلية والأجنبية التي تركز على توسيع طول السياق كأحد أولويات التحديث والتطوير.
تعتبر هذه الشركات أو المؤسسات الكبرى في الداخل والخارج من "الأبطال الساخنين" الذين يحظون بشغف سوق المال. إحدى الشركات حققت نجاحًا كبيرًا مؤخرًا، حيث تم الكشف عن حصولها على استثمارات من شركات تكنولوجيا كبيرة، ومن المتوقع أن تصل قيمتها إلى 30 مليار دولار، وهو ما يزيد خمس مرات عن قيمتها في مارس؛ بينما شركة أخرى، تأسست منذ ستة أشهر فقط، أكملت بسرعة جولتها الأولى من التمويل، وحصلت على دعم من العديد من شركات رأس المال المغامر الرائدة، وقد تجاوزت قيمتها السوقية 300 مليون دولار.
ما الذي يعنيه توسيع طول النصوص بمقدار 100 مرة من قبل شركات النماذج الكبيرة؟
من السطح، يبدو أن طول النص القابل للإدخال يتزايد، وتزداد القدرة على القراءة. إذا قمنا بتكميم القيمة المجردة للتوكين، يمكن لـ GPT-3.5 إدخال 3000 كلمة إنجليزية أو 2000 حرف صيني كحد أقصى من أصل 4000 توكن، مما يجعل من الصعب حتى قراءة مقال واحد في حساب رسمي؛ بينما تمكن GPT-4 الذي يحتوي على 32,000 توكن من الوصول إلى مستوى قراءة قصة قصيرة؛ ومنتج يحتوي على 100,000 توكن يمكنه إدخال حوالي 75,000 كلمة، ويمكن قراءة كتاب "غاتسبي العظيم" خلال 22 ثانية فقط؛ ومنتج يحتوي على 400,000 توكن يدعم إدخال 200,000 حرف صيني، مما يسمح بقراءة عمل طويل.
من ناحية أخرى، فإن تقنيات النصوص الطويلة تدفع أيضًا إلى توطين نماذج أكبر في الصناعات بشكل أعمق، وفي مجالات مثل المالية، والعدالة، والبحث العلمي، تعتبر قدرات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة أساسية، كما أنها ساحة تدريب بحاجة ماسة إلى ترقية ذكية.
بالاستناد إلى معايير "اللف" للدوائر الكبيرة السابقة، فإن حجم نموذج الدائرة الكبيرة ليس بالضرورة كلما كان أكبر كان أفضل، حيث تحاول كل شركة توسيع حجم النموذج إلى أقصى حد ممكن من أجل إيجاد "نقطة الحرجة" التي تحقق الأداء الأمثل للنموذج. وبالمثل، كمعيار آخر يحدد فعالية النموذج - طول النص، ليس كلما كان أطول كان أداء النموذج أفضل.
لقد أثبتت الأبحاث أن النماذج الكبيرة لا يمكن أن تُرسم على أنها تعني بالضرورة وجود علاقة مباشرة بين دعمها لسياقات أطول وتحسين أداء النموذج. إن طول السياق الذي يمكن للنموذج التعامل معه ليس هو النقطة الحاسمة، بل الأهم هو كيفية استخدام النموذج لمحتوى السياق.
ومع ذلك، في الوقت الحالي، لا يزال الاستكشاف حول طول النصوص في الداخل والخارج بعيدًا عن الوصول إلى حالة "نقطة حرجة". لا تزال شركات النماذج الكبيرة في الداخل والخارج تسعى بلا هوادة لتحقيق突破، وقد تكون 400000 توكن مجرد بداية.
لماذا "تدور" النصوص الطويلة؟
قال مؤسس إحدى الشركات إن فريقه اكتشف أثناء عملية البحث والتطوير التقنية أن القيود المفروضة على طول مدخلات النماذج الكبيرة هي السبب وراء العديد من الصعوبات التي تواجه تطبيقات النماذج الكبيرة، وهذا هو السبب وراء تركيز العديد من شركات النماذج الكبيرة على تقنية النصوص الطويلة في الوقت الحالي.
على سبيل المثال، في سيناريوهات الشخصيات الافتراضية، بسبب عدم كفاية القدرة على التعامل مع النصوص الطويلة، قد تنسى الشخصيات الافتراضية معلومات مهمة؛ عند تطوير ألعاب القتل بالسيناريوهات استنادًا إلى نماذج كبيرة، إذا كان طول الإدخال غير كافٍ، فسيكون من الضروري تقليل القواعد والإعدادات، مما يجعل من المستحيل تحقيق التأثيرات المتوقعة للعبة؛ في المجالات المهنية عالية الدقة مثل القانون والبنوك، غالبًا ما تتعرض التحليلات العميقة للمحتوى والتوليد للإحباط.
في الطريق نحو التطبيقات الأصلية للوكيل والذكاء الاصطناعي في المستقبل، لا يزال للنصوص الطويلة دور مهم. تعتمد مهام الوكيل على المعلومات التاريخية لإجراء تخطيط وقرارات جديدة، بينما تحتاج التطبيقات الأصلية للذكاء الاصطناعي إلى الاعتماد على السياق للحفاظ على تجربة مستخدم متماسكة وشخصية.
يعتقد المؤسس أنه يمكن تحقيق مستوى عالٍ من الذكاء من خلال الضغط غير المفقود للبيانات الضخمة، سواء كان ذلك نصًا أو صوتًا أو فيديو. "لقد اعتمدت التقدم في ضغط البيانات غير المفقود أو أبحاث النماذج الكبيرة بشدة على نموذج 'البارامترات هي الملك'، حيث يرتبط معدل الضغط مباشرة بكمية البارامترات. لكننا نعتقد أن الحد الأقصى لمعدل الضغط غير المفقود أو النماذج الكبيرة تحدده القدرة على الخطوة الواحدة وعدد الخطوات التنفيذية معًا. حيث ترتبط القدرة على الخطوة الواحدة إيجابيًا بكمية البارامترات، بينما يمثل عدد الخطوات التنفيذية طول السياق."
في الوقت نفسه، أثبتت الحقائق أنه حتى النماذج الكبيرة التي تحتوي على مئات المليارات من المعلمات لا يمكنها تجنب مشاكل الوهم والهراء بالكامل. مقارنة بالنصوص القصيرة، يمكن للنصوص الطويلة أن تساعد النموذج في الحكم على المعنى من خلال توفير المزيد من المعلومات السياقية والتفصيلية، مما يقلل من الغموض، كما أن الاستنتاج والاستدلال المبني على الحقائق المقدمة يكون أكثر دقة.
من هنا، يتضح أن تقنية النصوص الطويلة يمكن أن تحل بعض المشكلات التي تم انتقاد النماذج الكبيرة في بدايتها، وتعزز بعض الوظائف، وفي نفس الوقت تعتبر جزءًا أساسيًا من推进 الصناعة وتطبيقاتها الحالية، وهذا يثبت بشكل غير مباشر أن تطوير النماذج الكبيرة العامة قد دخل مرحلة جديدة، من LLM إلى عصر Long LLM.
من خلال المنتج الجديد الذي أطلقته إحدى الشركات، قد نتمكن من إلقاء نظرة على ميزات الترقية لنموذج Long LLM في مرحلته.
أولاً، هو الوظيفة الأساسية لاستخراج، تلخيص وتحليل المعلومات الرئيسية من النصوص الطويلة جداً. على سبيل المثال، يمكن تحليل محتوى المقالة بسرعة عند إدخال رابط الحساب الرسمي؛ يمكن استخراج المعلومات الرئيسية بسرعة من التقارير المالية الجديدة، وتقديمها بشكل مبسط مثل الجداول أو الخرائط الذهنية؛ بعد إدخال كتاب كامل أو نصوص قانونية متخصصة، يمكن للمستخدم الحصول على معلومات فعالة من خلال طرح الأسئلة.
في مجال البرمجة، يمكن تحويل النص مباشرة إلى كود، فقط قم بإلقاء البحث على روبوت الدردشة، وسيقوم بإعادة إنتاج عملية توليد الكود بناءً على البحث، ويمكنه إجراء تعديلات بناءً على ذلك، وهذا يعد خطوة كبيرة مقارنةً بالعرض الذي قدمته إحدى الشركات في مؤتمرها عندما عرضت توليد كود موقع ويب من مسودة.
في سيناريوهات الحوار الطويلة، يمكن لروبوتات المحادثة أيضًا تحقيق تمثيل الأدوار، من خلال إدخال نصوص شخصيات عامة، وضبط النغمة، وشخصية الشخصية، يمكن تحقيق محادثة فردية مع ستيف جوبز وإيلون ماسك. وقد طورت إحدى الشركات الكبرى في الخارج تطبيق رفيق ذكاء اصطناعي مشابه، حيث أن عدد المستخدمين اليومي على الهواتف المحمولة أعلى بكثير من منتج معروف، حيث وصل إلى 3.61 مليون. في عرض تقديمي لشركة معينة، يكفي وجود عنوان ويب واحد للدردشة مع شخصية جينشين التي تحبها.
توضح الأمثلة المذكورة أعلاه أنه بعيدًا عن دورات الحوار البسيطة، تتجه روبوتات المحادثة مثل ChatGPT نحو التخصص، والتخصيص، والتعمق، وقد تكون هذه أيضًا إحدى الأدوات التي تفتح الطريق للصناعة وتطبيقات السوبر.
كشف مؤسس شركة معينة أن، على عكس شركة معروفة تقدم منتجًا واحدًا فقط وأحدث قدرات متعددة النماذج، فإنهم يستهدفون تطبيق C النهائي التالي: مع تحقيق اختراق في تقنية النصوص الطويلة، سيتم تفريع N تطبيقات على أساس نموذجهم العام الأساسي.
"سوف ينقسم نمط سوق النماذج الكبيرة المحلية إلى معسكرين مختلفين: toB و toC. في معسكر toC، ستظهر التطبيقات الفائقة، وهذه التطبيقات الفائقة مبنية على نماذج مطورة ذاتيا." حكم المؤسس.
ومع ذلك، لا يزال هناك مجال كبير لتحسين سيناريوهات المحادثة الطويلة في السوق في المرحلة الحالية. على سبيل المثال، هناك بعض الأنظمة التي لا تدعم الاتصال بالإنترنت، ولا يمكنها الحصول على المعلومات الأحدث إلا من خلال تحديثات رسمية لقاعدة البيانات؛ خلال عملية إنشاء المحادثة، لا يمكن إيقافها أو تعديلها، ويجب الانتظار حتى انتهاء المحادثة؛ حتى مع وجود معلومات خلفية ودعم الملفات المحملة، لا يزال يحدث أحيانًا أن تتحدث بشكل غير منطقي أو تخترع معلومات من العدم.
معضلة "مثلث المستحيل" للنصوص الطويلة
في مجال الأعمال، هناك مجموعة من "مثلث المستحيل" الكلاسيكي الذي يتكون من السعر والجودة والحجم، حيث توجد علاقات تقييد متبادلة بين الثلاثة ولا يمكن الحصول عليها جميعًا في نفس الوقت.
في النصوص الطويلة، هناك أيضًا "مثلث مستحيل" يشبه طول النص والتركيز وقدرة الحساب.
يظهر هذا أنه كلما زاد طول النص، أصبح من الصعب جمع الانتباه الكافي، وصعب هضمه بالكامل؛ تحت قيود الانتباه، لا يمكن تفسير المعلومات المعقدة بشكل كامل من خلال النصوص القصيرة؛ تتطلب معالجة النصوص الطويلة قوة حسابية كبيرة، مما يزيد من التكاليف.
تتبع الجذور ، في جوهر الأمر ، هذا لأن معظم النماذج الحالية تعتمد على هيكل المحولات. يحتوي هذا الهيكل على عنصر رئيسي واحد وهو آلية الانتباه الذاتي ، حيث يمكن لروبوت المحادثة تجاوز قيود تسلسل إدخال معلومات المستخدم وتحليل العلاقات بين المعلومات بحرية.
لكن التكلفة المترتبة على ذلك هي أن كمية الحسابات اللازمة لآلية الانتباه الذاتي ستزداد بشكل مربع مع زيادة طول السياق، على سبيل المثال، عندما تزداد السياق بمقدار 32 مرة، ستزداد كمية الحسابات فعلياً بمقدار 1000 مرة.
بعض الأوراق المنشورة قدمت دليلاً: السياق الطويل جداً يؤدي إلى انخفاض كبير في نسبة المعلومات ذات الصلة، ويبدو أن تشتت الانتباه أصبح مصيراً لا مفر منه.
هذا يشكل المجموعة الأولى من التناقضات في "مثلث المستحيل" - طول النص والانتباه، ويشرح من حيث الجوهر السبب وراء صعوبة نماذج اللغة الكبيرة في تجاوز التقنيات المتعلقة بالنصوص الطويلة.
من "نموذج" كبير المعلمات إلى الآن، كانت القدرة الحاسوبية دائمًا موردًا نادرًا. وقد صرح أحد مؤسسي شركة معروفة أن خدمتهم البالغة 32K لا يمكن فتحها بالكامل لجميع المستخدمين على الفور، وأكبر قيد هو نقص وحدات معالجة الرسومات.
في هذا الصدد، قال مؤسس شركة معينة: "تعتبر وحدة المعالجة الرسومية (GPU) أساسًا مهمًا، لكنها ليست مجرد قضية وحدة المعالجة الرسومية. هنا يوجد مزيج من عوامل مختلفة، من ناحية وحدة المعالجة الرسومية، ومن ناحية أخرى كفاءة تحويل الطاقة إلى ذكاء. يمكن أن تتضمن الكفاءة، عند تحليلها بشكل أكبر، تحسين الخوارزميات، وتحسين الهندسة، وتحسين الأنماط، وتحسين السياق، وما إلى ذلك."
الأهم من ذلك، في مرحلة نشر النموذج الكبير، لا تستطيع الشركات توفير دعم كبير للقدرة الحوسبية، مما يجبر الشركات المصنعة على الحفاظ على القدرة الحوسبية، سواء كان ذلك في توسيع معلمات النموذج أو طول النص. ولكن في المرحلة الحالية، لكسر تقنية النصوص الأطول، يجب استهلاك المزيد من القدرة الحوسبية، وبالتالي تتشكل مجموعة ثانية من التناقضات بين طول النص والقدرة الحوسبية.
قال مهندس NLP في إحدى الشركات: "لا يوجد حتى الآن حل موحد لنمذجة النصوص الطويلة باستخدام النماذج الكبيرة، وأسباب الارتباك تأتي من بنية Transformer نفسها، بينما تم بالفعل تطوير هيكل جديد."
في الوقت الحالي، يتم تصميم معظم البرمجيات والأجهزة حول بنية Transformer، ومن الصعب في فترة قصيرة أن يتم استبدالها بشكل كامل، ولكن تم تطوير عدة حلول تحسين حول بنية Transformer.
"هناك حاليًا ثلاثة حلول مختلفة رئيسية، وهي استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة، وتحسين حساب آلية الانتباه الذاتي، واستخدام الطرق العامة لتحسين النموذج." قال المهندس.
النهج الأساسي للحل الأول هو إعطاء النموذج الكبير "ملحق". تتمثل الطريقة الرئيسية في تقسيم النصوص الطويلة إلى نصوص قصيرة متعددة لمعالجتها، وعندما يقوم النموذج بمعالجة نص طويل، فإنه يقوم بالبحث في قاعدة البيانات للحصول على إجابات تتكون من نصوص قصيرة متعددة. يتم تحميل مقاطع النص القصير المطلوبة فقط في كل مرة، مما يتجنب مشكلة عدم قدرة النموذج على قراءة النص الطويل بالكامل دفعة واحدة.
الحل الثاني هو الطريقة الأكثر استخدامًا حاليًا، حيث تركز على إعادة بناء طريقة حساب الانتباه الذاتي. على سبيل المثال، تكمن جوهر تقنية LongLoRA في تقسيم النصوص الطويلة إلى مجموعات مختلفة، وإجراء الحسابات داخل كل مجموعة، دون الحاجة لحساب العلاقات بين كل كلمة، مما يقلل من حجم الحسابات ويزيد من السرعة.
النموذجان الأولان يُطلق عليهما أيضًا اسم "نموذج النحل" من قبل مؤسس إحدى الشركات، حيث يتم من خلال تعزيز البحث أو تقليل العينة من السياق، الاحتفاظ بآلية الانتباه لبعض المدخلات، لتحقيق تأثير معالجة النصوص الطويلة.
وفقًا لمؤسسها، هناك طريقة أخرى لتحسين حساب آلية الانتباه الذاتي، والتي يُطلق عليها أيضًا نموذج "سمكة ذهبية". أي من خلال وسائل مثل نافذة التمرير للتخلص بنشاط من النص السابق، من أجل التركيز على الرد على أحدث معلومات مدخلة من المستخدم. المزايا واضحة، ولكن لا يمكنها مقارنة وتحليل تلخيص عبر المستندات أو المحادثات.
الحل الثالث هو التركيز على تحسين النموذج. مثل LongLLaMA الذي يستخدم نموذج OpenLLaMA-3B و OpenLLaMA-7B كنقطة انطلاق، ويقوم بتعديله لإنتاج نموذج LONGLLAMA الجديد. من السهل جدًا تعميم هذا النموذج على تسلسلات أطول، على سبيل المثال، يمكن للنموذج المدرب على 8K توكن أن يتعمم بسهولة على حجم نافذة 256K.
هناك طريقة شائعة لتحسين النموذج، وهي تقليل عدد المعلمات (مثل تقليلها إلى عشرة مليارات معلمة) لزيادة طول السياق، وقد أطلق عليها أحد المؤسسين اسم نموذج "الضفدع". ستؤدي هذه الطريقة إلى تقليل قدرة النموذج نفسه، على الرغم من أنها تدعم سياقات أطول، إلا أن المشاكل ستظهر عندما تزداد صعوبة المهام.
نص طويل "