العقبة الجديدة في تطوير الذكاء الاصطناعي: البيانات تصبح المفتاح
مع الزيادة السريعة في حجم نماذج الذكاء الاصطناعي وقدرات الحوسبة، بدأت تظهر مشكلة أساسية تم تجاهلها لفترة طويلة - إمدادات البيانات. لم يعد التناقض الهيكلي الذي يواجه صناعة الذكاء الاصطناعي يتعلق بهيكل النموذج أو قوة المعالجة، بل كيفية تحويل بيانات السلوك البشري المبعثرة إلى موارد قابلة للتحقق، ومنظمة، وصديقة للذكاء الاصطناعي. لا تكشف هذه الرؤية فقط عن الوضع الحالي لتطور الذكاء الاصطناعي، بل ترسم أيضًا صورة لعصر جديد من "تمويل البيانات" - في هذا العصر، ستصبح البيانات عنصر الإنتاج الأساسي القابل للقياس، والقابل للتداول، والقابل للتعزيز، جنبًا إلى جنب مع الكهرباء، وقوة الحوسبة.
من مسابقة القدرة الحاسوبية إلى المجاعة في البيانات
لقد تم دفع تطور الذكاء الاصطناعي لفترة طويلة بواسطة "النموذج - القوة الحاسوبية". منذ ثورة التعلم العميق، ارتفع حجم معلمات النموذج من الملايين إلى تريليونات، واحتياجات القوة الحاسوبية تنمو بشكل أسي. وفقًا للإحصائيات، تجاوزت تكلفة تدريب نموذج لغة متقدم 100 مليون دولار، حيث تمثل 90% منها إيجار مجموعات GPU. ومع ذلك، عندما تركز الصناعة على "نموذج أكبر" و"شرائح أسرع"، فإن أزمة جانب العرض من البيانات تتسلل بهدوء.
لقد وصلت "البيانات العضوية" التي تم إنشاؤها بواسطة البشر إلى سقف النمو. على سبيل المثال، تبلغ الكمية الإجمالية للنصوص عالية الجودة المتاحة على الإنترنت والتي يمكن الزحف إليها حوالي 10^12 كلمة، بينما يتطلب تدريب نموذج ذو مئة مليار معلمة حوالي 10^13 كلمة من البيانات. وهذا يعني أن مجموعة البيانات الحالية يمكن أن تدعم تدريب 10 نماذج بنفس الحجم. وما هو أكثر خطورة هو أن البيانات المكررة والمحتوى ذو الجودة المنخفضة تشكل أكثر من 60%، مما يقلل من العرض الفعال للبيانات. عندما تبدأ النماذج في "ابتلاع" البيانات التي أنشأتها بنفسها، فإن "تلوث البيانات" الذي يؤدي إلى تدهور أداء النموذج أصبح مصدر قلق كبير في الصناعة.
تنبع جذور هذا التناقض من: أن صناعة الذكاء الاصطناعي قد اعتبرت البيانات لفترة طويلة "موارد مجانية"، بدلاً من اعتبارها "أصول استراتيجية" تحتاج إلى رعاية دقيقة. لقد شكلت النماذج والقدرات الحاسوبية نظاماً سوقياً ناضجاً، ولكن إنتاج البيانات وتنظيفها والتحقق منها وتداولها لا يزال في "عصر الهمجية". ستكون العقدة القادمة في الذكاء الاصطناعي "عقدة البنية التحتية للبيانات"، وبيانات الشبكة المشفرة على السلسلة هي المفتاح لحل هذه المعضلة.
البيانات على السلسلة: "قاعدة بيانات سلوك الإنسان" الأكثر طلبًا من قبل الذكاء الاصطناعي
في سياق ندرة البيانات، تظهر البيانات على شبكة البلوكشين قيمة لا يمكن الاستغناء عنها. مقارنةً ببيانات الإنترنت التقليدية، تتمتع البيانات على البلوكشين بصدق "محاذاة الحوافز" بشكل طبيعي - كل معاملة، وكل تفاعل عقد، وكل سلوك عنوان محفظة مرتبط مباشرة برأس المال الحقيقي، ولا يمكن التلاعب به. تم تعريف هذه البيانات على أنها "أكثر بيانات سلوك محاذاة الحوافز تركيزًا على الإنترنت"، وتتجسد بشكل خاص في ثلاثة أبعاد:
"إشارات النية" في العالم الحقيقي: تسجل البيانات على السلسلة السلوكيات القرارية التي تم التصويت عليها بأموال حقيقية، مما يعكس مباشرة تقييم المستخدم لقيمة المشروع، وتفضيلاته للمخاطر، واستراتيجيات توزيع الأموال. هذه البيانات "المدعومة برأس المال" لها قيمة عالية في تدريب قدرة الذكاء الاصطناعي على اتخاذ القرارات.
سلسلة "السلوك" القابلة للتتبع: تتيح شفافية blockchain تتبع سلوك المستخدمين بشكل كامل. تشكل تاريخ المعاملات لمحفظة معينة، والبروتوكولات التي تم التفاعل معها، وتغيرات الأصول المحتفظ بها، سلسلة متماسكة من "السلوك". هذه البيانات السلوكية المنظمة هي ما يُعتبر عينة "الاستدلال البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.
الوصول "بدون إذن" إلى النظام البيئي المفتوح: على عكس انغلاق بيانات الشركات التقليدية، فإن البيانات على السلسلة مفتوحة ولا تحتاج إلى إذن. يمكن لأي مطور الوصول إلى البيانات الأصلية من خلال متصفح blockchain أو واجهة برمجة التطبيقات للبيانات، مما يوفر مصدر بيانات "خالي من الحواجز" لتدريب نماذج الذكاء الاصطناعي.
ومع ذلك، فإن انفتاح البيانات على السلسلة قد جلب أيضًا تحديات: هذه البيانات موجودة بشكل "سجل أحداث"، وهي "إشارات خام" غير منظمة، تحتاج إلى التنظيف، والتوحيد، والربط حتى يمكن استخدامها بواسطة نماذج الذكاء الاصطناعي. حاليًا، فإن "معدل تحويل البيانات الهيكلية" على السلسلة لا يتجاوز 5%، حيث يتم دفن العديد من الإشارات ذات القيمة العالية في مليارات من الأحداث المجزأة.
نظام "تشغيل" البيانات على السلسلة
لحل مشكلة تجزئة البيانات على السلسلة، اقترح القطاع مفهوم "نظام التشغيل الذكي على السلسلة" المصمم خصيصًا للذكاء الاصطناعي. الهدف الأساسي هو تحويل الإشارات المتناثرة على السلسلة إلى بيانات صديقة للذكاء الاصطناعي منظمة وقابلة للتحقق وقابلة للتجميع في الوقت الحقيقي. يتضمن هذا النظام المكونات الأساسية التالية:
معايير البيانات المفتوحة: توحيد تعريفات البيانات على السلسلة ووصفها، لضمان أن نماذج الذكاء الاصطناعي لا تحتاج إلى التكيف مع تنسيقات بيانات سلاسل أو بروتوكولات مختلفة، بحيث يمكنها "فهم" المنطق التجاري وراء البيانات بشكل مباشر.
آلية التحقق من البيانات: من خلال شبكة مصدقي البلوك تشين لضمان صحة البيانات. عند معالجة النظام لحدث على السلسلة، تقوم عقد التحقق بالتحقق المتبادل من قيم التجزئة و معلومات التوقيع و الحالة على السلسلة، لضمان أن البيانات الهيكلية الناتجة تتطابق تمامًا مع البيانات الأصلية على السلسلة.
طبقة توفر البيانات عالية الإنتاجية: من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، يتم تحقيق معالجة في الوقت الفعلي لآلاف الأحداث على السلسلة في الثانية. يتيح هذا التصميم للنظام دعم متطلبات البيانات في الوقت الفعلي لتطبيقات الذكاء الاصطناعي على نطاق واسع.
عصر مالية البيانات: عندما تصبح البيانات "رأسمال" قابل للتداول
الهدف النهائي من نظام تشغيل البيانات على السلسلة هو دفع صناعة الذكاء الاصطناعي إلى عصر تمويل البيانات - لم تعد البيانات "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشط يمكن تسعيره وتداوله وزيادة قيمته. يعتمد تحقيق هذه الرؤية على تحويل البيانات إلى أربع خصائص أساسية:
الهيكلة: من "الإشارة الأصلية" إلى "الأصول القابلة للاستخدام"، تحويل البيانات على السلسلة إلى بيانات هيكلية، مما يسمح لنماذج الذكاء الاصطناعي بالوصول إليها مباشرة.
قابل للتجميع: يمكن للبيانات الهيكلية أن تتجمع بحرية مثل قطع ليغو، مما يوسع بشكل كبير من حدود تطبيق البيانات، ويتيح للابتكار في الذكاء الاصطناعي ألا يقتصر على مصدر واحد من البيانات.
قابل للتحقق: من خلال تقنية البلوكشين لضمان صحة البيانات وقابليتها للتتبع، مما يمنح البيانات "خاصية الائتمان".
قابل للتسييل: يمكن لمقدمي البيانات تحويل البيانات المنظمة إلى أموال مباشرة، مثل تغليف نتائج التحليل في خدمات API، وفرض رسوم حسب عدد الاستدعاءات.
في عصر تمويل البيانات هذا، ستصبح البيانات جسرًا يربط بين الذكاء الاصطناعي والعالم الحقيقي. يمكن لوكلاء التداول استشعار مشاعر السوق من خلال بيانات السلسلة، ويمكن للتطبيقات المستقلة تحسين الخدمات من خلال بيانات سلوك المستخدمين، بينما يمكن للمستخدمين العاديين الحصول على عوائد مستمرة من خلال مشاركة البيانات.
مع التحسين المستمر للبنية التحتية للبيانات، لدينا سبب للاعتقاد أنه عندما تُمنح البيانات أخيرًا القيمة المستحقة، ستطلق الذكاء الاصطناعي حقًا قوة تغيير العالم. هذه ليست مجرد تقدم تقني، بل هي الطريق الذي لا بد منه لنضوج صناعة الذكاء الاصطناعي بأكملها.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 12
أعجبني
12
4
إعادة النشر
مشاركة
تعليق
0/400
BlockchainBard
· فقط الآن
رغبة البقاء في الذكاء الاصطناعي مرتفعة، يريد كل شيء.
شاهد النسخة الأصليةرد0
BearMarketBuilder
· 08-12 05:52
غداً ستكون البيانات هي النفط الجديد~
شاهد النسخة الأصليةرد0
VitaliksTwin
· 08-12 05:38
لا زلت قلقًا بشأن مصدر البيانات؟ أين صديق الذي كان يتاجر في الأجهزة منذ بضع سنوات؟
شاهد النسخة الأصليةرد0
GasGuzzler
· 08-12 05:37
داخل السلسلة بيانات غير كافية، قدرة النقد لتلبية الحاجة
أحدث عقبة في تطوير الذكاء الاصطناعي: البيانات داخل السلسلة تصبح أصلًا رئيسيًا
العقبة الجديدة في تطوير الذكاء الاصطناعي: البيانات تصبح المفتاح
مع الزيادة السريعة في حجم نماذج الذكاء الاصطناعي وقدرات الحوسبة، بدأت تظهر مشكلة أساسية تم تجاهلها لفترة طويلة - إمدادات البيانات. لم يعد التناقض الهيكلي الذي يواجه صناعة الذكاء الاصطناعي يتعلق بهيكل النموذج أو قوة المعالجة، بل كيفية تحويل بيانات السلوك البشري المبعثرة إلى موارد قابلة للتحقق، ومنظمة، وصديقة للذكاء الاصطناعي. لا تكشف هذه الرؤية فقط عن الوضع الحالي لتطور الذكاء الاصطناعي، بل ترسم أيضًا صورة لعصر جديد من "تمويل البيانات" - في هذا العصر، ستصبح البيانات عنصر الإنتاج الأساسي القابل للقياس، والقابل للتداول، والقابل للتعزيز، جنبًا إلى جنب مع الكهرباء، وقوة الحوسبة.
من مسابقة القدرة الحاسوبية إلى المجاعة في البيانات
لقد تم دفع تطور الذكاء الاصطناعي لفترة طويلة بواسطة "النموذج - القوة الحاسوبية". منذ ثورة التعلم العميق، ارتفع حجم معلمات النموذج من الملايين إلى تريليونات، واحتياجات القوة الحاسوبية تنمو بشكل أسي. وفقًا للإحصائيات، تجاوزت تكلفة تدريب نموذج لغة متقدم 100 مليون دولار، حيث تمثل 90% منها إيجار مجموعات GPU. ومع ذلك، عندما تركز الصناعة على "نموذج أكبر" و"شرائح أسرع"، فإن أزمة جانب العرض من البيانات تتسلل بهدوء.
لقد وصلت "البيانات العضوية" التي تم إنشاؤها بواسطة البشر إلى سقف النمو. على سبيل المثال، تبلغ الكمية الإجمالية للنصوص عالية الجودة المتاحة على الإنترنت والتي يمكن الزحف إليها حوالي 10^12 كلمة، بينما يتطلب تدريب نموذج ذو مئة مليار معلمة حوالي 10^13 كلمة من البيانات. وهذا يعني أن مجموعة البيانات الحالية يمكن أن تدعم تدريب 10 نماذج بنفس الحجم. وما هو أكثر خطورة هو أن البيانات المكررة والمحتوى ذو الجودة المنخفضة تشكل أكثر من 60%، مما يقلل من العرض الفعال للبيانات. عندما تبدأ النماذج في "ابتلاع" البيانات التي أنشأتها بنفسها، فإن "تلوث البيانات" الذي يؤدي إلى تدهور أداء النموذج أصبح مصدر قلق كبير في الصناعة.
تنبع جذور هذا التناقض من: أن صناعة الذكاء الاصطناعي قد اعتبرت البيانات لفترة طويلة "موارد مجانية"، بدلاً من اعتبارها "أصول استراتيجية" تحتاج إلى رعاية دقيقة. لقد شكلت النماذج والقدرات الحاسوبية نظاماً سوقياً ناضجاً، ولكن إنتاج البيانات وتنظيفها والتحقق منها وتداولها لا يزال في "عصر الهمجية". ستكون العقدة القادمة في الذكاء الاصطناعي "عقدة البنية التحتية للبيانات"، وبيانات الشبكة المشفرة على السلسلة هي المفتاح لحل هذه المعضلة.
البيانات على السلسلة: "قاعدة بيانات سلوك الإنسان" الأكثر طلبًا من قبل الذكاء الاصطناعي
في سياق ندرة البيانات، تظهر البيانات على شبكة البلوكشين قيمة لا يمكن الاستغناء عنها. مقارنةً ببيانات الإنترنت التقليدية، تتمتع البيانات على البلوكشين بصدق "محاذاة الحوافز" بشكل طبيعي - كل معاملة، وكل تفاعل عقد، وكل سلوك عنوان محفظة مرتبط مباشرة برأس المال الحقيقي، ولا يمكن التلاعب به. تم تعريف هذه البيانات على أنها "أكثر بيانات سلوك محاذاة الحوافز تركيزًا على الإنترنت"، وتتجسد بشكل خاص في ثلاثة أبعاد:
"إشارات النية" في العالم الحقيقي: تسجل البيانات على السلسلة السلوكيات القرارية التي تم التصويت عليها بأموال حقيقية، مما يعكس مباشرة تقييم المستخدم لقيمة المشروع، وتفضيلاته للمخاطر، واستراتيجيات توزيع الأموال. هذه البيانات "المدعومة برأس المال" لها قيمة عالية في تدريب قدرة الذكاء الاصطناعي على اتخاذ القرارات.
سلسلة "السلوك" القابلة للتتبع: تتيح شفافية blockchain تتبع سلوك المستخدمين بشكل كامل. تشكل تاريخ المعاملات لمحفظة معينة، والبروتوكولات التي تم التفاعل معها، وتغيرات الأصول المحتفظ بها، سلسلة متماسكة من "السلوك". هذه البيانات السلوكية المنظمة هي ما يُعتبر عينة "الاستدلال البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.
الوصول "بدون إذن" إلى النظام البيئي المفتوح: على عكس انغلاق بيانات الشركات التقليدية، فإن البيانات على السلسلة مفتوحة ولا تحتاج إلى إذن. يمكن لأي مطور الوصول إلى البيانات الأصلية من خلال متصفح blockchain أو واجهة برمجة التطبيقات للبيانات، مما يوفر مصدر بيانات "خالي من الحواجز" لتدريب نماذج الذكاء الاصطناعي.
ومع ذلك، فإن انفتاح البيانات على السلسلة قد جلب أيضًا تحديات: هذه البيانات موجودة بشكل "سجل أحداث"، وهي "إشارات خام" غير منظمة، تحتاج إلى التنظيف، والتوحيد، والربط حتى يمكن استخدامها بواسطة نماذج الذكاء الاصطناعي. حاليًا، فإن "معدل تحويل البيانات الهيكلية" على السلسلة لا يتجاوز 5%، حيث يتم دفن العديد من الإشارات ذات القيمة العالية في مليارات من الأحداث المجزأة.
نظام "تشغيل" البيانات على السلسلة
لحل مشكلة تجزئة البيانات على السلسلة، اقترح القطاع مفهوم "نظام التشغيل الذكي على السلسلة" المصمم خصيصًا للذكاء الاصطناعي. الهدف الأساسي هو تحويل الإشارات المتناثرة على السلسلة إلى بيانات صديقة للذكاء الاصطناعي منظمة وقابلة للتحقق وقابلة للتجميع في الوقت الحقيقي. يتضمن هذا النظام المكونات الأساسية التالية:
معايير البيانات المفتوحة: توحيد تعريفات البيانات على السلسلة ووصفها، لضمان أن نماذج الذكاء الاصطناعي لا تحتاج إلى التكيف مع تنسيقات بيانات سلاسل أو بروتوكولات مختلفة، بحيث يمكنها "فهم" المنطق التجاري وراء البيانات بشكل مباشر.
آلية التحقق من البيانات: من خلال شبكة مصدقي البلوك تشين لضمان صحة البيانات. عند معالجة النظام لحدث على السلسلة، تقوم عقد التحقق بالتحقق المتبادل من قيم التجزئة و معلومات التوقيع و الحالة على السلسلة، لضمان أن البيانات الهيكلية الناتجة تتطابق تمامًا مع البيانات الأصلية على السلسلة.
طبقة توفر البيانات عالية الإنتاجية: من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، يتم تحقيق معالجة في الوقت الفعلي لآلاف الأحداث على السلسلة في الثانية. يتيح هذا التصميم للنظام دعم متطلبات البيانات في الوقت الفعلي لتطبيقات الذكاء الاصطناعي على نطاق واسع.
عصر مالية البيانات: عندما تصبح البيانات "رأسمال" قابل للتداول
الهدف النهائي من نظام تشغيل البيانات على السلسلة هو دفع صناعة الذكاء الاصطناعي إلى عصر تمويل البيانات - لم تعد البيانات "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشط يمكن تسعيره وتداوله وزيادة قيمته. يعتمد تحقيق هذه الرؤية على تحويل البيانات إلى أربع خصائص أساسية:
الهيكلة: من "الإشارة الأصلية" إلى "الأصول القابلة للاستخدام"، تحويل البيانات على السلسلة إلى بيانات هيكلية، مما يسمح لنماذج الذكاء الاصطناعي بالوصول إليها مباشرة.
قابل للتجميع: يمكن للبيانات الهيكلية أن تتجمع بحرية مثل قطع ليغو، مما يوسع بشكل كبير من حدود تطبيق البيانات، ويتيح للابتكار في الذكاء الاصطناعي ألا يقتصر على مصدر واحد من البيانات.
قابل للتحقق: من خلال تقنية البلوكشين لضمان صحة البيانات وقابليتها للتتبع، مما يمنح البيانات "خاصية الائتمان".
قابل للتسييل: يمكن لمقدمي البيانات تحويل البيانات المنظمة إلى أموال مباشرة، مثل تغليف نتائج التحليل في خدمات API، وفرض رسوم حسب عدد الاستدعاءات.
في عصر تمويل البيانات هذا، ستصبح البيانات جسرًا يربط بين الذكاء الاصطناعي والعالم الحقيقي. يمكن لوكلاء التداول استشعار مشاعر السوق من خلال بيانات السلسلة، ويمكن للتطبيقات المستقلة تحسين الخدمات من خلال بيانات سلوك المستخدمين، بينما يمكن للمستخدمين العاديين الحصول على عوائد مستمرة من خلال مشاركة البيانات.
مع التحسين المستمر للبنية التحتية للبيانات، لدينا سبب للاعتقاد أنه عندما تُمنح البيانات أخيرًا القيمة المستحقة، ستطلق الذكاء الاصطناعي حقًا قوة تغيير العالم. هذه ليست مجرد تقدم تقني، بل هي الطريق الذي لا بد منه لنضوج صناعة الذكاء الاصطناعي بأكملها.