الكأس المقدسة للذكاء الاصطناعي في التشفير: استكشاف الحدود في التدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى في عتبة التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفاعلية تطبيقه الفعلي. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا في قدرات حسابية كبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث أنماط الهيكلة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نركز عليه في هذا المقال.
يتمثل التدريب المركز في الطريقة التقليدية الأكثر شيوعًا، حيث يتم إكمال جميع عمليات التدريب بواسطة مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية المعمارية المتعمقة التعاون من كفاءة مشاركة الذاكرة، وتزامن التدرج، وآليات التحمل في أفضل حالاتها، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، مما يوفر مزايا الكفاءة العالية، والتحكم في الموارد، ولكن في نفس الوقت توجد مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، لتجاوز قيود الحساب والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أنها لا تزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والمزامنة، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية ناقل الربط السريع NVLink، حيث يتم تنسيق المهام الفرعية من قبل العقدة الرئيسية. تشمل الطرق السائدة ما يلي:
البيانات المتوازية: كل عقدة تدرب على بيانات مختلفة مع مشاركة المعلمات، تحتاج إلى مطابقة أوزان النموذج
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسيع قوية
تنفيذ متسلسل على مراحل: زيادة معدل العبور
التوازي على مستوى المصفوفة: تقسيم دقيق لحساب المصفوفات، تعزيز حبيبات التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير عن بُعد للموظفين في عدة "مكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومة للرقابة. وتتمثل ميزتها الأساسية في: عدة نقاط غير موثوقة (قد تكون أجهزة كمبيوتر منزلية، أو وحدات معالجة رسومات سحابية، أو أجهزة حافة) تتعاون لإكمال مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتستخدم آليات تحفيزية مشفرة لضمان نزاهة المساهمات. التحديات الرئيسية التي تواجه هذا النموذج تشمل:
صعوبة تنسيق الأجهزة المتنوعة وتقسيم المهام: من الصعب تنسيق الأجهزة المتنوعة، وكفاءة تقسيم المهام منخفضة
عنق الزجاجة في كفاءة الاتصال: الاتصال بالشبكة غير مستقر، وعقدة تزامن التدرج واضحة.
نقص التنفيذ الموثوق: عدم وجود بيئة تنفيذ موثوقة، مما يجعل من الصعب التحقق مما إذا كان العقدة تشارك بالفعل في الحساب
نقص التنسيق الموحد: لا يوجد جهاز تحكم مركزي، توزيع المهام وآلية التراجع عن الأخطاء معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كلٌ منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، يتعلق بهندسة النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج، وما إذا كان يمكن "التعاون بشكل فعال + تحفيز الأمانة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
التعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرات التعاون المحلي، بينما يمتلك أيضًا مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية المControlled" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وبنية الثقة، وآلية الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نماذج التدريب، فإن التدريب اللامركزي لا ينطبق على جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، ومتطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة عادةً على ذاكرة وصول عشوائي عالية، وزمن تأخير منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بشكل فعال في شبكة مفتوحة؛ المهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالقوانين والامتثال والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفقد المهام التي تفتقر إلى أساس حوافز التعاون الدافع للمشاركة الخارجية. وتشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مفهوم زائف. في الواقع، تظهر التدريبات اللامركزية آفاق تطبيق واضحة في أنواع المهام الخفيفة الهيكلية، السهلة التوازي، والمحفزة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب اللاحق المتوافقة مع السلوك، تدريب وتعليم البيانات الجماعية، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني التي تشارك فيها أجهزة الحافة. تتميز هذه المهام عمومًا بخصائص عالية التوازي، وانخفاض الارتباط، والقدرة على تحمل القدرة الحسابية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، بروتوكول Swarm، المحسنات الموزعة، وما إلى ذلك.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما المسارات التنفيذية لـ Gensyn وFlock.io واضحة نسبياً، ويمكن رؤية تقدم هندسي أولي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تكرّس Prime Intellect جهدها لبناء شبكة تدريب للذكاء الاصطناعي لا تحتاج إلى ثقة، حيث يمكن لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال الثلاث وحدات PRIME-RL + TOPLOC + SHARDCAST، في بناء نظام تدريب ذكاء اصطناعي لامركزي يتمتع بالتحقق والشفافية وآلية تحفيز كاملة.
شرح الآلية الرئيسية
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من قبل Prime Intellect، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولي، حيث يفصل بشكل هيكلي عملية التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهة موحدة وآليات التحقق والتجميع. مقارنة بعمليات التعلم الخاضع للإشراف التقليدية، يعد PRIME-RL أكثر ملاءمة لتحقيق تدريب مرن في بيئات دون جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم تعدد المهام المتوازية وتطور الاستراتيجيات.
TOPLOC هو آلية جوهرية للتحقق من التدريب تم اقتراحها من قبل Prime Intellect، تُستخدم لتحديد ما إذا كانت العقدة قد أكملت حقًا تعلم استراتيجيات فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "تسلسل الملاحظة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنه يحول لأول مرة المسارات السلوكية خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهو ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية قابلة للتدقيق والتحفيز قائمة على اللامركزية.
SHARDCAST هو بروتوكول لتوزيع الوزن والتجميع مصمم بواسطة Prime Intellect، مُحسَّن خصيصًا للبيئات الشبكية الحقيقية التي تتسم باللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية انتشار gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق التقارب التدريجي للوزن وتطور الإصدارات المتعددة. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يُحسن SHARDCAST بشكل ملحوظ من قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، ويعد الأساس الرئيسي لبناء إجماع وزن مستقر وتكرار تدريب مستمر.
OpenDiLoCo هو إطار لتحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وتم تصميمه خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للاتصال الناتجة عن التزامن العالمي، ويعتمد فقط على الجيران المحليين لإكمال تدريب النموذج التعاوني. بالاقتران مع التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب لامركزية.
PCCL هي مكتبة اتصالات خفيفة الوزن تم تصميمها خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، وتهدف إلى حل اختناقات التكيف في المكتبات التقليدية على الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الطوبولوجيا المتناثرة وضغط التدرجات والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسومات الاستهلاكية والعقد غير المستقرة، وهي المكون الأساسي لدعم قدرات الاتصال غير المتزامن لبروتوكول OpenDiLoCo. إنها تعزز بشكل ملحوظ من تحمل عرض النطاق الترددي لشبكة التدريب وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
شبكة Prime Intellect والتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق من دون إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعتمد تشغيل البروتوكول على ثلاث فئات من الأدوار الأساسية:
عقدة التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) ومنح المكافآت، لتشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
INTELLECT-2: أول نموذج تدريب لامركزي قابل للتحقق يتم إصداره
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز يتم تدريبه من خلال تعاون عقد لامركزية غير موثوقة وغير متزامنة في العالم، حيث يصل حجم المعلمات إلى 32B. تم إكمال نموذج INTELLECT-2 من خلال تدريب متعاون لنقاط GPU غير متجانسة بأكثر من 100 نقطة موزعة على ثلاث قارات، باستخدام بنية غير متزامنة تمامًا، حيث تجاوزت مدة التدريب 400 ساعة، مما يظهر قابلية وموثوقية الشبكة التعاونية غير المتزامنة. لا يعد هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا أول تطبيق نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 بروتوكولات أساسية مثل PRIME-RL (بنية التدريب غير المتزامنة)، TOPLOC (تحقق من سلوك التدريب) وSHARDCAST (تجميع الوزن غير المتزامن)، مما يدل على أن الشبكة التدريبية اللامركزية قد حققت لأول مرة انفتاح وموثوقية وحلقة تحفيز اقتصادية خلال عملية التدريب.
فيما يتعلق بالأداء، يعتمد INTELLECT-2 على QwQ-32B وتم تدريبه بشكل خاص باستخدام RL في الشيفرة والرياضيات، وهو في طليعة نماذج RL المفتوحة المصدر الحالية. على الرغم من أنه لم يتجاوز بعد النماذج المغلقة المصدر مثل GPT-4 أو Gemini، إلا أن معناه الحقيقي هو: إنه أول نموذج لامركزي كامل التدريب يمكن إعادة إنتاجه والتحقق منه وتدقيقه على مستوى العالم. لم تقم Prime Intellect بفتح نموذجها فقط، بل الأهم من ذلك أنها فتحت عملية التدريب نفسها - بيانات التدريب، مسارات تحديث الاستراتيجيات، عمليات التحقق ومنطق التجميع كلها شفافة وقابلة للتدقيق، مما أنشأ بيئة يمكن للجميع المشاركة فيها.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 11
أعجبني
11
4
إعادة النشر
مشاركة
تعليق
0/400
PebbleHander
· 08-12 12:40
مرة أخرى في تداول المفاهيم؟
شاهد النسخة الأصليةرد0
MEVictim
· 08-12 12:38
كلنا نفهم، كلنا نفهم، إنها مجرد قصة لجمع الأموال.
شاهد النسخة الأصليةرد0
RamenDeFiSurvivor
· 08-12 12:24
موت من الضحك، مرة أخرى بدأوا يرسمون BTC.
شاهد النسخة الأصليةرد0
rugpull_survivor
· 08-12 12:18
هل هذا؟ إنه خفيف جدًا لتدريب الذكاء الاصطناعي بلعبة.
نموذج جديد لتدريب الذكاء الاصطناعي في التشفير: استكشاف تحديات وفرص التدريب اللامركزي
الكأس المقدسة للذكاء الاصطناعي في التشفير: استكشاف الحدود في التدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى في عتبة التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفاعلية تطبيقه الفعلي. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا في قدرات حسابية كبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث أنماط الهيكلة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نركز عليه في هذا المقال.
يتمثل التدريب المركز في الطريقة التقليدية الأكثر شيوعًا، حيث يتم إكمال جميع عمليات التدريب بواسطة مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية المعمارية المتعمقة التعاون من كفاءة مشاركة الذاكرة، وتزامن التدرج، وآليات التحمل في أفضل حالاتها، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، مما يوفر مزايا الكفاءة العالية، والتحكم في الموارد، ولكن في نفس الوقت توجد مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، لتجاوز قيود الحساب والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أنها لا تزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والمزامنة، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية ناقل الربط السريع NVLink، حيث يتم تنسيق المهام الفرعية من قبل العقدة الرئيسية. تشمل الطرق السائدة ما يلي:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير عن بُعد للموظفين في عدة "مكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومة للرقابة. وتتمثل ميزتها الأساسية في: عدة نقاط غير موثوقة (قد تكون أجهزة كمبيوتر منزلية، أو وحدات معالجة رسومات سحابية، أو أجهزة حافة) تتعاون لإكمال مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتستخدم آليات تحفيزية مشفرة لضمان نزاهة المساهمات. التحديات الرئيسية التي تواجه هذا النموذج تشمل:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كلٌ منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، يتعلق بهندسة النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج، وما إذا كان يمكن "التعاون بشكل فعال + تحفيز الأمانة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
التعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرات التعاون المحلي، بينما يمتلك أيضًا مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية المControlled" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وبنية الثقة، وآلية الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نماذج التدريب، فإن التدريب اللامركزي لا ينطبق على جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، ومتطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة عادةً على ذاكرة وصول عشوائي عالية، وزمن تأخير منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بشكل فعال في شبكة مفتوحة؛ المهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالقوانين والامتثال والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفقد المهام التي تفتقر إلى أساس حوافز التعاون الدافع للمشاركة الخارجية. وتشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مفهوم زائف. في الواقع، تظهر التدريبات اللامركزية آفاق تطبيق واضحة في أنواع المهام الخفيفة الهيكلية، السهلة التوازي، والمحفزة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب اللاحق المتوافقة مع السلوك، تدريب وتعليم البيانات الجماعية، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني التي تشارك فيها أجهزة الحافة. تتميز هذه المهام عمومًا بخصائص عالية التوازي، وانخفاض الارتباط، والقدرة على تحمل القدرة الحسابية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، بروتوكول Swarm، المحسنات الموزعة، وما إلى ذلك.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما المسارات التنفيذية لـ Gensyn وFlock.io واضحة نسبياً، ويمكن رؤية تقدم هندسي أولي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تكرّس Prime Intellect جهدها لبناء شبكة تدريب للذكاء الاصطناعي لا تحتاج إلى ثقة، حيث يمكن لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال الثلاث وحدات PRIME-RL + TOPLOC + SHARDCAST، في بناء نظام تدريب ذكاء اصطناعي لامركزي يتمتع بالتحقق والشفافية وآلية تحفيز كاملة.
شرح الآلية الرئيسية
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من قبل Prime Intellect، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولي، حيث يفصل بشكل هيكلي عملية التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهة موحدة وآليات التحقق والتجميع. مقارنة بعمليات التعلم الخاضع للإشراف التقليدية، يعد PRIME-RL أكثر ملاءمة لتحقيق تدريب مرن في بيئات دون جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم تعدد المهام المتوازية وتطور الاستراتيجيات.
TOPLOC هو آلية جوهرية للتحقق من التدريب تم اقتراحها من قبل Prime Intellect، تُستخدم لتحديد ما إذا كانت العقدة قد أكملت حقًا تعلم استراتيجيات فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "تسلسل الملاحظة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنه يحول لأول مرة المسارات السلوكية خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهو ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية قابلة للتدقيق والتحفيز قائمة على اللامركزية.
SHARDCAST هو بروتوكول لتوزيع الوزن والتجميع مصمم بواسطة Prime Intellect، مُحسَّن خصيصًا للبيئات الشبكية الحقيقية التي تتسم باللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية انتشار gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق التقارب التدريجي للوزن وتطور الإصدارات المتعددة. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يُحسن SHARDCAST بشكل ملحوظ من قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، ويعد الأساس الرئيسي لبناء إجماع وزن مستقر وتكرار تدريب مستمر.
OpenDiLoCo هو إطار لتحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وتم تصميمه خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للاتصال الناتجة عن التزامن العالمي، ويعتمد فقط على الجيران المحليين لإكمال تدريب النموذج التعاوني. بالاقتران مع التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب لامركزية.
PCCL هي مكتبة اتصالات خفيفة الوزن تم تصميمها خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، وتهدف إلى حل اختناقات التكيف في المكتبات التقليدية على الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الطوبولوجيا المتناثرة وضغط التدرجات والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسومات الاستهلاكية والعقد غير المستقرة، وهي المكون الأساسي لدعم قدرات الاتصال غير المتزامن لبروتوكول OpenDiLoCo. إنها تعزز بشكل ملحوظ من تحمل عرض النطاق الترددي لشبكة التدريب وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
شبكة Prime Intellect والتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق من دون إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعتمد تشغيل البروتوكول على ثلاث فئات من الأدوار الأساسية:
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) ومنح المكافآت، لتشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
INTELLECT-2: أول نموذج تدريب لامركزي قابل للتحقق يتم إصداره
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز يتم تدريبه من خلال تعاون عقد لامركزية غير موثوقة وغير متزامنة في العالم، حيث يصل حجم المعلمات إلى 32B. تم إكمال نموذج INTELLECT-2 من خلال تدريب متعاون لنقاط GPU غير متجانسة بأكثر من 100 نقطة موزعة على ثلاث قارات، باستخدام بنية غير متزامنة تمامًا، حيث تجاوزت مدة التدريب 400 ساعة، مما يظهر قابلية وموثوقية الشبكة التعاونية غير المتزامنة. لا يعد هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا أول تطبيق نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 بروتوكولات أساسية مثل PRIME-RL (بنية التدريب غير المتزامنة)، TOPLOC (تحقق من سلوك التدريب) وSHARDCAST (تجميع الوزن غير المتزامن)، مما يدل على أن الشبكة التدريبية اللامركزية قد حققت لأول مرة انفتاح وموثوقية وحلقة تحفيز اقتصادية خلال عملية التدريب.
فيما يتعلق بالأداء، يعتمد INTELLECT-2 على QwQ-32B وتم تدريبه بشكل خاص باستخدام RL في الشيفرة والرياضيات، وهو في طليعة نماذج RL المفتوحة المصدر الحالية. على الرغم من أنه لم يتجاوز بعد النماذج المغلقة المصدر مثل GPT-4 أو Gemini، إلا أن معناه الحقيقي هو: إنه أول نموذج لامركزي كامل التدريب يمكن إعادة إنتاجه والتحقق منه وتدقيقه على مستوى العالم. لم تقم Prime Intellect بفتح نموذجها فقط، بل الأهم من ذلك أنها فتحت عملية التدريب نفسها - بيانات التدريب، مسارات تحديث الاستراتيجيات، عمليات التحقق ومنطق التجميع كلها شفافة وقابلة للتدقيق، مما أنشأ بيئة يمكن للجميع المشاركة فيها.