Крипто ШІ навчання нова парадигма: дослідження викликів і можливостей децентралізованого навчання

2025-08-12 12:16:55

Святе Грааль Crypto AI: Децентралізація тренування на передовій досліджень

У повному ланцюзі вартості AI тренування моделей є найбільш ресурсомістким та з найвищими технологічними бар'єрами етапом, який безпосередньо визначає верхню межу можливостей моделі та фактичну ефективність застосування. На відміну від легкого виклику на етапі висновків, процес тренування вимагає безперервних великих обсягів обчислювальної потужності, складних процесів обробки даних та підтримки високоефективних алгоритмів оптимізації, що робить його справжньою "важкою промисловістю" системи AI. З точки зору архітектурних парадигм, способи тренування можна поділити на чотири категорії: централізоване тренування, розподілене тренування, федеративне навчання та децентралізоване тренування, яке є основною темою цієї статті.

Централізоване навчання є найпоширенішим традиційним способом, що виконується єдиною установою в локальному високопродуктивному кластері, що охоплює весь процес навчання: від апаратного забезпечення, програмного забезпечення нижнього рівня, системи планування кластерів до всіх компонентів навчального фреймворку, які координуються єдиною контролюючою системою. Ця архітектура глибокої співпраці забезпечує оптимальну ефективність спільного використання пам'яті, синхронізації градієнтів і механізмів відмовостійкості, що робить її дуже підходящою для навчання масштабних моделей, таких як GPT, Gemini, з перевагами у високій ефективності та контрольованих ресурсах, але водночас має проблеми з монополізацією даних, бар'єрами для ресурсів, енергоспоживанням і ризиками єдиної точки відмови.

Розподілене навчання є основним способом навчання великих моделей сьогодні, його суть полягає в розподілі завдань навчання моделі на кілька машин для спільного виконання, щоб подолати обмеження обчислювальних та зберігаючих можливостей одного комп'ютера. Незважаючи на наявність "розподілених" характеристик у фізичному сенсі, в цілому все ще контролюється централізованою установою для управління та синхронізації, зазвичай працює в середовищі високошвидкісної локальної мережі, через технологію NVLink для високошвидкісного з'єднання, головний вузол координує всі підзавдання. Основні методи включають:

Паралельність даних: кожен вузол тренує різні дані, параметри спільні, потрібно узгодити ваги моделі
Модельна паралельність: розгортання різних частин моделі на різних вузлах для досягнення високої масштабованості
Паралельне трубопровідне виконання: покрокове послідовне виконання, підвищення пропускної здатності
Тензорна паралельність: тонка сегментація матричних обчислень, підвищення паралельної гранулярності

Розподілене навчання є поєднанням "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той самий бос дистанційно керує співробітниками кількох "офісів" для спільного виконання завдання. Наразі практично всі основні великі моделі навчаються саме таким чином.

Децентралізоване навчання означає більш відкритий і стійкий до цензури шлях у майбутнє. Його основні характеристики полягають у тому, що: кілька недовірених вузлів (можливо, домашні комп'ютери, хмарні GPU або крайові пристрої) співпрацюють для виконання навчальних завдань без централізованого координатора, зазвичай за допомогою протоколів для розподілу завдань та співпраці, а також за допомогою механізмів криптостимулювання для забезпечення чесності внесків. Основні виклики, з якими стикається ця модель, включають:

Гетерогенність пристроїв і складнощі розподілу: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Вузьке місце в ефективності зв'язку: нестабільний мережевий зв'язок, очевидне вузьке місце в синхронізації градієнтів
Відсутність надійного виконання: відсутність надійного середовища виконання ускладнює перевірку того, чи дійсно вузол бере участь у обчисленнях.
Відсутність єдиного координаційного центру: немає центрального диспетчера, розподіл завдань, механізм відкату аномалій складний

Децентралізоване навчання можна розуміти як: група глобальних волонтерів, які спільно вносять обчислювальні потужності для навчання моделі, але "справді здійсненне масштабне децентралізоване навчання" все ще є системною інженерною проблемою, що охоплює системну архітектуру, комунікаційні протоколи, криптографічну безпеку, економічні механізми, верифікацію моделей та інші аспекти, але чи можливо "спільно ефективно + заохочувати чесність + отримувати правильні результати" все ще перебуває на ранній стадії прототипування.

Федеративне навчання, як перехідна форма між розподіленістю та децентралізацією, підкреслює місцеве зберігання даних та централізовану агрегацію параметрів моделі, що підходить для сценаріїв, що акцентують увагу на дотриманні конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та локальні кооперативні можливості, одночасно володіючи перевагами розподілених даних у децентралізованому навчанні, але все ще залежить від надійного координуючого боку і не має повністю відкритих та антикорупційних характеристик. Його можна вважати "контрольованим децентралізованим" рішенням у сценаріях дотримання конфіденційності, з відносно м'якими завданнями навчання, структурами довіри та комунікаційними механізмами, що робить його більш придатним для перехідної архітектури в промисловості.

Децентралізація навчання: межі, можливості та реальні шляхи

З точки зору парадигми навчання, децентралізоване навчання не підходить для всіх типів завдань. У певних сценаріях, через складну структуру завдання, високі вимоги до ресурсів або великі труднощі в співпраці, воно природно не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто залежить від великої відеопам'яті, низької затримки та високої пропускної здатності, тому важко ефективно розділити та синхронізувати в відкритій мережі; завдання, що підлягають сильним обмеженням конфіденційності даних та суверенітету, обмежені правовими та етичними нормами, що унеможливлює відкритий обмін; а завдання, які не мають основи для співпраці, позбавлені зовнішніх стимулів для участі. Ці межі разом формують реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є хибним твердженням. Насправді, у структур легких, простих для паралельного виконання, заохочувальних завдань, децентралізоване навчання демонструє чіткі перспективи застосування. Включаючи, але не обмежуючись: LoRA доопрацювання, завдання після навчання для вирівнювання поведінки, навчання та розмітка даних на основі краудсорсингу, навчання невеликих базових моделей з контрольованими ресурсами, а також сцени кооперативного навчання з участю крайових пристроїв. Ці завдання мають загальні характеристики високої паралельності, низької зв'язаності та здатності до толерантності до гетерогенних обчислювальних потужностей, що робить їх дуже придатними для співпраці через P2P мережі, протокол Swarm, розподілені оптимізатори та інші способи.

Децентралізація тренування класичних проектів

На сьогоднішній день у сфері децентралізованого навчання та федеративного навчання, до представницьких блокчейн-проєктів належать Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технологічної інноваційності та складності інженерного виконання, Prime Intellect, Nous Research та Pluralis.ai запропонували чимало оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, що представляє сучасні теоретичні дослідження; в той час як реалізаційні шляхи Gensyn та Flock.io є відносно чіткими, і вже можна побачити перші інженерні досягнення.

Prime Intellect: тренувальні траєкторії, що підлягають перевірці, послідовники кооперативних мереж посилення навчання

Prime Intellect прагне створити мережу навчання ШІ, що не потребує довіри, щоб будь-хто міг брати участь у навчанні та отримувати надійну винагороду за свій обчислювальний внесок. Prime Intellect сподівається створити децентралізовану систему навчання ШІ з верифікацією, відкритістю та повноцінним механізмом стимулювання через три основні модулі: PRIME-RL + TOPLOC + SHARDCAST.

Докладний опис ключових механізмів

PRIME-RL є фреймворком моделювання завдань та виконання, розробленим Prime Intellect для децентралізованих навчальних сценаріїв, спеціально створеним для гетерогенних мереж та асинхронних учасників. Він використовує посилене навчання як пріоритетний адаптований об'єкт, структурно декомпонуючи процеси навчання, висновку та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно завершувати цикл завдань на місцевому рівні та співпрацювати через стандартизовані інтерфейси з механізмами верифікації та агрегації. У порівнянні з традиційними процесами контрольованого навчання, PRIME-RL краще підходить для реалізації еластичного навчання в середовищах без централізованого планування, що знижує складність системи і закладає основу для підтримки паралельного виконання багатьох завдань і еволюції стратегій.

TOPLOC є основним механізмом верифікації навчання, запропонованим Prime Intellect, для визначення, чи дійсно вузол виконав ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не покладається на повторний розрахунок всього моделі, а здійснює верифікацію легковагової структури шляхом аналізу локальної узгодженості траєкторій між "послідовністю спостережень ↔ оновленням стратегії". Вперше він перетворює траєкторії поведінки під час навчання на об'єкти, які можна перевірити, що є ключовою інновацією для реалізації бездоверчого розподілу винагороди за навчання та надає здійсненний шлях до побудови аудиторних, стимулюючих децентралізованих мереж співпраці в навчанні.

SHARDCAST є протоколом важкості поширення та агрегації, розробленим Prime Intellect, оптимізованим для асинхронних, обмежених по пропускній спроможності та змінних станів вузлів у реальних мережевих середовищах. Він поєднує механізм поширення gossip з локальною синхронізацією, дозволяючи кільком вузлам продовжувати подавати часткові оновлення в умовах асинхронності, реалізуючи прогресивну конвергенцію важкості та еволюцію з кількома версіями. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST значно підвищує масштабованість та стійкість до помилок децентралізованого навчання, є основою для побудови стабільного консенсусу важкості та безперервної ітерації навчання.

OpenDiLoCo є незалежною реалізацією та відкритим вихідним кодом оптимізаційного фреймворку зв'язку, що був розроблений командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind. Він спеціально розроблений для вирішення типових викликів, таких як обмежена пропускна здатність, гетерогенність пристроїв і нестабільність вузлів під час децентралізованого навчання. Архітектура заснована на паралелізмі даних, завдяки побудові розріджених топологій, таких як Ring, Expander, Small-World, вона уникає високих витрат на зв'язок при глобальній синхронізації, покладаючись лише на локальних сусідніх вузлів для завершення спільного навчання моделей. Поєднуючи асинхронне оновлення та механізм відновлення після збоїв, OpenDiLoCo дозволяє споживчим GPU та крайнім пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи можливість участі в глобальному кооперативному навчанні, що є однією з ключових комунікаційних інфраструктур для побудови децентралізованих навчальних мереж.

PCCL є легковажною комунікаційною бібліотекою, створеною Prime Intellect для децентралізованого середовища навчання AI, яка має на меті вирішення адаптаційних вузьких місць традиційних комунікаційних бібліотек у гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує рідкісні топології, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з місця зупинки, може працювати на споживчих GPU та нестабільних вузлах, є базовим компонентом для підтримки асинхронної комунікаційної здатності протоколу OpenDiLoCo. Він суттєво підвищує толерантність до пропускної здатності навчальної мережі та сумісність пристроїв, прокладаючи "останню милю" комунікаційної бази для створення справді відкритої, ненадійної мережі спільного навчання.

Prime Intellect стимулююча мережа та рольове розподілення

Prime Intellect побудував мережу навчання, що не потребує дозволу, є перевірною та має економічний механізм стимулювання, що дозволяє будь-кому брати участь у завданнях і отримувати винагороду на основі реального внеску. Протокол працює на основі трьох типів основних ролей:

Ініціатор завдання: визначення навчального середовища, початкової моделі, функції винагороди та стандартів валідації
Тренувальний вузол: виконання локального навчання, подача оновлень ваг та спостережуваних траєкторій
Вузли верифікації: використання механізму TOPLOC для перевірки справжності навчальної поведінки та участі у розрахунках винагороди та агрегації стратегій

Ядро процесу угоди включає в себе публікацію завдань, навчання вузлів, валідацію траєкторій, агрегацію ваг (SHARDCAST) та виплату винагород, що формує стимулюючий замкнений цикл навколо "реальних тренувальних дій".

INTELLECT-2: перший перевірений децентралізований навчальний модель.

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель зміцнення навчання, що була тренована за допомогою асинхронних, бездовірчих децентралізованих вузлів, з параметрами обсягом 32B. Модель INTELLECT-2 була завершена за допомогою співпраці більше 100 гетерогенних вузлів GPU, розташованих на трьох континентах, з використанням повністю асинхронної архітектури, час тренування перевищив 400 годин, що демонструє доцільність та стабільність асинхронної співпраці в мережі. Ця модель не лише стала проривом у продуктивності, але також є першим систематичним втіленням парадигми "тренування є консенсусом", запропонованою Prime Intellect. INTELLECT-2 інтегрує основні модулі протоколу, такі як PRIME-RL (асинхронна структура тренування), TOPLOC (перевірка поведінки тренування) та SHARDCAST (асинхронна агрегація ваги), що позначає перше досягнення відкритості, верифікації та економічної мотивації в процесі тренування в децентралізованій навчальній мережі.

У плані продуктивності, INTELLECT-2 базується на QwQ-32B, пройшов спеціалізоване RL навчання в коді та математиці, перебуваючи на передньому краї сучасних відкритих RL моделей. Попри те, що він ще не перевершив закриті моделі, такі як GPT-4 або Gemini, його справжнє значення полягає в тому, що це перший у світі повністю тренувальний процес, який можна відтворити, перевірити та провести аудит децентралізованої моделі. Prime Intellect не лише відкрив модель, але й, що більш важливо, відкрив сам процес навчання -- навчальні дані, траєкторії оновлення стратегій, процеси валідації та логіку агрегації є прозорими та доступними для перевірки, що створює можливість для всіх.

PRIME-3.77%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

11 лайків