狠狠躁天天躁中文字幕_久久riav_亚洲 欧美 日本 国产 高清_国产精品300页_精品免费国产一区二区三区四区_亚洲国产精彩视频_av官网_中文字幕在线观看三区_国产精品视频专区_色婷婷久

  • 元宇宙:本站分享元宇宙相關(guān)資訊,資訊僅代表作者觀點與平臺立場無關(guān),僅供參考.

Galaxy Research:Decentralization人工智能訓(xùn)練架構(gòu)、機遇與挑戰(zhàn)

作者:LucasTcheyan、ArjunYenamandra,來源:GalaxyResearch,編譯:金色財經(jīng)簡介

去年,GalaxyResearch發(fā)表了首篇關(guān)于Crypto與人工智能交叉領(lǐng)域的文章。文章探討了Crypto無需信任和無需許可的基礎(chǔ)設(shè)施如何成為人工智能創(chuàng)新的基礎(chǔ)。其中包括:為應(yīng)對圖形處理器(GPU)短缺而興起的處理能力(或稱計算)去中心化市場的出現(xiàn);零知識機器學(xué)習(xí)(zkML)早期在可驗證的鏈上推理方面的應(yīng)用;以及自主人工智能代理簡化復(fù)雜交互并使用Crypto作為原生交換媒介的潛力。

當(dāng)時,許多此類舉措尚處于萌芽階段,只是一些引人注目的概念驗證,暗示著其相比中心化方案具有實際優(yōu)勢,但規(guī)模尚未擴大到足以重塑人工智能格局。然而,自那以后的一年里,去中心化人工智能在實現(xiàn)方面取得了有意義的進展。為了抓住這一勢頭并發(fā)掘最具前景的進展,GalaxyResearch將在未來一年發(fā)布一系列文章,深入探討加密+人工智能前沿領(lǐng)域的特定垂直領(lǐng)域。

本文首發(fā)于去中心化訓(xùn)練,重點介紹致力于在全球范圍內(nèi)實現(xiàn)基礎(chǔ)模型無許可訓(xùn)練的項目。這些項目的動機是雙重的。從實踐角度來看,他們認(rèn)識到全球大量閑置的GPU可以用于模型訓(xùn)練,從而為世界各地的AI工程師提供原本難以承受的訓(xùn)練流程,并使開源AI開發(fā)成為現(xiàn)實。從理念角度來看,這些團隊的動機在于領(lǐng)先的中心化AI實驗室對我們這個時代最重要的技術(shù)革命之一的嚴(yán)格控制,以及創(chuàng)造開放替代方案的迫切需求。

更廣泛地講,對于加密領(lǐng)域而言,實現(xiàn)基礎(chǔ)模型的去中心化訓(xùn)練和后續(xù)訓(xùn)練,是構(gòu)建完全鏈上AI堆棧的關(guān)鍵一步,該堆棧無需許可,且在每一層均可訪問。GPU市場可以接入模型,提供訓(xùn)練和推理所需的硬件。zkML提供商可用于驗證模型輸出并保護隱私。AI代理可以作為可組合的構(gòu)建塊,將模型、數(shù)據(jù)源和協(xié)議組合成更高階的應(yīng)用程序。

本報告探討了去中心化人工智能協(xié)議的底層架構(gòu)、其旨在解決的技術(shù)問題以及去中心化訓(xùn)練的前景。Crypto與人工智能的底層前提與一年前相比保持不變。Crypto為人工智能提供了一個無需許可、無需信任且可組合的價值轉(zhuǎn)移結(jié)算層。現(xiàn)在的挑戰(zhàn)是證明去中心化方法能夠比中心化方法帶來實際優(yōu)勢。 模型訓(xùn)練基礎(chǔ)

在深入了解去中心化訓(xùn)練的最新進展之前,有必要先對大型語言模型(LLM)及其底層架構(gòu)有一個基本的了解。這將有助于讀者理解這些項目的工作原理,以及它們試圖解決的主要問題。 Transformer

大型語言模型(LLM)(例如ChatGPT)由一種稱為Transformer的架構(gòu)提供支持。Transformer最早在2017年谷歌的一篇論文中提出,是人工智能開發(fā)領(lǐng)域最重要的創(chuàng)新之一。簡而言之,Transformer會提取數(shù)據(jù)(稱為token),并應(yīng)用各種機制來學(xué)習(xí)這些token之間的關(guān)系。

詞條之間的關(guān)系使用權(quán)重進行建模。權(quán)重可以被認(rèn)為是構(gòu)成模型的數(shù)百萬到數(shù)萬億個旋鈕,它們不斷被調(diào)整,直到能夠一致地預(yù)測序列中的下一個詞條。訓(xùn)練完成后,模型基本上可以捕捉人類語言背后的模式和含義。

Transformer訓(xùn)練的關(guān)鍵組成部分包括:

前向傳遞:在訓(xùn)練過程的第一步,Transformer會從更大的數(shù)據(jù)集中輸入一批token。基于這些輸入,模型會嘗試預(yù)測下一個token應(yīng)該是什么。在訓(xùn)練開始時,模型的權(quán)重是隨機的。

損失計算:前向傳播預(yù)測隨后會用于計算損失分?jǐn)?shù),該分?jǐn)?shù)衡量這些預(yù)測與輸入模型的原始數(shù)據(jù)批次中實際標(biāo)記的差距。換句話說,模型在前向傳播過程中產(chǎn)生的預(yù)測與用于訓(xùn)練它的更大數(shù)據(jù)集中的實際標(biāo)記相比如何?在訓(xùn)練過程中,目標(biāo)是降低這個損失分?jǐn)?shù),以提高模型的準(zhǔn)確性。

反向傳播:然后使用損失分?jǐn)?shù)計算每個權(quán)重的梯度。這些梯度告訴模型如何在下一次前向傳播之前調(diào)整權(quán)重以減少損失。

Optimizer更新:Optimizer算法讀取這些梯度并調(diào)整每個權(quán)重以減少損失。

重復(fù):重復(fù)上述步驟,直到所有數(shù)據(jù)都已消耗并且模型開始達到收斂-換句話說,當(dāng)進一步的優(yōu)化不再產(chǎn)生顯著的損失減少或性能改進時。 訓(xùn)練(預(yù)訓(xùn)練和后訓(xùn)練)

完整的模型訓(xùn)練過程包含兩個獨立的步驟:預(yù)訓(xùn)練和后訓(xùn)練。上述步驟是預(yù)訓(xùn)練過程的核心組成部分。完成后,它們會生成一個預(yù)先訓(xùn)練的基礎(chǔ)模型,通常稱為基礎(chǔ)模型。

然而,模型在預(yù)訓(xùn)練后通常需要進一步改進,這被稱為后訓(xùn)練。后訓(xùn)練用于以各種方式進一步改進基礎(chǔ)模型,包括提高其準(zhǔn)確性或針對特定用例(例如翻譯或醫(yī)學(xué)診斷)進行定制。

后訓(xùn)練是讓大型語言模型(LLM)成為如今強大工具的關(guān)鍵一步。后訓(xùn)練有幾種不同的方法。其中最流行的兩種是:

監(jiān)督微調(diào)(SFT): SFT與上述預(yù)訓(xùn)練過程非常相似。主要區(qū)別在于,基礎(chǔ)模型基于更精心策劃的數(shù)據(jù)集或提示和答案進行訓(xùn)練,因此它可以學(xué)習(xí)遵循特定指令或?qū)W⒂谀硞領(lǐng)域。

強化學(xué)習(xí)(RL): RL并非通過輸入新數(shù)據(jù)來改進模型,而是通過對模型的輸出進行獎勵評分,并讓模型更新權(quán)重以最大化該獎勵。最近,推理模型(下文將介紹)已使用RL來改進其輸出。近年來,隨著預(yù)訓(xùn)練擴展問題不斷涌現(xiàn),在訓(xùn)練后使用RL和推理模型取得了重大進展,因為它無需額外數(shù)據(jù)或大量計算即可顯著提升模型性能。

具體來說,RL后訓(xùn)練非常適合解決分散訓(xùn)練中面臨的障礙(如下所述)。這是因為在RL中大多數(shù)時間,模型使用前向傳遞(模型進行預(yù)測但尚未改變自身)生成大量輸出。這些前向傳遞不需要機器之間的協(xié)調(diào)或通信,并且可以異步完成。它們也是可并行的,這意味著它們可以分解為可在多個GPU上同時執(zhí)行的獨立子任務(wù)。這是因為每個rollout都可以獨立計算,只需添加計算即可通過訓(xùn)練運行來擴大吞吐量。只有在選出最佳答案后,模型才會更新其內(nèi)部權(quán)重,從而降低機器需要同步的頻率。

模型訓(xùn)練完成后,使用它來生成輸出的過程稱為推理。與需要調(diào)整數(shù)百萬甚至數(shù)十億個權(quán)重的訓(xùn)練不同,推理會保持這些權(quán)重不變,并簡單地將它們應(yīng)用于新的輸入。對于大型語言模型(LLM)來說,推理意味著獲取一個提示,將其運行到模型的各個層,并一步一步地預(yù)測最可能的下一個標(biāo)記。由于推理不需要反向傳播(根據(jù)模型的誤差調(diào)整權(quán)重的過程)或權(quán)重更新,因此它在計算方面的要求遠低于訓(xùn)練,但由于現(xiàn)代模型的規(guī)模龐大,它仍然是資源密集型的。

簡而言之:推理是聊天機器人、代碼助手和翻譯工具等應(yīng)用程序的驅(qū)動力。在這個階段,模型將其“學(xué)到的知識”付諸實踐。 訓(xùn)練開銷

促進上述訓(xùn)練過程需要資源密集型,并且需要高度專業(yè)化的軟件和硬件才能大規(guī)模運行。世界領(lǐng)先的人工智能實驗室的投入已達到前所未有的水平,從數(shù)億美元到數(shù)十億美元不等。OpenAI首席執(zhí)行官SamAltman表示,GPT-4的訓(xùn)練成本超過1億美元,而Anthropic首席執(zhí)行官DarioAmodei則表示,超過10億美元的訓(xùn)練項目已在進行中。

這些成本的很大一部分來自GPU。像NVIDIA的H100或B200這樣的頂級GPU,單價高達3萬美元,據(jù)報道,OpenAI計劃到2025年底部署超過一百萬個GPU。然而,僅有GPU的強大功能是不夠的。這些系統(tǒng)必須部署在配備超高速通信基礎(chǔ)設(shè)施的高性能數(shù)據(jù)中心。NVIDIANVLink等技術(shù)支持服務(wù)器內(nèi)GPU之間的快速數(shù)據(jù)交換,而InfiniBand則連接服務(wù)器集群,使它們能夠作為單一、統(tǒng)一的計算結(jié)構(gòu)運行。

FHsxg5fnkhXyrEnC4aBTRuOMCtwMJrOoNQb3RQhK.jpegNousResearc

背景

NousResearch成立于2022年,是一家開源AI研究機構(gòu)。該團隊最初是一個由開源AI研究人員和開發(fā)者組成的非正式團體,致力于解決開源AI代碼的局限性。其使命是“創(chuàng)造并提供最佳的開源模型”。

團隊很早就將去中心化訓(xùn)練視為主要障礙。具體來說,他們意識到,GPU的訪問以及協(xié)調(diào)GPU之間通信的工具主要是為了迎合大型中心化AI公司而開發(fā)的,這使得資源受限的組織幾乎沒有空間參與到有意義的開發(fā)中。例如,NVIDIA最新的BlackwellGPU(例如B200)可以使用NVLink交換系統(tǒng)以高達每秒1.8TB的速度相互通信。這可與主流互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的總帶寬相媲美,并且只有在中心化、數(shù)據(jù)中心規(guī)模的部署中才能實現(xiàn)。因此,小型或分布式網(wǎng)絡(luò)幾乎不可能在不重新思考通信策略的情況下達到大型AI實驗室的性能。

在著手解決去中心化訓(xùn)練問題之前,Nous已經(jīng)為人工智能領(lǐng)域做出了重大貢獻。2023年8月,Nous發(fā)表了《YaRN:大型語言模型的高效上下文窗口擴展》。這篇論文解決了一個簡單但重要的問題:大多數(shù)人工智能模型一次只能記住和處理固定數(shù)量的文本(即它們的“上下文窗口”)。例如,一個以2,000字為限制進行訓(xùn)練的模型,如果輸入的文檔更長,很快就會開始忘記或丟失信息。YaRN引入了一種進一步擴展此限制的方法,而無需從頭開始重新訓(xùn)練模型。它調(diào)整了模型跟蹤單詞位置的方式(就像書中的書簽一樣),這樣即使文本長達數(shù)萬字,它仍然可以跟蹤信息流。該方法允許模型處理最多128,000個標(biāo)記的序列——大約相當(dāng)于馬克·吐溫的《哈克貝利·費恩歷險記》的長度——同時使用的計算能力和訓(xùn)練數(shù)據(jù)比舊方法少得多。簡而言之,YaRN使AI模型能夠一次性“閱讀”并理解更長的文檔、對話或數(shù)據(jù)集。這是AI能力擴展的一大進步,并已被包括OpenAI和中國的Deepseek在內(nèi)的更廣泛的研究社區(qū)所采用。

DeMo和DisTro

2024年3月,Nous發(fā)表了一項分布式訓(xùn)練領(lǐng)域的突破性成果,名為“DecoupledMomentumOptimization”(DeMo)。DeMo由Nous研究人員BowenPeng和JeffreyQuesnelle與DiederikP.Kingma(OpenAI聯(lián)合創(chuàng)始人兼AdamW優(yōu)化器發(fā)明者)合作開發(fā)。它是Nous去中心化訓(xùn)練棧的主要構(gòu)建模塊,通過減少GPU之間交換的數(shù)據(jù)量,降低了分布式數(shù)據(jù)并行模型訓(xùn)練設(shè)置中的通信開銷。在數(shù)據(jù)并行訓(xùn)練中,每個節(jié)點都保存模型權(quán)重的完整副本,但數(shù)據(jù)集會被拆分成由不同節(jié)點處理的塊。

AdamW是模型訓(xùn)練中最常用的優(yōu)化器之一。AdamW的一個關(guān)鍵功能是平滑所謂的動量(momentum),即模型權(quán)重過去變化的運行平均值。本質(zhì)上,AdamW有助于消除數(shù)據(jù)并行訓(xùn)練過程中引入的噪聲,從而提高訓(xùn)練效率。NousResearch基于AdamW和DeMo創(chuàng)建了一個全新的優(yōu)化器,將動量拆分為本地部分和跨不同訓(xùn)練器的共享部分。這通過限制節(jié)點之間必須共享的數(shù)據(jù)量,減少了節(jié)點之間所需的通信量。

DeMO選擇性地關(guān)注每個GPU迭代過程中變化最快的參數(shù)。其邏輯很簡單:變化較大的參數(shù)對學(xué)習(xí)至關(guān)重要,應(yīng)該在優(yōu)先級更高的工作器之間同步。同時,變化較慢的參數(shù)可以暫時滯后,而不會顯著影響收斂。實際上,這可以過濾掉噪聲更新,同時保留最有意義的更新。Nous還采用了壓縮技術(shù),包括一種類似于JPEG壓縮圖像的離散余弦變換(DCT)方法,以進一步減少發(fā)送的數(shù)據(jù)量。通過僅同步最重要的更新,DeMO將通信開銷降低了10倍到1,000倍(具體取決于模型大小)。

2024年6月,Nous團隊推出了他們的第二項重大創(chuàng)新,即DistributedTrainingOptimizer(DisTro)。DeMo提供了核心的優(yōu)化器創(chuàng)新,而DisTro則將其整合到一個更廣泛的優(yōu)化器框架中,該框架進一步壓縮了GPU之間共享的信息,并解決了GPU同步、容錯和負(fù)載平衡等問題。2024年12月,Nous利用DisTro在類似LlaMA的架構(gòu)上訓(xùn)練了一個包含150億個參數(shù)的模型,證明了該方法的可行性。

Psyche

今年五月,Nous發(fā)布了Psyche,這是一個用于協(xié)調(diào)去中心化訓(xùn)練的框架,在DeMO和DisTro優(yōu)化器架構(gòu)上進行了進一步的創(chuàng)新。Psyche的主要技術(shù)升級包括:通過允許GPU在開始下一步訓(xùn)練時發(fā)送模型更新,改進了異步訓(xùn)練。這最大限度地減少了空閑時間,并使GPU的利用率更接近集中式、緊密耦合的系統(tǒng)。Psyche還進一步改進了DisTro引入的壓縮技術(shù),將通信負(fù)載進一步縮小了3倍。

Psyche可以通過完全鏈上(通過Solana)或鏈下設(shè)置實現(xiàn)。它包含三個主要參與者:協(xié)調(diào)器、客戶端和數(shù)據(jù)提供者。協(xié)調(diào)器存儲所有必要的信息以促進訓(xùn)練運行,包括模型的最新狀態(tài)、參與的客戶端以及數(shù)據(jù)分配和輸出驗證。客戶端是實際的GPU提供者,在訓(xùn)練運行期間執(zhí)行訓(xùn)練任務(wù)。除了模型訓(xùn)練之外,它們還參與見證過程(如下所述)。數(shù)據(jù)提供者(客戶端可以自行存儲)提供訓(xùn)練所需的數(shù)據(jù)。

D9MhM4as6xj9h86JpOg86a88U6gZKm0dwbTYmaku.jpeg2025年5月,NousResearch啟動了迄今為止規(guī)模最大的訓(xùn)練運行:Consilience,這是一個擁有400億個參數(shù)的Transformer,正在Psyche去中心化訓(xùn)練網(wǎng)絡(luò)中對約20萬億個token進行預(yù)訓(xùn)練。訓(xùn)練仍在進行中。到目前為止,運行基本平穩(wěn),但出現(xiàn)了一些損失峰值,表明優(yōu)化軌跡短暫偏離了收斂。為此,團隊回滾到最后一個健康檢查點,并使用OLMo的Skip-Step保護措施對優(yōu)化器進行封裝,該保護措施會自動跳過任何損失或梯度范數(shù)與均值相差幾個標(biāo)準(zhǔn)差的更新,從而降低未來出現(xiàn)損失峰值的風(fēng)險。

Solana的角色

雖然Psyche可以在鏈下環(huán)境中運行,但它旨在在SolanaBlockchain上使用。Solana充當(dāng)訓(xùn)練網(wǎng)絡(luò)的信任和問責(zé)層,在鏈上記錄客戶承諾、見證人證明和訓(xùn)練元數(shù)據(jù)。這為每一輪訓(xùn)練創(chuàng)建了不可篡改的審計跟蹤,從而能夠透明地驗證誰做出了貢獻、完成了哪些工作以及是否通過了驗證。

Nous還計劃使用Solana來促進訓(xùn)練獎勵的分配。盡管該項目尚未發(fā)布正式的Tokens經(jīng)濟學(xué),但Psyche的文檔概述了一個系統(tǒng),其中協(xié)調(diào)員將跟蹤客戶的計算貢獻并根據(jù)已驗證的工作分配積分。然后,這些積分可以通過充當(dāng)鏈上托管的財務(wù)智能合約兌換成Tokens。完成有效訓(xùn)練步驟的客戶可以根據(jù)其貢獻直接從該合約中領(lǐng)取獎勵。Psyche尚未在訓(xùn)練運行中使用獎勵機制,但一旦正式啟動,該系統(tǒng)預(yù)計將在Nous加密Tokens的分配中發(fā)揮核心作用。

Hermes模型系列

除了這些研究貢獻外,Nous還憑借其Hermes系列指令調(diào)優(yōu)的大型語言模型(LLM),確立了其領(lǐng)先的開源模型開發(fā)者地位。2024年8月,該團隊推出了Hermes-3,這是一套基于Llama3.1進行微調(diào)的全參數(shù)模型套件,在公開排行榜上取得了頗具競爭力的成績,盡管規(guī)模相對較小,卻足以與規(guī)模更大的專有模型相媲美。

最近,Nous在2025年8月發(fā)布了Hermes-4模型系列,這是迄今為止最先進的模型系列。Hermes-4專注于提升模型的逐步推理能力,同時在常規(guī)指令執(zhí)行方面也表現(xiàn)出色。它在數(shù)學(xué)、編程、理解和常識測試中均表現(xiàn)出色。團隊秉承Nous的開源使命,公開發(fā)布了所有Hermes-4模型權(quán)重,供所有人使用和構(gòu)建。此外,Nous還發(fā)布了一個名為NousChat的模型無障礙界面,并在發(fā)布后的第一周內(nèi)免費開放。

Hermes模型的發(fā)布不僅鞏固了Nous作為模型構(gòu)建組織的信譽,也為其更廣泛的研究議程提供了實踐驗證。Hermes的每一次發(fā)布都證明了尖端能力可以在開放環(huán)境中實現(xiàn),為團隊的去中心化訓(xùn)練突破(DeMo、DisTrO和Psyche)奠定了基礎(chǔ),并最終促成了雄心勃勃的Consilience40B運行。

Atropos

如上所述,由于推理模型的進步以及預(yù)訓(xùn)練的擴展限制,強化學(xué)習(xí)在后訓(xùn)練中發(fā)揮著越來越重要的作用。Atropos是Nous在去中心化環(huán)境下針對強化學(xué)習(xí)的解決方案。它是一個適用于LLM的即插即用模塊化強化學(xué)習(xí)框架,可適應(yīng)不同的推理后端、訓(xùn)練方法、數(shù)據(jù)集和強化學(xué)習(xí)環(huán)境。

當(dāng)使用大量GPU以去中心化的方式進行強化學(xué)習(xí)后訓(xùn)練時,模型在訓(xùn)練過程中生成的即時輸出將具有不同的完成時間。Atropos充當(dāng)一個rollout處理器,即一個中央?yún)f(xié)調(diào)器,用于協(xié)調(diào)跨設(shè)備的任務(wù)生成和完成,從而實現(xiàn)異步強化學(xué)習(xí)訓(xùn)練。

Atropos的初始版本于4月發(fā)布,但目前僅包含一個協(xié)調(diào)強化學(xué)習(xí)任務(wù)的環(huán)境框架。Nous計劃在未來幾個月內(nèi)發(fā)布補充的訓(xùn)練和推理框架。 PrimeIntellect

背景

PrimeIntellect成立于2024年,致力于構(gòu)建大規(guī)模去中心化AI開發(fā)基礎(chǔ)設(shè)施。該團隊由VincentWeisser和JohannesHagemann共同創(chuàng)立,最初專注于整合來自中心化和去中心化提供商的計算資源,以支持高級AI模型的協(xié)作式分布式訓(xùn)練。PrimeIntellect的使命是實現(xiàn)AI開發(fā)的民主化,使全球的研究人員和開發(fā)者能夠訪問可擴展的計算資源,并共同擁有開放式AI創(chuàng)新。

OpenDiLoCo、INTELLECT-1和PRIME

2024年7月,PrimeIntellect發(fā)布了OpenDiLoCo,這是谷歌DeepMind為數(shù)據(jù)并行訓(xùn)練開發(fā)的低通信模型訓(xùn)練方法DiLoCo的開源版本。谷歌基于以下觀點開發(fā)了該模型:“在現(xiàn)代規(guī)模下,通過標(biāo)準(zhǔn)反向傳播進行訓(xùn)練帶來了前所未有的工程和基礎(chǔ)設(shè)施挑戰(zhàn)……難以協(xié)調(diào)和緊密同步大量加速器。”雖然這種說法側(cè)重于大規(guī)模訓(xùn)練的實用性,而非開源開發(fā)的精神,但它默認(rèn)了長期集中式訓(xùn)練的局限性以及對分布式替代方案的需求。

DiLoCo減少了GPU之間在訓(xùn)練模型時共享信息的頻率和數(shù)量。在集中式設(shè)置下,GPU會在訓(xùn)練的每個步驟后彼此共享所有更新后的梯度。而在DiLoCo中,更新梯度的共享頻率較低,以減少通信開銷。這創(chuàng)建了一個雙重優(yōu)化架構(gòu):各個GPU(或GPU集群)運行內(nèi)部優(yōu)化,在每一步后更新自身模型的權(quán)重;以及外部優(yōu)化,內(nèi)部優(yōu)化在GPU之間共享,然后所有GPU都會根據(jù)所做的更改進行更新。

OpenDiLoCo在其初始版本中展示了90%至95%的GPU利用率,這意味著盡管分布在兩大洲和三個國家,但幾乎沒有任何機器處于閑置狀態(tài)。OpenDiLoCo能夠重現(xiàn)相當(dāng)?shù)挠?xùn)練結(jié)果和性能,而通信量卻減少了500倍(如下圖紫色線追趕藍色線所示)。

flXXAH4lakXqv8yV5u8kWHlB45YI69sMJtLS8Lrw.jpeg

訓(xùn)練步驟中的活躍訓(xùn)練節(jié)點,展示了訓(xùn)練架構(gòu)處理動態(tài)節(jié)點參與的能力

INTELLECT-1是對PrimeIntellect去中心化訓(xùn)練方法的重要驗證,并獲得了杰克·克拉克(Anthropic聯(lián)合創(chuàng)始人)等人工智能思想領(lǐng)袖的稱贊,被認(rèn)為是去中心化訓(xùn)練的可行示范。

Protocol

今年2月,PrimeIntellect在其堆棧上又增添了一層,推出了Protocol。Protocol將PrimeIntellect的所有訓(xùn)練工具連接在一起,創(chuàng)建一個用于去中心化模型訓(xùn)練的點對點網(wǎng)絡(luò)。其中包括:

計算交換GPU以促進訓(xùn)練運行。

PRIME訓(xùn)練框架減少了通信開銷并提高了容錯能力。

一個名為GENESYS的開源庫,用于RL微調(diào)中有用的合成數(shù)據(jù)生成和驗證。

一種名為TOPLOC的輕量級驗證系統(tǒng),用于驗證模型執(zhí)行和參與節(jié)點的輸出。

Protocol 扮演的角色與Nous的Psyche類似,有四個主要參與者:

Workers:一種軟件,使用戶能夠貢獻他們的計算資源用于訓(xùn)練或其他PrimeIntellectAI相關(guān)產(chǎn)品。

驗證者:驗證計算貢獻并防止惡意行為。PrimeIntellect正在努力將最先進的推理驗證算法TOPLOC應(yīng)用于去中心化訓(xùn)練。

編排器:計算池創(chuàng)建者管理工作器的一種方式。它的作用與Nous的編排器類似。

智能合約:追蹤計算資源提供者,削減惡意參與者的質(zhì)押,并自主支付獎勵。目前,PrimeIntellect已在EthereumL2Base的Sepolia測試網(wǎng)上運行,但PrimeIntellect已表示最終計劃遷移到自己的Blockchain上。

4hxRpbmEJ0T4lz9kMJp8K1XIrs8Tsy0YyFtxGYlc.jpegIntellect-2分布式強化學(xué)習(xí)訓(xùn)練礎(chǔ)設(shè)施

對于INTELLECT-2,貢獻者還需要質(zhì)押測試網(wǎng)加密Tokens才能參與訓(xùn)練運行。如果他們貢獻了有效的工作,將自動獲得獎勵。如果沒有,他們的質(zhì)押可能會被削減。雖然此次測試運行期間沒有涉及任何實際資金,但這凸顯了一些加密經(jīng)濟實驗的初步形式。該領(lǐng)域還需要進行更多的實驗,我們預(yù)計加密經(jīng)濟在安全性和激勵機制方面的應(yīng)用將有進一步的改變。除了INTELLECT-2之外,PrimeIntellect還在繼續(xù)開展本報告未涵蓋的幾項重要計劃,包括:

SYNTHETIC-2,用于生成和驗證推理任務(wù)的下一代框架;

PrimeCollectiveCommunicationsLibrary,它實現(xiàn)了高效、容錯的集體通信操作(例如通過IP進行縮減),并提供共享狀態(tài)同步機制以保持對等點同步,并允許在訓(xùn)練期間的任何時候動態(tài)加入和離開對等點,以及自動帶寬感知拓?fù)鋬?yōu)化;

持續(xù)增強TOPLOC的功能,以實現(xiàn)可擴展、低成本的推理證明,從而驗證模型輸出;

基于INTELLECT2和SYNTHETIC1的經(jīng)驗教訓(xùn),對PrimeIntellect協(xié)議和加密經(jīng)濟層進行改進 PluralisResearch

亞歷山大·朗(AlexanderLong)是一位澳大利亞機器學(xué)習(xí)研究員,擁有新南威爾士大學(xué)的博士學(xué)位。他認(rèn)為開源模型訓(xùn)練過度依賴領(lǐng)先的人工智能實驗室為其他人提供基礎(chǔ)模型進行訓(xùn)練。2023年4月,他創(chuàng)立了PluralisResearch,旨在開辟一條不同的道路。

PluralisResearch采用一種名為“協(xié)議學(xué)習(xí)”的方法來解決去中心化訓(xùn)練問題,該方法被描述為“低帶寬、異構(gòu)多參與者、模型并行的訓(xùn)練和推理”。Pluralis的一個主要顯著特征是其經(jīng)濟模型,該模型為訓(xùn)練模型的貢獻者提供類似股權(quán)的收益,以激勵計算貢獻并吸引頂級開源軟件研究人員。該經(jīng)濟模型以“不可提取性”的核心屬性為前提:即沒有任何一個參與者能夠獲得完整的權(quán)重集,而這又與訓(xùn)練方法和模型并行性的使用息息相關(guān)。

模型并行性

Pluralis的訓(xùn)練架構(gòu)利用了模型并行性,這與NousResearch和PrimeIntellect在初始訓(xùn)練運行中實施的數(shù)據(jù)并行方法不同。隨著模型規(guī)模的增長,即使是H100機架(最先進的GPU配置之一)也難以承載完整的模型。模型并行性通過將單個模型的各個組件拆分到多個GPU上,為這一問題提供了一種解決方案。

模型并行化主要有三種方法。

流水線并行:模型的各層被劃分到不同的GPU上。訓(xùn)練過程中,每個小批量數(shù)據(jù)都像流水線一樣流經(jīng)這些GPU。

張量(層內(nèi))并行性:不是為每個GPU提供整個層,而是將每個層內(nèi)的繁重數(shù)學(xué)運算分開,以便多個GPU可以同時共享單個層的工作。

混合并行:在實踐中,大型模型會混合使用各種方法,同時使用管道和張量并行,通常還會結(jié)合數(shù)據(jù)并行。

模型并行性是分布式訓(xùn)練的一個重要進步,因為它允許訓(xùn)練前沿規(guī)模的模型,使較低層級的硬件能夠參與,并確保沒有任何一個參與者可以訪問全套模型權(quán)重。

ProtocolLearning和ProtocolModels

協(xié)議學(xué)習(xí)(ProtocolLearning)是Pluralis在去中心化訓(xùn)練環(huán)境中用于模型所有權(quán)和貨幣化的框架。Pluralis強調(diào)了構(gòu)成協(xié)議學(xué)習(xí)框架的三個關(guān)鍵原則——去中心化、激勵和去信任化。

Pluralis與其他項目的主要區(qū)別在于其對模型所有權(quán)的關(guān)注。鑒于模型的價值主要源于其權(quán)重,協(xié)議模型(ProtocolModels)嘗試對模型的權(quán)重進行拆分,使模型訓(xùn)練過程中的任何單個參與者都無法擁有全部權(quán)重。最終,這將賦予訓(xùn)練模型的每個貢獻者一定的所有權(quán),從而分享模型產(chǎn)生的收益。

tn27pSX9JiGNBsZ9oStYIlKUWcICplTYdhRklRnZ.jpegTemplar去中心化訓(xùn)練架構(gòu)

Templar迄今已啟動三輪訓(xùn)練:TemplarI、TemplarII和TemplarIII。TemplarI是一個包含12億個參數(shù)的模型,在全球部署了近200塊GPU。TemplarII正在進行中,正在訓(xùn)練一個包含80億個參數(shù)的模型,并計劃很快啟動更大規(guī)模的訓(xùn)練。Templar現(xiàn)階段專注于訓(xùn)練參數(shù)較小的模型,這是經(jīng)過深思熟慮的選擇,旨在確保去中心化訓(xùn)練架構(gòu)的升級(如上所述)在擴展到更大模型規(guī)模之前能夠有效發(fā)揮作用。從優(yōu)化策略和調(diào)度到研究迭代和激勵機制,在參數(shù)較小的80億個模型上驗證這些想法,使團隊能夠快速且經(jīng)濟高效地進行迭代。繼近期取得進展并正式發(fā)布訓(xùn)練架構(gòu)后,團隊于9月推出了TemplarIII,這是一個包含700億個參數(shù)的模型,也是迄今為止去中心化領(lǐng)域規(guī)模最大的預(yù)訓(xùn)練運行。

TAO和激勵機制

Templar的一個關(guān)鍵特色是其與TAO綁定的激勵模型。獎勵根據(jù)模型訓(xùn)練的技能加權(quán)貢獻進行分配。大多數(shù)協(xié)議(例如Pluralis、Nous、PrimeIntellect)都已構(gòu)建了許可運行或原型,而Templar則完全在Bittensor的實時網(wǎng)絡(luò)上運行。這使得Templar成為唯一一個已將實時、無需許可的經(jīng)濟層集成到其去中心化訓(xùn)練框架中的協(xié)議。這種實時的生產(chǎn)部署使Templar能夠在實時訓(xùn)練運行場景中迭代其基礎(chǔ)設(shè)施。

每個Bittensor子網(wǎng)都使用其自己的“alpha”Tokens運行,該Tokens充當(dāng)獎勵機制和子網(wǎng)感知價值的市場信號。Templar的alphaTokens稱為gamma。alphaTokens不能在外部市場上自由交易;它們只能通過其子網(wǎng)專用的流動性池,使用自動做市商(AMM)兌換TAO。用戶可以質(zhì)押TAO來獲得gamma,也可以將gamma贖回為TAO,但不能直接將gamma兌換成其他子網(wǎng)的alphaTokens。Bittensor的動態(tài)TAO(dTAO)系統(tǒng)使用alphaTokens的市場價格來確定子網(wǎng)之間的發(fā)行分配。當(dāng)gamma的價格相對于其他alphaTokens上漲時,這表明市場對Templar去中心化訓(xùn)練能力的信心增強,從而導(dǎo)致子網(wǎng)的TAO發(fā)行量增加。截至9月初,Templar的每日發(fā)行量約占TAO發(fā)行量的4%,在TAO網(wǎng)絡(luò)的128個子網(wǎng)中排名前六。

子網(wǎng)的發(fā)行機制具體如下:在每個12秒的區(qū)塊中,Bittensor鏈會根據(jù)子網(wǎng)alphaTokens相對于其他子網(wǎng)的價格比例,向其流動性池發(fā)行TAO和alphaTokens。每個區(qū)塊最多向子網(wǎng)發(fā)行一個完整的alphaTokens(初始發(fā)行率,可能會減半),用于激勵子網(wǎng)貢獻者,其中41%分配給礦工,41%分配給驗證者(及其質(zhì)押者),18%分配給子網(wǎng)所有者。

這種激勵機制通過將經(jīng)濟獎勵與參與者提供的價值掛鉤,推動對Bittensor網(wǎng)絡(luò)的貢獻。礦工有動力提供高質(zhì)量的AI輸出,例如模型訓(xùn)練或推理任務(wù),從而獲得驗證者更高的評分,從而獲得更大的產(chǎn)出份額。驗證者(及其質(zhì)押者)因準(zhǔn)確評估和維護網(wǎng)絡(luò)完整性而獲得獎勵。

AlphaTokens的市場估值由質(zhì)押活動決定,確保表現(xiàn)出更高實用性的子網(wǎng)能夠吸引更多TAO的流入和發(fā)行,從而營造一個鼓勵創(chuàng)新、專業(yè)化和持續(xù)發(fā)展的競爭環(huán)境。子網(wǎng)所有者將獲得一定比例的獎勵,從而受到激勵去設(shè)計有效的機制并吸引貢獻者,最終構(gòu)建一個無需許可的去中心化AI生態(tài)系統(tǒng),讓全球參與共同促進集體智慧的進步。

該機制還引入了新的激勵挑戰(zhàn),例如保持驗證者的誠實、抵御女巫攻擊以及減少串謀。Bittensor子網(wǎng)經(jīng)常受到驗證者或礦工與子網(wǎng)創(chuàng)建者之間貓鼠游戲的困擾,前者試圖玩弄系統(tǒng),后者試圖阻撓他們。從長遠來看,隨著子網(wǎng)所有者學(xué)會如何智勝惡意行為者,這些斗爭應(yīng)該會使該系統(tǒng)成為最強大的系統(tǒng)之一。 Gensyn

Gensyn于2022年2月發(fā)布了其首篇精簡版白皮書,闡述了去中心化訓(xùn)練的框架(Gensyn是我們?nèi)ツ晔灼P(guān)于理解加密技術(shù)與人工智能交集的文章中唯一涵蓋的去中心化訓(xùn)練協(xié)議)。當(dāng)時,該協(xié)議主要側(cè)重于AI相關(guān)工作負(fù)載的驗證,允許用戶向網(wǎng)絡(luò)提交訓(xùn)練請求,由計算提供商處理,并確保這些請求按承諾執(zhí)行。

最初的愿景還強調(diào)了加速應(yīng)用機器學(xué)習(xí)(ML)研究的必要性。2023年,Gensyn在此愿景的基礎(chǔ)上,明確提出了在全球范圍內(nèi)獲取機器學(xué)習(xí)計算資源的更廣泛需求,以服務(wù)于特定AI應(yīng)用。Gensyn引入了GHOSTLY原則作為此類協(xié)議必須滿足的框架:通用性、異構(gòu)性、開銷、可擴展性、去信任性和延遲。Gensyn一直專注于構(gòu)建計算基礎(chǔ)設(shè)施,此次合作標(biāo)志著其正式擴展至計算之外的其他關(guān)鍵資源。

Gensyn的核心將其訓(xùn)練技術(shù)棧分為四個不同的部分——執(zhí)行、驗證、通信和協(xié)調(diào)。執(zhí)行部分負(fù)責(zé)處理世界上任何能夠執(zhí)行機器學(xué)習(xí)操作的設(shè)備上的操作。通信和協(xié)調(diào)部分使設(shè)備能夠以標(biāo)準(zhǔn)化的方式相互發(fā)送信息。驗證部分則確保所有操作無需信任即可進行計算。

執(zhí)行—RLSwarm

Gensyn在這個堆棧中的第一個實現(xiàn)是一個名為RLSwarm的訓(xùn)練系統(tǒng),這是一種用于訓(xùn)練后強化學(xué)習(xí)的分散協(xié)調(diào)機制。

RLSwarm旨在允許多個計算提供商在無需許可、信任最小化的環(huán)境中參與單個模型的訓(xùn)練。該協(xié)議基于一個三步循環(huán):回答、評審和解決。首先,每個參與者根據(jù)提示生成模型輸出(答案)。然后,其他參與者使用共享獎勵函數(shù)評估該輸出并提交反饋(評審)。最后,這些評審將用于選出最佳答案,并將其納入模型的下一個版本(解決)。整個過程以點對點的方式進行,無需依賴中央服務(wù)器或可信機構(gòu)。

xwcuqP8XAn9jrSwrWTfLN0UCfkkIqtXgFzJUdHEt.jpeg

Verde驗證協(xié)議架構(gòu)

今年8月,Gensyn發(fā)布了Judge,這是一個可驗證的AI評估系統(tǒng),包含兩個核心組件:Verde和可復(fù)現(xiàn)的運行時,后者可保證跨硬件的逐位相同結(jié)果。為了展示它,Gensyn推出了一款“漸進式揭示游戲”,其中AI模型在信息揭示的過程中對復(fù)雜問題的答案進行押注,Judge會確定性地驗證結(jié)果,并對準(zhǔn)確的早期預(yù)測進行獎勵。

Judge意義重大,因為它解決了AI/ML中的信任和可擴展性問題。它能夠?qū)崿F(xiàn)可靠的模型比較,在高風(fēng)險環(huán)境下提升透明度,并通過允許獨立驗證來降低偏見或操縱的風(fēng)險。除了推理任務(wù)之外,Judge還可以支持其他用例,例如去中心化爭議解決和預(yù)測市場,這與Gensyn構(gòu)建可信分布式AI計算基礎(chǔ)設(shè)施的使命相契合。最終,像Judge這樣的工具可以增強可重復(fù)性和可問責(zé)性,這在AI日益成為社會核心的時代至關(guān)重要。

溝通與協(xié)調(diào):Skip-Pipe和多元化專家集成

Skip-Pipe是Gensyn針對單個巨型模型在多臺機器上進行切片時出現(xiàn)的帶寬瓶頸問題而提出的解決方案。如前所述,傳統(tǒng)的流水線訓(xùn)練強制每個微批次按順序遍歷所有層,因此任何速度較慢的節(jié)點都會導(dǎo)致流水線停滯。Skip-Pipe的調(diào)度程序可以動態(tài)跳過或重新排序可能造成延遲的層,從而將迭代時間縮短高達55%,并且即使一半節(jié)點發(fā)生故障也能保持可用性。通過減少節(jié)點間流量并允許根據(jù)需要刪除層,它使訓(xùn)練器能夠?qū)⒎浅4蟮哪P蛿U展到地理位置分散、帶寬較低的GPU上。

多樣化專家集成解決了另一個協(xié)調(diào)難題:如何構(gòu)建一個強大的“混合專家”系統(tǒng),避免持續(xù)的串?dāng)_。Gensyn的異構(gòu)領(lǐng)域?qū)<壹?HDEE)完全獨立地訓(xùn)練每個專家模型,并僅在最后進行合并。出乎意料的是,在相同的總體計算預(yù)算下,最終集成在21個測試領(lǐng)域中的20個領(lǐng)域中超越了統(tǒng)一的基準(zhǔn)。由于訓(xùn)練期間機器之間沒有梯度或激活函數(shù)的流動,因此任何空閑的GPU都可以貢獻計算能力。

Skip-Pipe和HDEE共同為Gensyn提供了高效的通信方案。該協(xié)議可以在必要時在單個模型內(nèi)進行分片,或者在獨立性成本更低的情況下并行訓(xùn)練多個小型專家,并且無需像傳統(tǒng)方式那樣對完美、低延遲的網(wǎng)絡(luò)進行操作。

測試網(wǎng)

三月份,Gensyn在一個定制的Ethereumrollup上部署了測試網(wǎng)。團隊計劃逐步更新測試網(wǎng)。目前,用戶可以參與Gensyn的三項產(chǎn)品:RLSwarm、BlockAssist和Judge。如上所述,RLSwarm允許用戶參與RL訓(xùn)練后流程。八月,團隊推出了BlockAssist,“這是輔助學(xué)習(xí)的第一個大規(guī)模演示,它是一種直接從人類行為中訓(xùn)練代理的方法,無需手動標(biāo)記或RLHF”。用戶可以下載Minecraft,并使用BlockAssist來訓(xùn)練Minecraft模型,從而暢玩游戲。

其他值得關(guān)注的項目

以上章節(jié)概述了為實現(xiàn)去中心化訓(xùn)練而實施的主流架構(gòu)。然而,新的項目也層出不窮。以下是去中心化訓(xùn)練領(lǐng)域的一些新項目:

Fortytwo: Fortytwo構(gòu)建于MonadBlockchain之上,專注于群體推理(SLM),其中多個小型語言模型(SLM)在節(jié)點網(wǎng)絡(luò)中協(xié)作處理查詢并生成同行評審的輸出,從而提高準(zhǔn)確性和效率。該系統(tǒng)利用閑置筆記本電腦等消費級硬件,無需像集中式AI那樣使用昂貴的GPU集群。該架構(gòu)包含去中心化的推理執(zhí)行和訓(xùn)練功能,例如為專用模型生成合成數(shù)據(jù)集。該項目已在Monad開發(fā)網(wǎng)絡(luò)上線。

Ambient: Ambient是即將上線的“有用工作量證明”Layer -1Blockchain,旨在為鏈上始終在線、自主運行的AI代理提供支持,使其能夠在無需中心化監(jiān)管的無許可生態(tài)系統(tǒng)中持續(xù)執(zhí)行任務(wù)、學(xué)習(xí)和演進。它將采用單一開源模型,該模型由網(wǎng)絡(luò)礦工協(xié)作訓(xùn)練和改進,貢獻者將因其在訓(xùn)練、構(gòu)建和使用AI模型方面的貢獻而獲得獎勵。雖然Ambient強調(diào)去中心化推理,尤其是在代理方面,但網(wǎng)絡(luò)上的礦工也將負(fù)責(zé)持續(xù)更新支撐網(wǎng)絡(luò)的基礎(chǔ)模型。Ambient采用了一種新穎的p roof- o f-logits機制(在該系統(tǒng)中,驗證者可以通過檢查礦工的原始輸出值(稱為logits)來驗證其是否正確運行了模型計算)。該項目基于Solana的一個分叉構(gòu)建,尚未正式上線。

FlowerLabs: FlowerLabs正在開發(fā)一個用于聯(lián)邦學(xué)習(xí)的開源框架Flower,該框架支持跨去中心化數(shù)據(jù)源進行協(xié)作式AI模型訓(xùn)練,無需共享原始數(shù)據(jù),從而在聚合模型更新的同時保護隱私。Flower的成立旨在解決數(shù)據(jù)集中化問題,它允許機構(gòu)和個人使用本地數(shù)據(jù)(例如醫(yī)療保健或金融領(lǐng)域)訓(xùn)練模型,同時通過安全的參數(shù)共享為全球改進做出貢獻。與強調(diào)Tokens獎勵和可驗證計算的加密原生協(xié)議不同,F(xiàn)lower優(yōu)先考慮在實際應(yīng)用中保護隱私的協(xié)作,使其成為無需Blockchain的受監(jiān)管行業(yè)的理想之選。

Macrocosmos: Macrocosmos在Bittensor網(wǎng)絡(luò)上運行,正在開發(fā)涵蓋五個子網(wǎng)的完整AI模型創(chuàng)建流程,這些子網(wǎng)專注于預(yù)訓(xùn)練、微調(diào)、數(shù)據(jù)收集和去中心化科學(xué)。它引入了激勵編排訓(xùn)練架構(gòu)(IOTA)框架,用于在異構(gòu)、不可靠且無需許可的硬件上對大型語言模型進行預(yù)訓(xùn)練,并已啟動超過10億次參數(shù)訓(xùn)練,并計劃很快擴展到更大的參數(shù)模型。

Flock.io:Flock是一個去中心化的AI訓(xùn)練生態(tài)系統(tǒng),將聯(lián)邦學(xué)習(xí)與Blockchain基礎(chǔ)設(shè)施相結(jié)合,從而在一個模塊化、Tokens激勵的網(wǎng)絡(luò)中實現(xiàn)隱私保護的協(xié)作模型開發(fā)。參與者可以貢獻模型、數(shù)據(jù)或計算資源,并獲得與其貢獻成比例的鏈上獎勵。為了保護數(shù)據(jù)隱私,該協(xié)議采用了聯(lián)邦學(xué)習(xí)。這使得參與者能夠使用未與他人共享的本地數(shù)據(jù)來訓(xùn)練全局模型。雖然這種設(shè)置需要額外的驗證步驟,以防止無關(guān)數(shù)據(jù)(通常稱為數(shù)據(jù)中毒)進入模型訓(xùn)練,但它對于醫(yī)療保健應(yīng)用等用例來說是一個有效的推廣方案,在這些應(yīng)用中,多個醫(yī)療保健提供者可以在不泄露高度敏感的醫(yī)療數(shù)據(jù)的情況下訓(xùn)練全局模型。 前景與風(fēng)險

在過去的兩年里,去中心化訓(xùn)練已經(jīng)從一個有趣的概念轉(zhuǎn)變?yōu)橐粋在實際環(huán)境中運行的有效網(wǎng)絡(luò)。雖然這些項目距離預(yù)期的最終狀態(tài)還很遠,但在實現(xiàn)去中心化訓(xùn)練的道路上,它們正在取得有意義的進展。回顧現(xiàn)有的去中心化訓(xùn)練格局,一些趨勢開始顯現(xiàn):

實時概念驗證已不再是空想。在過去一年中,Nous的Consilience和PrimeIntellect的INTELLECT-2等早期驗證已進入生產(chǎn)規(guī)模運行。OpenDiLoCo和ProtocolModels等突破性進展正在分布式網(wǎng)絡(luò)上實現(xiàn)高性能AI,促進經(jīng)濟高效、彈性且透明的模型開發(fā)。這些網(wǎng)絡(luò)正在協(xié)調(diào)數(shù)十個甚至數(shù)百個GPU,實時預(yù)訓(xùn)練和微調(diào)中型模型,證明了去中心化訓(xùn)練可以超越封閉式演示和臨時黑客馬拉松。雖然這些網(wǎng)絡(luò)仍非無需許可的網(wǎng)絡(luò),但Templar在這方面脫穎而出;它的成功強化了這樣一種觀點:去中心化訓(xùn)練正在從簡單地證明底層技術(shù)有效,發(fā)展到能夠擴展以匹配中心化模型的性能,并吸引大規(guī)模生產(chǎn)基礎(chǔ)模型所需的GPU資源。

模型規(guī)模不斷擴大,但差距依然存在。從2024年到2025年,去中心化項目的參數(shù)模型數(shù)量從個位數(shù)躍升至300億至400億。然而,領(lǐng)先的人工智能實驗室已經(jīng)發(fā)布了數(shù)萬億參數(shù)的系統(tǒng),并憑借其垂直整合的數(shù)據(jù)中心和最先進的硬件持續(xù)快速創(chuàng)新。去中心化訓(xùn)練能夠利用來自世界各地的訓(xùn)練硬件,彌補這一差距,尤其是在中心化訓(xùn)練方法因需要越來越多的超大規(guī)模數(shù)據(jù)中心而面臨越來越大的限制的情況下。但縮小這一差距將取決于高效通信的優(yōu)化器和梯度壓縮方面的進一步突破,以實現(xiàn)全球規(guī)模,以及不可操縱的激勵和驗證層。

訓(xùn)練后工作流程正日益成為關(guān)注的領(lǐng)域。監(jiān)督式微調(diào)、RLHF和特定領(lǐng)域強化學(xué)習(xí)所需的同步帶寬遠低于全面的預(yù)訓(xùn)練。PRIME-RL和RLSwarm等框架已在不穩(wěn)定的消費級節(jié)點上運行,讓貢獻者能夠利用閑置的周期獲利,同時項目也能快速將定制模型商業(yè)化。鑒于RL非常適合去中心化訓(xùn)練,它作為去中心化訓(xùn)練項目關(guān)注領(lǐng)域的重要性可能會日益凸顯。這使得去中心化訓(xùn)練有可能率先在RL訓(xùn)練中找到規(guī)模化的產(chǎn)品市場契合點,越來越多的團隊推出RL專用訓(xùn)練框架就證明了這一點。

激勵和驗證機制落后于技術(shù)創(chuàng)新。激勵和驗證機制仍然落后于技術(shù)創(chuàng)新。只有少數(shù)網(wǎng)絡(luò),尤其是Templar,提供實時Tokens獎勵和鏈上罰沒機制,從而有效地遏制不良行為,并已在實際環(huán)境中進行測試。盡管其他項目正在試驗聲譽評分、證人證明或訓(xùn)練證明方案,但這些系統(tǒng)仍未經(jīng)驗證。即使技術(shù)障礙得以克服,治理也將帶來同樣艱巨的挑戰(zhàn),因為去中心化網(wǎng)絡(luò)必須找到制定規(guī)則、執(zhí)行規(guī)則和解決爭議的方法,而不會重復(fù)加密DAO中出現(xiàn)的低效現(xiàn)象。解決技術(shù)障礙只是第一步;長期生存能力取決于將其與可靠的驗證機制、有效的治理機制以及引人注目的貨幣化/所有權(quán)結(jié)構(gòu)相結(jié)合,以確保人們對所開展工作的信任,并吸引擴大規(guī)模所需的人才和資源。

堆棧正在融合成端到端的流水線。如今,大多數(shù)領(lǐng)先的團隊都將帶寬感知優(yōu)化器(DeMo、DisTrO)、去中心化計算交換(PrimeCompute、Basilica)和鏈上協(xié)調(diào)層(Psyche、PM、PRIME)結(jié)合在一起。最終形成了一個模塊化的開放流水線,它反映了中心化實驗室從數(shù)據(jù)到部署的工作流程,只是沒有單一的控制點。即使項目沒有直接集成自己的解決方案,或者即使集成了,它們也可以接入其他專注于去中心化訓(xùn)練所需垂直領(lǐng)域的加密項目,例如數(shù)據(jù)供應(yīng)協(xié)議、GPU和推理市場以及去中心化存儲主干網(wǎng)。這種周邊基礎(chǔ)設(shè)施為去中心化訓(xùn)練項目提供了即插即用的組件,可以進一步利用這些組件來增強其產(chǎn)品,并更好地與中心化同行競爭。 風(fēng)險

硬件和軟件優(yōu)化是一個不斷變化的目標(biāo)——中央實驗室也在不斷拓展這一領(lǐng)域。Nvidia的BlackwellB200芯片剛剛公布,在MLPerf基準(zhǔn)測試中,無論是4050億個參數(shù)的預(yù)訓(xùn)練還是700億個LoRA微調(diào),其訓(xùn)練吞吐量都比上一代快了2.2到2.6倍,為巨頭們大幅降低了時間和能源成本。在軟件方面,PyTorch3.0和TensorFlow4.0引入了編譯器級圖融合和動態(tài)形狀內(nèi)核,從而在同一塊芯片上進一步提升性能。隨著硬件和軟件優(yōu)化的改進,或新的訓(xùn)練架構(gòu)的出現(xiàn),去中心化訓(xùn)練網(wǎng)絡(luò)也必須跟上步伐,不斷更新其堆棧,以適應(yīng)最快、最先進的訓(xùn)練方法,從而吸引人才并激勵有意義的模型開發(fā)。這將要求團隊開發(fā)出能夠確保持續(xù)高性能的軟件(無論底層硬件如何),以及使這些網(wǎng)絡(luò)能夠適應(yīng)底層訓(xùn)練架構(gòu)變化的軟件堆棧。

現(xiàn)有企業(yè)開源模型,模糊了去中心化和中心化訓(xùn)練之間的界限。中心化人工智能實驗室大多保持模型封閉,這進一步證明了去中心化訓(xùn)練是保證開放性、透明度和社區(qū)治理的一種方式。盡管最近發(fā)布的DeepSeek、GPT開源版本和Llama等項目表明了其向更高開放性的轉(zhuǎn)變,但在競爭、監(jiān)管和安全擔(dān)憂日益加劇的背景下,這種趨勢能否持續(xù)尚不明朗。即使權(quán)重被公開,它們?nèi)匀环从沉嗽紝嶒炇业膬r值觀和選擇——獨立訓(xùn)練的能力對于適應(yīng)性、與不同優(yōu)先事項的協(xié)調(diào)以及確保訪問不受少數(shù)現(xiàn)有企業(yè)的限制至關(guān)重要。

人才招聘依然困難重重。許多團隊都告訴我們這一點。雖然加入去中心化訓(xùn)練項目的人才質(zhì)量有所提升,但他們?nèi)狈︻I(lǐng)先人工智能實驗室那樣的雄厚資源(例如,OpenAI最近為每位員工提供數(shù)百萬美元的“特別獎勵”,或者Meta為挖角研究人員而提供的2.5億美元報價)。目前,去中心化項目吸引的是那些重視開放性和獨立性的使命驅(qū)動型研究人員,同時也能從更廣泛的全球人才庫和充滿活力的開源社區(qū)中汲取人才。然而,為了在規(guī)模上競爭,他們必須通過訓(xùn)練出與現(xiàn)有企業(yè)相當(dāng)?shù)哪P停⑼晟萍詈拓泿呕瘷C制來證明自己,從而為貢獻者創(chuàng)造有意義的收益。雖然無需許可的網(wǎng)絡(luò)和加密經(jīng)濟激勵措施提供了獨特的價值,但無法獲得分銷并建立可持續(xù)的收入來源可能會阻礙該領(lǐng)域的長期增長。

監(jiān)管阻力確實存在,尤其對于未經(jīng)審查的模型而言。去中心化訓(xùn)練面臨著獨特的監(jiān)管挑戰(zhàn):從設(shè)計上來說,任何人都可以訓(xùn)練任何類型的模型。這種開放性固然是優(yōu)勢,但也引發(fā)了安全隱患,尤其是在生物安全、虛假信息或其他敏感領(lǐng)域濫用方面。歐盟和美國的政策制定者已發(fā)出信號,表示將加強審查:歐盟《人工智能法案》對高風(fēng)險的基礎(chǔ)模型規(guī)定了額外義務(wù),而美國機構(gòu)正在考慮對開放系統(tǒng)進行限制,并可能采取出口式管控措施。單單涉及將去中心化模型用于有害目的的事件,就可能引發(fā)全面的監(jiān)管,從而威脅到無需許可的訓(xùn)練的根本原則。

分發(fā)和貨幣化:分發(fā)仍然是一項重大挑戰(zhàn)。包括OpenAI、Anthropic和Google在內(nèi)的領(lǐng)先實驗室,通過品牌知名度、企業(yè)合同、云平臺集成以及直接接觸消費者,擁有巨大的分發(fā)優(yōu)勢。相比之下,去中心化訓(xùn)練項目缺乏這些內(nèi)置渠道,必須付出更多努力才能讓模型被采用、獲得信任并嵌入到實際工作流程中。鑒于Crypto在加密應(yīng)用之外的整合仍處于萌芽階段(盡管這種情況正在迅速改變),這可能會更具挑戰(zhàn)性。一個非常重要且尚未解決的問題是,誰將真正使用這些去中心化訓(xùn)練模型。高質(zhì)量的開源模型已經(jīng)存在,一旦新的先進模型發(fā)布,其他人提取或調(diào)整它們并不特別困難。隨著時間的推移,去中心化訓(xùn)練項目的開源性質(zhì)應(yīng)該會產(chǎn)生網(wǎng)絡(luò)效應(yīng),從而解決分發(fā)問題。然而,即使他們能夠解決分發(fā)問題,團隊也將面臨產(chǎn)品貨幣化的挑戰(zhàn)。目前,Pluralis的項目經(jīng)理似乎最直接地應(yīng)對這些貨幣化挑戰(zhàn)。這不僅僅是一個加密xAI問題,而是一個更廣泛的加密問題,凸顯了未來的挑戰(zhàn)。 結(jié)論

去中心化訓(xùn)練已迅速從一個抽象概念演變?yōu)閰f(xié)調(diào)全球?qū)嶋H訓(xùn)練運行的有效網(wǎng)絡(luò)。過去一年,包括Nous、PrimeIntellect、Pluralis、Templar和Gensyn在內(nèi)的項目已經(jīng)證明,將去中心化GPU連接在一起、高效壓縮通信,甚至開始在實際環(huán)境中試驗激勵機制是可能的。這些早期演示證明了去中心化訓(xùn)練可以超越理論,盡管在前沿規(guī)模上與中心化實驗室競爭的道路仍然艱難。

即使去中心化項目最終訓(xùn)練出的基礎(chǔ)模型足以與當(dāng)今領(lǐng)先的人工智能實驗室相媲美,它們也面臨著最嚴(yán)峻的考驗:證明其在理念訴求之外的現(xiàn)實優(yōu)勢。這些優(yōu)勢可能通過卓越的架構(gòu)或獎勵貢獻者的全新所有權(quán)和貨幣化方案內(nèi)生顯現(xiàn)。或者,如果中心化現(xiàn)有參與者試圖通過保持權(quán)重封閉或注入不受歡迎的對齊偏差來扼殺創(chuàng)新,這些優(yōu)勢也可能外生顯現(xiàn)。

除了技術(shù)進步之外,人們對該領(lǐng)域的態(tài)度也開始轉(zhuǎn)變。一位創(chuàng)始人這樣描述過去一年主要人工智能會議上人們情緒的變化:一年前,人們對去中心化訓(xùn)練幾乎沒有興趣,尤其是與Crypto結(jié)合使用時;六個月前,與會者開始認(rèn)識到潛在的問題,但對大規(guī)模實施的可行性表示懷疑;而近幾個月來,人們越來越認(rèn)識到,持續(xù)的進步可以使可擴展的去中心化訓(xùn)練成為可能。這種觀念的演變表明,不僅在技術(shù)領(lǐng)域,而且在合法性方面,去中心化訓(xùn)練的勢頭也在增強。

風(fēng)險是真實存在的:現(xiàn)有企業(yè)仍保持著硬件、人才和分銷優(yōu)勢;監(jiān)管審查迫在眉睫;激勵和治理機制仍未得到大規(guī)模檢驗。然而,其優(yōu)勢也同樣引人注目。去中心化訓(xùn)練不僅代表著一種替代的技術(shù)架構(gòu),更代表著一種構(gòu)建人工智能的根本性理念:無需許可、全球所有,并與多元化社區(qū)而非少數(shù)幾家公司保持一致。即使只有一個項目能夠證明開放性能夠轉(zhuǎn)化為更快的迭代、新穎的架構(gòu)或更具包容性的治理,這也將標(biāo)志著Crypto和人工智能的突破性時刻。未來的道路漫長,但成功的核心要素如今已牢牢掌握。

Copyright © 2021-2025. 元宇宙yitb.com All rights reserved. 元宇宙導(dǎo)航 網(wǎng)站備案編號:京ICP備19001615號-2

主站蜘蛛池模板: 兴隆县| 长岭县| 谢通门县| 华阴市| 星座| 堆龙德庆县| 天津市| 马尔康县| 洛隆县| 乐安县| 加查县| 郯城县| 双江| 邵阳市| 巴楚县| 隆昌县| 柳林县| 武鸣县| 土默特右旗| 肥乡县| 仁化县| 崇文区| 安远县| 常宁市| 岳池县| 石景山区| 珲春市| 张家界市| 南溪县| 临澧县| 宁阳县| 峡江县| 济源市| 清丰县| 海宁市| 上栗县| 奇台县| 靖西县| 万全县| 内黄县| 奈曼旗|