聊聊MoA(混合智能體架構):如何激發(fā)LLM潛力并掀起語言模型協(xié)作革命?
全文約 3500 字,預計閱讀時間約 9 分鐘
近年來,大型語言模型(LLMs)在自然語言處理領域掀起了一場風暴,從對話生成到復雜任務推理,它們的表現令人驚嘆。然而,單個模型的性能總有瓶頸,訓練成本高昂且資源需求巨大。如何突破這一限制?
今天我們來聊聊 Together AI 團隊在近一年前提出的一種名為 Mixture-of-Agents (MoA) 的創(chuàng)新方法,通過多模型協(xié)作,顯著提升了語言生成質量。這項研究不僅在學術界引起轟動,還僅靠開源模型,在 AlpacaEval 2.0 等權威基準測試中超越了 GPT-4 Omni,實現 SOTA,展現了開源模型的驚人潛力。本文將帶你深入了解 MoA 技術的創(chuàng)新之處、實驗設計與驚艷成果,揭開這場協(xié)作革命的面紗。
MoA:協(xié)作的力量重塑語言模型
MoA 的核心理念源于一個有趣的發(fā)現:語言模型具有“協(xié)作性”。具體來說,當一個模型能夠參考其他模型的輸出時,即使這些輸出質量較低,它也能生成更高質量的回答。這一現象啟發(fā)了 Together AI 團隊,他們設計了一種分層架構,讓多個語言模型像團隊一樣協(xié)作,共同優(yōu)化最終輸出。
圖 1:MoA 結構示意圖。圖中展示了 4 層 MoA 架構,每層包含 3 個代理(模型),每層代理參考前一層所有輸出進行優(yōu)化,最終生成高質量回答。
MoA 的工作方式可以簡單比喻為一場接力賽。每個“選手”(即語言模型)在自己的“賽道”(MoA 層)上生成初步回答,這些回答隨后傳遞給下一層的模型進行優(yōu)化和整合。每層中的模型都會參考前一層所有模型的輸出,逐步提煉出更準確、更全面的回答。這種分層協(xié)作不僅充分利用了各模型的獨特優(yōu)勢,還通過多樣化的視角彌補了單個模型的局限性。
與傳統(tǒng)的單一模型或簡單集成方法不同,MoA 不需要對模型進行微調,僅通過提示(prompting)接口即可實現協(xié)作。這意味著它可以輕松適配任何最新的語言模型,無論其規(guī)模或架構如何。這種靈活性與高效性讓 MoA 在實際應用中具有巨大潛力。
圖2:用于集成來自上一層所有模型響應的提示詞。翻譯:已經為您提供了一組來自各種開源模型對最新用戶查詢的回答。你的任務是將這些回答綜合成一個單一的、高質量的輸出。批判性地評估這些回答中提供的信息至關重要,認識到其中一些信息可能有偏見或不正確。你的回答不應該簡單地重復已給出的答案,而應該提供一個精煉、準確和全面的回答。確保你的回答結構良好,連貫,并堅持最高的準確性和可靠性標準。以下是來自不同模型的回答:...
MoA 的創(chuàng)新點不僅在于其架構設計,還體現在對模型角色分工的深刻洞察。研究團隊將模型分為兩種角色:提議者(Proposers) 和 聚合者(Aggregators)。提議者擅長生成多樣化的初步回答,為后續(xù)優(yōu)化提供豐富素材;而聚合者則負責綜合這些回答,生成最終的高質量輸出。通過對模型性能和多樣性的精心選擇,MoA 確保了協(xié)作過程的高效與穩(wěn)定。
此外,MoA 的設計靈感來源于機器學習中的 Mixture-of-Experts (MoE) 技術,但它將這一概念擴展到了模型層面。傳統(tǒng)的 MoE 通過子網絡分工實現任務優(yōu)化,而 MoA 則利用完整語言模型的提示能力,無需修改內部權重即可實現協(xié)作。這不僅降低了計算成本,還為未來的模型集成提供了無限可能。
實驗設計
為了驗證 MoA 的性能,研究團隊設計了一系列科學嚴謹的實驗,涵蓋了多種基準測試和模型配置。以下從 LLM 的角色分功夫、實驗場景與數據集、評估方法等方面展開介紹。
LLM 角色分工
MoA 的實驗中,研究團隊精心挑選了 6 種開源模型來構建一個 3 層 MoA——包括 Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、WizardLM-8x22B、LLaMA-3-70B-Instruct、Mixtral-8x22B-v0.1 和 dbrx-instruct——每個 MoA 層均使用相同的模型集。
這些模型在不同任務中各有專長,例如指令遵循、代碼生成等。實驗通過分析模型在提議者(proposer)和聚合者角色(aggregator)中的表現,優(yōu)化了 MoA 架構的配置。
例如,Qwen1.5-110B-Chat 在聚合任務中表現出色,能夠有效整合多種輸入生成高質量輸出;而 WizardLM-8x22B 則在提議者角色中表現優(yōu)異,提供多樣化的參考回答。通過對模型性能和多樣性的綜合考量,團隊確保了 MoA 層中模型的協(xié)同效應最大化。
實驗場景與數據集
實驗主要基于三個權威基準測試:AlpacaEval 2.0、MT-Bench 和 FLASK[1]。這些數據集覆蓋了廣泛的任務場景,能夠全面評估模型的語言生成能力。
AlpacaEval 2.0:包含 805 條真實用戶指令,代表了實際應用場景。評估采用長度控制(LC)的勝率指標,通過 GPT-4 比較模型回答與 GPT-4(gpt-4-1106-preview)輸出的優(yōu)劣,確保公平性。MT-Bench:通過 GPT-4 對模型回答進行評分,評估多輪對話中的表現,強調模型的上下文理解和持續(xù)對話能力。FLASK:提供 12 項技能特定的評分,涵蓋魯棒性、正確性、邏輯推理效率、事實性等維度,為模型性能提供細粒度分析。
此外,團隊還在 MATH 數據集 上測試了 MoA 的推理能力,驗證其在數學推理任務中的表現。這些多樣化的測試場景確保了 MoA 性能評估的全面性和可靠性。
評估方法
MoA 的評估方法結合了自動評估和對比分析。核心指標包括:
LC 勝率:在 AlpacaEval 2.0 中,通過 GPT-4 比較模型回答,計算模型優(yōu)于基準模型的概率,消除長度偏見。MT-Bench 評分:由 GPT-4 給出 0-10 分的評分,評估回答的整體質量。FLASK 技能評分:對 12 項技能進行細粒度評分,分析模型在不同維度的表現。數學任務準確率:在 MATH 數據集上評估模型的推理正確率。
圖 3:AlpacaEval 2.0 LC 勝率提升。圖中展示了多個模型在參考其他模型輸出后的性能提升,證明了語言模型的協(xié)作性。
為了深入理解 Mixture-of-Agents (MoA) 的內部機制,研究團隊開展了多項深入實驗。他們比較了 MoA 與 LLM 排序器(LLM-Ranker)的性能,證實 MoA 在綜合生成中的優(yōu)越性;通過 BLEU、TF-IDF 和 Levenshtein 相似度分析,揭示了聚合者如何智能整合提議者的輸出;此外,團隊還研究了模型多樣性和提議者數量對性能的影響,發(fā)現多模型協(xié)作顯著提升效果;通過分析模型在提議者和聚合者角色中的表現,進一步明確了各模型的專長。這些實驗共同闡明了 MoA 高效協(xié)作的核心機理。
實驗結果:超越 GPT-4 Omni 的壯舉
MoA 的實驗結果令人振奮,尤其是在 AlpacaEval 2.0 上,MoA 展現了壓倒性的優(yōu)勢。以下是主要成果的詳細分析。
AlpacaEval 2.0:開源模型的逆襲
在 AlpacaEval 2.0 基準測試中,MoA 取得了 65.1% 的 LC 勝率,超越了 GPT-4 Omni 的 57.5% ,實現了 7.6% 的絕對提升。更令人驚嘆的是,這一成績完全由開源模型實現,充分展示了 MoA 在整合開源模型能力方面的潛力。
團隊還測試了兩種變體:MoA w/ GPT-4o 和 MoA-Lite。MoA w/ GPT-4o 使用 GPT-4o 作為最終聚合者,LC 勝率達到 65.7% ,進一步提升了性能。而 MoA-Lite 則通過減少層數(2 層)和使用更輕量的 Qwen1.5-72B-Chat 作為聚合者,實現了 59.3% 的 LC 勝率,依然優(yōu)于 GPT-4 Omni,且成本更低。
圖 4:AlpacaEval 2.0和MT-Bench的結果(后者的滿分為10)。對于AlpacaEval 2.0, MoA和MoA- lite分別對應3層和2層的6個提議者。MoA w/ gpt - 40對應于使用gpt - 40作為MoA中的最終聚合器。研究進行了三次實驗,報告了平均分和標準差。†表示這項研究對對AlpacaEval結果的復制。這項研究的研究者們自己跑了所有MT-Bench的分數,得到了回合制分數。MT-Bench:微小但穩(wěn)定的領先
在 MT-Bench 上,MoA 的表現同樣出色,平均得分為 9.25,略高于 GPT-4 Omni 的 9.19(滿分為 10 分)。盡管改進幅度較小,這主要是因為 MT-Bench 的評分已接近飽和(頂級模型得分普遍超過 9 分)。然而,MoA 依然穩(wěn)居榜首,證明了其在高難度對話任務中的穩(wěn)定性。
FLASK:多維度的卓越表現
FLASK 的細粒度評估顯示,MoA 在魯棒性、正確性、邏輯推理效率、事實性、常識推理、洞察力、完整性等多個維度上顯著優(yōu)于單一模型 Qwen1.5-110B-Chat。此外,MoA 在正確性、事實性、洞察力、完整性和元認知等指標上甚至超越了 GPT-4 Omni。唯一的不足是輸出的簡潔性略遜,這可能是由于多模型協(xié)作導致回答稍顯冗長。
圖 5:FLASK 評估結果。MoA 在多個技能維度上表現出色,尤其在正確性、事實性和洞察力等方面超越了 GPT-4 Omni。MATH 任務:推理能力的飛躍
在 MATH 數據集上,MoA 的表現同樣令人印象深刻。以 Qwen1.5-110B-Chat 作為聚合者,MoA 在三層架構中的準確率從第一層的 50.0% 提升到第三層的 57.6% ,顯示了分層協(xié)作在推理任務中的顯著效果。這一結果表明,MoA 不僅適用于語言生成,還能有效提升復雜推理能力。
圖 6:MATH任務的結果。研究者評估了不同的聚合器,在每個MoA層中,所有六個模型都作為提議者。成本與效率:Pareto 最優(yōu)的突破
MoA 的另一個亮點是其成本效益。實驗通過預算和算力(tflops)分析,繪制了性能與成本的帕累托前沿圖。結果顯示,MoA 和 MoA-Lite 位于帕累托前沿,意味著它們在相同性能水平下具有更低的成本。例如,MoA-Lite 的成本與 GPT-4 Omni 相當,但性能提升了 **1.8%**;而 MoA 則在更高性能水平下保持了競爭力,相比 GPT-4 Turbo 成本降低了一半以上。
圖 7:性能與成本的權衡。MoA 和 MoA-Lite 位于 Pareto 前沿,展現了高性能與低成本的完美平衡。為什么 MoA 如此強大?
MoA 的成功離不開其對協(xié)作機制的深刻洞察。實驗表明,MoA 的聚合者并非簡單選擇最佳提議者輸出,而是通過復雜的綜合過程,整合多種輸入的優(yōu)勢。例如,BLEU 相似度分析顯示,聚合者的輸出與高質量提議者的輸出存在較高相關性,表明 MoA 能夠智能地“借鑒”最佳內容。
此外,模型多樣性和數量對 MoA 的性能至關重要。實驗發(fā)現,使用多個不同模型(多提議者設置)相比單一模型生成多份輸出(單提議者設置),性能顯著提升。例如,在 6 個提議者的配置中,多提議者設置的 LC 勝率達到 61.3% ,遠高于單提議者的 56.7% 。
未來展望與局限性
MoA 的出現為語言模型協(xié)作開辟了新的可能性。它不僅提升了生成質量,還通過開源模型展示了低成本高性能的潛力。然而,MoA 的分層架構可能導致較高的首次令牌時間(TTFT),影響實時應用的用戶體驗。未來研究可以探索逐塊聚合(chunk-wise aggregation)等方法,優(yōu)化響應速度。
此外,MoA 的可解釋性也是一大優(yōu)勢。由于中間輸出以自然語言形式呈現,用戶可以更容易理解模型的推理過程。這為構建更透明、更符合人類需求的 AI 系統(tǒng)提供了基礎。
結語:協(xié)作的未來已來
Mixture-of-Agents 技術的誕生標志著語言模型從單打獨斗走向團隊協(xié)作的新時代。通過巧妙的分層架構和角色分工,MoA 將多個模型的智慧融為一體,創(chuàng)造了超越單一模型的驚人性能。無論是 AlpacaEval 2.0 的霸榜表現,還是在成本效益上的突破,MoA 都向我們展示了協(xié)作的力量。未來,隨著更多模型的加入和架構的優(yōu)化,MoA 有望進一步釋放語言模型的潛能,為 AI 應用帶來更多可能性。
想了解更多關于 MoA 的細節(jié)?歡迎查閱原文:Mixture-of-Agents Enhances Large Language Model Capabilities[2]。讓我們共同期待這場協(xié)作革命的下一幕!
參考資料[1]
FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS: https://arxiv.org/abs/2307.10928
[2]
Mixture-of-Agents Enhances Large Language Model Capabilities: https://arxiv.org/abs/2406.04692
-- 完 --
原文標題 : 聊聊MoA(混合智能體架構):如何激發(fā)LLM潛力并掀起語言模型協(xié)作革命?

請輸入評論內容...
請輸入評論/評論長度6~500個字