為什麼在會議場景中，訓練成本小於 6 的聯合大模型可以與 GPT 4 相媲美？

作者丨何思思.

編輯丨陳才賢.

今年8月，在 Leifeng.com 在新加坡舉辦的GAIR大會主論壇上，前Microsoft環球技術院士、美國科學院院士黃學東用一句中國古語提出了他的大模型發展理論**：

當時國內大型模型研發的主流趨勢是自主研發的基座模型，在“百模大戰”中如火如荼，而黃學東院士則相反，認為把雞蛋都放在乙個籃子裡太危險了，要整合四五個大模型的能力，每個大模型都有自己的應用場景。

用專業術語來概括，離開Microsoft加入Zoom擔任CTO後，黃學東在Zoom內部倡導的大模型開發路線是聯合大模型——將OpenAI、Anthropic AI、Google、Meta等科技巨頭的大語言模型匯集在一起，形成Zoom的AI底座，從而以更低的成本取得更好的效果。

近日，經過一系列的研究和實驗，黃學東團隊在8月份驗證了聯邦大模型的路線規劃，並取得了重大突破：Zoom的AI技術團隊以GPT-4成本不到6%的成本整合了多個知名大模型，訓練後的聯邦大模型在會議場景效能上達到了GPT-4-32K的效果。

在算力方面，聯邦大模型在Zoom應用場景中，以不到10%的計算資源，可以達到GPT-49%的效能，大大超過GPT-4的響應速度。

與國內外追求單一最優基座大模型的廠商相比，雖然在技術攻關上也取得了較好的突破，能夠在單一模式和部分任務中實現優化，但整體能力仍然較弱，與GPT-4存在較大差距。

究其原因，大多數廠家既沒有能力兼顧效果，又沒有能力兼顧成本，要麼沒有足夠的財力。由於對自研文化的極度推崇，原本優勢集中在應用場景的玩家也更傾向於通過自身優勢把模式做大做強，缺乏向外學習、向習學習、補短的意識。

在重新發明輪子現象嚴重的時候，Zoom提出的聯邦模式很有啟發性。

什麼是聯邦大模型？

大模型時代的動力分為三層，一層是底層算力，中間層是演算法創新，頂層是模型應用。儘管Zoom已經建立了自己的大型模型團隊，但它並不是銷售演算法的供應商。相較於演算法研發，落地場景清晰（如**會議）和大量垂直行業使用者的Zoom更傾向於應用。

和大多數以應用為主的廠商一樣，Zoom對大模型的吸引力主要體現在價效比上——以最低的成本實現最強的模型能力，從而為使用者提供最優質的服務，提高使用者滿意度。例如，提高會議的溝通效率，增強會議的自動文字摘要功能，自動生成會議草稿和會議問答。因此，Zoom 在選擇聯合大型模型的路由方面具有優勢。

根據《人工智慧技術評論》與Zoom團隊的獨家對話，在過去的半年中，他們在基於聯邦模式的實施方面取得了快速進展，主要體現在三個方面：

一是AI落地方式的改進。

與其他 AI 應用轉型不同，Zoom 採用聯合 AI 方法，這是 Zoom 創新的基石。據悉，Zoom已對接多款機型，包括Zoom自研LLM和第三方機型GPT-35 和 GPT-4，以及 Anthropic AI 的 Claude 2 等大型模型。

我想接觸的模型並不侷限於以上，而是以開放的心態擁抱各種LLM，不僅整合了最新的LLM，比如OpenAI的GPT-4甚至未來的GPT-5等，還整合了開源或閉源的LLMs，從而共同提公升客戶的端到端體驗。

為了驗證聯邦大模型的有效性，Zoom還在內部進行了幾輪測試。結果表明，Zoom 基於模型整合訓練的聯合大模型取得了與許多知名單基座模型相當的效果，包括 OpenAI 的 GPT-35 Turbo（99% 對 93%）以及其他幾個最先進的 LLM。

二是堅持低成本落地。

可以根據具體場景選擇最合適、成本最低的LLM。根據 z 評分器評估初始任務的完成質量，並根據初始 LLM 取得的結果酌情呼叫更高階別的 LLM，以增強任務的完成速度。

著眼於實際應用場景，比如一些簡單的問題，Zoom會選擇使用中小模型來解決，一些疑難問題會呼叫GPT-4來解決。與單一模型相比，該方法可以在很大程度上實現更低的成本。

這相當於 GPT-4 是一名老師，他帶著下面的學生一起工作，就像乙個團隊，需要不同的技能來一起工作，才能創造乙個更有效的集體。

在具體測試中，與OpenAI的GPT-4-32K作為Microsoft的Copilot代理相比，結果表明，Zoom AI Companion的會議功能提高了大型模型的質量，同時確保了更低的成本和更快的響應時間。 Zoom 以不到 4% 的成本實現了 GPT-32-6K 效能，令人印象深刻。

三是業績越來越強。

在聯合 AI 方法的支援下，Zoom 能夠利用許多領先合作夥伴在大型模型方面的進展，以低成本展示其高效能功能。

《AI技術評論》了解到，在Zoom應用場景中，Zoom可以用不到10%的計算資源，實現最先進大模型GPT-4的99%效能，大大超過GPT-4的響應速度。

在語言支援方面，早期的AI模型，包括目前的大部分模型，主要在英語資料上進行預訓練，而Zoom則增加了翻譯模型，擴充套件了多語言能力，現在可以支援除英語以外的32種語言。

這些測試突出了 Zoom 組合 AI 方法的有效性以及整合不同機器習系統的優勢。

聯邦大模式的下一站是**？

諸葛亮理念在Zoom上的成功落地，為整個行業打響了第一槍，也證明了聯邦模式為行業讓大模特落地指明了方向。

當大型模型在行業中實施時，最嚴重的挑戰集中在效能、響應速度和成本上，但 Zoom 團隊提出的聯邦大型模型方法很好地解決了這些挑戰。據《人工智慧技術評論》報道，目前國內還沒有一家公司能夠整合超過四個甚至更多的大型模型聯盟。

這背後主要是技術測試，即應該根據具體的應用場景選擇哪些型號。在此基礎上，如何整合也存在很強的技術壁壘。

此外，在效能、響應速度和成本方面，基於Zoom目前的表現，它已經以低於GPT-4的成本實現了與GPT-4相當的效能，目前處於行業頂尖水平，但在實踐中，聯邦大模型並不是一條平坦的道路。

黃學東曾表示，以大模型為核心的多式聯運技術趨勢，在未來兩年必將成為現實。但是，在目前看來，聯邦模式還是乙個比較新的概念，要想成功應用這項技術，不可能一蹴而就，至少要對這項技術有很強的認知和充分的理解。

其次，從聯邦模型本身出發，Zoom強調多個模型的整合，如果是單個模型，只需要考慮對某個模型的適應程度，包括如何將資料倒入其中進行訓練，如何微調，如何增強能力但是，如果有多個不同的模型，那就複雜得多了，不僅需要考慮不同模型之間的共謀關係，比如這個問題需要由模型A還是模型B來解決，還需要考慮哪種模型可以以更低的成本落地，使用哪種模型效能更高，體驗更好......

這是聯邦模式的核心挑戰，也是 Zoom 需要重點克服的挑戰。 Zoom 團隊向《AI Technology Review》透露，他們面臨的最大挑戰是如何將眾多臭模型整合到諸葛亮中。如何決定在什麼場景下動態使用哪種大型語言模型，以實現最低的成本、最快的響應速度和最佳質量。平衡三者之間的關係是一門藝術，對技術的理解、資料的獲取、工程的實踐都是必不可少的。

從Zoom目前為止的實施效果來看，聯邦模式僅在個別場景中可與GPT-4相媲美，比如會議問答。但是在質量方面仍有工作要做，99%到100%的距離無法立即消除。未來，聯邦模式要在所有場景中迎頭趕上並超越，還有很長的路要走。

雷鋒網、雷鋒網、雷鋒網）。

為什麼在會議場景中，訓練成本小於 6 的聯合大模型可以與 GPT 4 相媲美？

相關問題答案

賣房送娃出國留學？當教育成本持續上漲時，中產階級家庭如何自救？

企業最大的成本不是員工工資，也不是營銷投資