專訪姚星 元祥為何進入大模特?

Mondo 娛樂 更新 2024-01-28

從AlphaGo到ChatGPT,通用人工智慧(AGI)一直是世界頂級AI極客的信念。 作者丨張瑾

編輯丨陳才賢

11月中旬,《人工智慧技術評論》在深圳濱海大道的Meta Elephant辦公室採訪了姚星。

會議召開前兩周,Meta Elephant 宣布已開源其新開發的 650 億引數通用大模型 Xverse-65B,開發者可以無條件將其用於免費商業化,這在國內人工智慧領域引起了廣泛的關注和討論。

此前,國內商用開源大模型的上限為14b,開源上每個大模型的引數策略也非常一致,即小引數的模型(如6b、13b、14b)開源,大引數的模型用於商業化。 國內開發者原本以為國產大模型的開源會止步於14b,沒想到遠翔發布了xverse-65b,一下子將國產開源在引數上拉到了國際水平。

截至 65B 發布,國產免費商用開源大模型地圖更值得關注的是,在 Xverse-65B 問世之前,成立於 2021 年的遠翔一直是一家利用 AI 技術製作 3D 引擎和元宇宙的公司。 因此,Xverse-65b 的開源性質讓許多人感到驚訝。

一位開發者對《AI Technology Review》評論道,“Meta Image 的 Xverse 開源了基礎核心**,同時公開了語料庫,對於有 to SQL 或者 Python 需求的團隊來說非常友好,開發者無需做大量訓練就能知道哪一部分能力不足,需要加強才能達到效果, 這也降低了開發成本。 ”

Meta Elephant 為何進入大模型?為什麼要開源 Xverse-65b?

遠翔創始人姚星告訴《人工智慧科技評論》,在訓練Xverse-65B的過程中,遠翔總共花費了300多萬美元(約合人民幣2000萬元)。 在當下開源的國產大模型中,遠翔作為一家創業公司,是充滿勇氣的。

據姚星介紹,其實無論是元宇宙還是大模型,Meta Elephant成立的初衷都沒有改變:像全球頂尖的人工智慧團隊一樣,期待通用人工智慧(AGI)的實現。

在創立遠翔之前,姚星是騰訊人工智慧實驗室的創始人。 另乙個鮮為人知的事實是,當AlphaGo在2024年問世時,姚星是中國最早見到DeepMind創始人Demis Hassabis的網際網絡從業者之一,並從他與Hassabis的互動中看到了AGI的潛力。 在ChatGPT爆火之前,AGI的代言人一直是Deepmind。

姚星2024年的演講。

Deepmind最早談AGI是基於深度集約化習的技術路線,一度是AI從業者的主流信念;然而,在GPT-3發布後,大模型的技術路線開始成為實現AGI的主流方式。 經歷過行業轉型的姚星,在追求AGI的路上,也對AGI有著迭代的理解。 (本文作者長期跟蹤大模型等AI領域的人物、公司故事和行業趨勢,歡迎新增作者微信。zzjj752254互補。 )

據姚星介紹,目前,遠翔已經成立了元宇宙和大模型兩大業務群。

姚星於2024年加入騰訊,曾任騰訊平台部、基礎設施部、搜尋技術部等核心技術部門總經理,主導騰訊儲存系統、搜尋引擎、雲平台、微信紅包等核心平台和業務的研發。 2024年,時任騰訊副總裁的姚星牽頭建立了騰訊首個人工智慧實驗室AI實驗室,2024年,他牽頭建立了騰訊首個機械人實驗室Robotics X,並管理了騰訊技術工程事業部(TEG)的多個技術部門。

從網際網絡的體驗到人工智慧的新戰場,姚星不斷對AGI進行迭代,而這個故事要從2024年姚星帶領團隊在騰訊開發Go AI開始。

以下為《人工智慧科技評論》與姚星的對話實錄:

Agi:更大的野心AI Tech Review:您是什麼時候開始關注 AGI 的?

姚星: 2016 年,我第一次接觸到 AGI,當時我訪問了英國的 DeepMind,並聽取了其創始人 Demis Hassabis 的演講。

當時,alphago還沒有問世,國內知道Deepmind的人並不多。 在會議期間,Deepmind 的人一直在和我談論通用人工智慧 (AGI) 和世界,我覺得這有點奇怪。 因為當時國內的AI應用主要是做模式識別,比如人臉識別、語音識別,或者是用傳統的自然語言處理(NLP)方法做一些簡單的對話服務,比如客服系統。 AI的認知是利用深度學習習技術,解決一些檢查、分割、識別、理解的問題。 人工智慧研究的重點是計算機視覺(CV)、語音識別或文字轉語音(ASR TTS)、自然語言處理(NLP)等。 這些方向似乎與AGI沒有任何關係,但DeepMind對AGI有著莫名的熱情。 故事的其餘內容是眾所周知的,AlphaGo戰勝世界冠軍李世石在全世界引起了轟動,這是我對AGI認知的開始。

AI 技術評論:當時,Deepmind 與 AG對i的理解是什麼?

姚星:d Eepmind 對 AGI 的理解是,要實現 AGI,首先要在虛擬世界中建立乙個模擬器,他們選擇了一種深度密集的化學習方法,讓 AI 達到超越人類智慧型的水平。

deepmmind採取的路線是首先從遊戲的虛擬世界開始。 遊戲被認為是測試代理的首選工具,Deepmmind 從 Atari 遊戲開始,然後探索了 Go(動作空間或狀態空間的 172 次方,計算複雜度為 10)和星際爭霸(複雜度 10 的 1682 次方)。

為什麼要使用遊戲?因為遊戲本身是乙個虛擬世界,它提供了大量的任務,人工智慧代理必須用複雜的策略來應對。 其次,遊戲有乙個簡單的進度衡量標準:遊戲得分。 這樣可以很容易地進一步優化代理的效能。

那麼虛擬世界,密集的化學習和agi與它有什麼關係呢?如果你在遊戲中設定乙個好的目標並執行AI代理,你將能夠生成大量資料;然後為智慧型體開發一種激勵方法(獎勵),使生成的資料能夠得到越來越多的優化。 當有足夠的優化資料時,理論上可以通過這些資料訓練出足以超越人類智慧型的AI,從而實現AGI。

AI Tech Review:所以回國後,您也開始在騰訊探索AGI。

姚星:是的。 我們也開始使用深度強化習方法,想探索騰訊AGI路徑。 當時,我帶領的團隊主要探索了基於遊戲場景的多智慧型體在決策和協作中的複雜能力,比如2024年推出的騰訊圍棋AI系統,現在已經成為圍棋國家隊陪練技能的“精通”,以及2024年推出的王者榮耀AI“覺武”(10次方計算複雜度到2萬次方)。

當時,這些作品是今天非常流行的人工智慧代理的早期原型。 (AI技術評論注:騰訊是國內最早研究遊戲AI代理的技術團隊之一。 )

人工智慧技術評論:當年你被AGI震撼了。

姚星A.S.:是的,但現實也是殘酷的。 在潛入遊戲後,我逐漸意識到 Deepmind 的 AGI 路線也有其侷限性:

首先,它只能是本地化的,要把乙個世界做得足夠複雜,尤其困難。 二、深度強化化學習是以目標為導向的,這與人類認知不一致,而人類認知沒有很強的目標,比如人類在面對電車問題時,比如“如果你是火車司機,你願意犧牲1個人來拯救5個人嗎”這種倫理問題,讓人很難選擇。 AGI必須有乙個明確的目標,圍棋就是最好的例子,圍棋的目標是打敗對手,所以早期的AI在遊戲系統中應用較多,但是在人類這個複雜的世界中,很多場景都無法列出明確的目標。

這也是我2024年從騰訊出來創立Meta Elephant做元宇宙的很大一部分原因,就是覺得Deepmind的agi路線可能行不通,我想走向世界。 因為元宇宙也是最好的,所以我覺得進入元宇宙可以先克服實現AGI的難題。 因此,我們心目中的元宇宙一直是使用AI方法生成3D世界內容。

沒想到,經過一年多的元宇宙研究,ChatGPT在2024年底問世。 ChatGPT的大模型路線不同於Deepmind的深度強化習路線,它不需要去虛擬世界**資料,而是直接從現實世界中獲取大量高質量的自監督資料,這樣的資料具有多樣性,提高了GPT的泛化能力,可以做不同的任務型別,而這些資料是人類長期積累的經驗和知識資料, 使AI具有很強的認知能力。

人工智慧技術評論:讓我們來做大模型你看到了新的希望。

姚星:是的,所以今年2月底解封後,我去美國參觀了OpenAI,在OpenAI認識了很多人,當時的想法就是要弄清楚大模型到底是怎麼回事,是不是也適合我們學習。 最後,如果我們能做到,我們就必須做到。

我們之所以能夠做到這一點,是因為我們認為 GPT 是乙個複製專案,理論上我們有機會讓它達到乙個好的水平。 我們必須這樣做,因為這個方向確實是元宇宙的有力補充,它使虛擬世界的現實更加完整,即真正的感知智慧型(元宇宙3D)+真正的認知智慧型(AI)。

最後,從AGI的角度來看,未來元宇宙也可能為大模型提供更多樣化、更高質量的自監督資料。

元象“煉化”大模型的背後AI 技術評論:Meta ImageXverse-65b 是如何訓練的?

姚星: 首先,我們要肯定的是,Meta 開源 LLAMA 為整個大模型行業做出了巨大的貢獻。 大型模型是乙個在成本和試錯方面需要大量開銷的系統。 LLAMA的開源大大降低了整個行業的試錯成本。

我相信,目前不僅國內,甚至世界上大多數大型模型在結構上都借鑑了LLAMA。 但是,LLAMA已經開源了結構,整個訓練過程和訓練語料並未公開。 對於大多數團隊來說,從頭開始訓練大型模型並不容易。 除了已知的演算法外,還有很多實用的技巧(技巧)需要探索,比如如何處理資料洗牌和分詞,如何處理訓練過程中的許多意外情況,比如損失函式生成NAN值導致的訓練中斷。 這裡的關鍵是保證良好的訓練效果,提高訓練效率,也就是我們常說的系統架構的高效能和穩定性。

從零開始訓練65b並不容易,而且引數數量已經達到一定水平,我們不能再通過單卡或單機載入整個模型,跨卡、跨機通訊會帶來很大的效能和穩定性風險。 為了加快訓練速度,需要同時並行執行多個訓練副本,並且副本資料必須一致,這就構成了成本、效能、資料一致性等相互排斥的問題,很難同時兼顧。

這些問題最終轉化為解決記憶體優化問題、卡間通訊 IO、計算 IO 並行性問題、多副本一致性問題以及裝置或網路故障導致的穩定性問題。

因此,在研發上,除了演算法優化和語料資料收集整理外,元象還針對上述問題進行了自主設計和研發,這讓我們能夠以更低的成本、更快的速度訓練7b、13b到65b,同時也堅持“高效能”的定位。

AI 技術評論:Xverse-65B 訓練有哪些創新?

姚星除了一些通用的演算法工程外,65b還專注於效能和穩定性架構設計優化。

首先是記憶體優化。 業界共識是引數數量較多,因此GPU記憶體的高效利用成為關鍵因素。 除了常規的引數混合精度設計外,我們對優化器記憶體的使用進行了獨特的優化,並且我們還對引數、梯度、優化器進行了大量的分布式考慮,大大提高了視訊記憶體的利用率。

二是計算IO優化。 在平行計算方面,我們考慮了多種平行計算的可能性,包括Transformer不同塊之間的通訊和計算單元的設計,並且還對Transformer矩陣運算進行了獨特的處理,以提高平行計算效能。

大型模型訓練的核心挑戰之一是裝置數量多、故障率高。 在發生故障時,傳統的訓練方法是停止並恢復到之前的檢查點進行重新訓練,這樣裝置越多,系統穩定性就會不斷惡化。 基於此,我們設計了高穩定性、低中斷、容錯性強的持續訓練結構,每週有效訓練率提高到986%,保證了模型訓練的效率和穩定性。

AI 技術評論:訓練 XverSE-65B的價格是多少?

姚星:超過300萬美元。

人工智慧技術評論:為什麼它會讓你付出這麼多代價耗資超過300萬美元的大型模型是開源的

姚星:首先我們發現,行業需要乙個規模為65b引數的大模型,如果開源,大家就不用再重新發明輪子了,大家再做的成本就超過300萬了。

其次,GPT-4 問世後,我不僅對 GPT-4 本身感到震驚,還震驚於 OpenAI 在 9 月開始招募各學科專家加入 OpenAI 紅隊,設定紅藍兩隊之間的安全對抗,以提高 AI 模型的安全性。 正是他們對這些維度的強調,我們並不重視,但這可能會影響人類的未來,例如人工智慧安全,這深深地觸動了我,並激發了 Meta Elephant 開源 Xverse-65b。

未來,Meta 還是想堅持做一些利他主義、長遠的事情,所以決定開源 65b,供有需要的人和行業使用。 (本文作者長期跟蹤大模型等AI領域的人物、公司故事和行業趨勢,歡迎新增作者微信。zzjj752254互補。 )

人工智慧技術評論:哪些人需要 65b 比例的大型模型?

姚星:不一定是商業公司,更重要的是成為研究機構。 在65b尺度上,所謂的智慧型從模型中湧現出來,這對科研機構,尤其是生命科學領域的從業人員是有利的。

我曾經在騰訊做過類似 AlphaFold 的 AI 工具 Tfold,用於解決蛋白質摺疊問題,還在 Cameo(全球唯一的蛋白質結構自動評估平台**)的國際評測中保持了半年的周冠軍。 當時,這個專案中的很多人都出來創業生物醫藥,我和他們都聊過,他們都想用大規模模型技術,比如檢測蛋白質的DNA和RNA序列,這就是AI for Science。

因此,開源Xverse-65b的乙個非常重要的出發點是希望科研機構,尤其是一些跨學科的科研機構,能夠利用大模型技術幫助他們做更深入的研究。 畢竟,這些科學機構花費數百萬美元來訓練大型模型是不現實的。

AI 技術評論:開源元意象的價值和意義是什麼?

姚星對於MetaImage來說,開源不僅是一種態度,更是一種能力,可以不斷深入理解開發者的真實需求和使用場景,增加模型知識和安全部署,不斷打磨自己的技術。

其次,從商業角度來看,如果大量中小企業、研究人員和AI開發者能夠更早地使用Xverse-65B,他們可以突破當前“小”模式的一些應用限制,探索更大的應用可能性。

AI 技術評論:開源 XversE-65B會影響元影象的商業化嗎?

姚星:我們開源的Xverse-65b其實是希望更多的科研機構,更多不從事大模型的人和公司去使用它,而不是通過開源來構建乙個商業化的生態系統,這還很遙遠。

人工智慧技術評論:為什麼還很遙遠?

姚星到目前為止,我認為中國大模型的商業化需要繼續探索,無論是到b還是到c。 目前我更看好c。

到中國來說,很多都是賦能行業或者效率提公升工具,這樣大模型基本是輔助的,公有雲產品就會被雲廠商搶利,如果只是私有化部署,就會導致大部分方案,而大部分成本都是硬體成本。

To c:我認為未來有兩種可能,一種是通過大模型生成新的“超級應用”二是通過大模型賦能UGC,降低終端使用者門檻,帶來更高的創造力,類似於GPTS。 GPTS絕對是大型製造商的必備品,而作為初創公司,我們可能仍然需要專注於由大型模型驅動的新應用。

AI Tech Review:那就是你你認為開源和商業之間的關係是什麼?

姚星:對於元影像來說,商業化不依賴於開源。 Meta Elephant 並不是試圖通過開源來吸引使用者和做生態。 開源就是開源,商業化就是商業化,這是兩回事。 我們大型模型的商業化將集中在TO C上。

人工智慧技術評論:未來它會繼續開源嗎?

姚星根據中小企業和科研機構的算力,目前推出的Xverse-7b,13b到65b,在高效能、全開源、無條件免費商用的條件下,基本可以覆蓋大部分科研機構和中小企業的商業需求。

你只需要根據不同的場景選擇乙個合適的開源模型,在不同的場景下,你可能需要乙個更大更全面的模型,或者你可能只需要乙個小但更專業、更專注的模型。

原來騰訊有一句話,叫“科技點亮人性之光”,我們也會把開源模式作為長期的事業。

AI技術評論:只要在中國發乙個模型,就可以說了自己趕上 GPT-35、還是接近GPT-4,你怎麼看?

姚星:被業界吐槽的一些事情,就是刷單的行為,把評價集資料放進訓練語料庫裡使用,其實意義不大,刷單是不好的習。 如果大家都說接近甚至超過GPT-4,這顯然不符合實際情況,會讓大家對中國大模型的能力認識不清,偏離實際發展,導致行業內普遍存在誇大其詞。(本文作者長期跟蹤大模型等AI領域的人物、公司故事和行業趨勢,歡迎新增作者微信。zzjj752254互補。 )

人工智慧技術評論:國內我們可以通過哪些方式趕上 GPT-4?

姚星:中國一直在追趕GPT,中國團隊的複製能力很強,未來肯定會有人能做出GPT-4,但我認為雙方的差距還是很遠的,除了基礎研究能力外,客觀條件有限,比如算力, 除了概念上也存在很大的差距,我們在太多方面更注重短期的自身利益,比如對AI安全不夠重視。

人工智慧技術評論:未來國家大模型將朝著什麼方向發展?

姚星單從文字認知的角度來看,如果OpenAI不推出更具爆發力的前沿技術,而只是走大語言模型的路,那麼中國企業就有能力跟上。 但是,從多模態的角度來看,我國可能存在很大的差距,這也與算力不足有關,多模態所需的算力遠高於文字。

在短期約束方面,主要是算力和商業模式的問題。

AI Tech Review:您你覺得你還有很多時間嗎?

姚星其實並不多,如果找不到可持續的商業化模式,隨著人員和裝置的擴張,大家的錢都很難維持很多年。

元宇宙與大型模型AI技術評論:現在元在元宇宙中大模型的兩家企業的人員比例是多少?

姚星:元宇宙和大模型是元宇宙中的兩個團隊,被認為是兩個業務部門,人員比例約為7:3。

與Meta等元宇宙公司不同,Meta Elephant的定位不是生產終端裝置,而是專注於利用AI技術解決3D數字內容從生產到消費(呈現)的問題。 這裡的AI技術包括傳統的計算機圖形學技術,如NERF神經輻射場技術,可以高效低成本地進行三維重建,以及大型模型AIGC技術,如擴散模型。

人工智慧技術評論:目前市場正在下滑元宇宙,很多大廠已經淘汰了元宇宙部門,為什麼元宇宙還堅持做元宇宙?

姚星:這與堅持元宇宙無關。 相反,它是我所理解的AGI,它是通過**方式實現的,而元宇宙恰好是**環境的優秀技術。

我們將堅持大模型和元宇宙的兩條腿。 通過元宇宙構建感知智慧型,**更多自監督資料;認知智慧型通過大模型構建,以超強算力實現高層次的理解和決策。

有很多公司是兩條腿並肩行走,但表達方式不同,比如meta是元宇宙和大模型並行,Deepmind和OpenAI也是,只是更強調強化學習。

我認為AGI值得長期堅持和遵循,這是一條艱難但正確的道路。

人工智慧技術評論:你認為實施AGI需要哪些要素?

姚星圖靈說,人工智慧是一種學會像人類一樣思考的機器,即機器通過接收資訊來做出自主決策,比如接收語言訊號、視覺訊號,或者語言+視覺訊號,然後進行推理。

要實現AGI,AI必須能夠接收和理解輸入訊號(語言+視覺),經過推理和決策後輸出訊號(語言、創作、動作等),所以AGI離不開對輸入訊號的理解(感知智慧型)、AI的推理和決策(認知智慧型,如大模型),輸出訊號(感知智慧型),也就是我常說的AGI=感知智慧型+認知智慧型。

人工智慧技術評論:如此之大該模型可以實現AGI

姚星:目前很難做到。 大模型之所以開始顯示出它的侷限性,是因為大模型本質上仍然是一種對齊技術。

那是什麼意思?對齊不是推理。 我們人類在學習九十九乘法表時可以計算出所有數字乘法的乘積,但大模型卻不能。 它的推理是建立在看到相關資料的前提之上的,是一種關聯,所以還是鸚鵡學舌,不看就無法對齊。 大型模型的本質是它擁有多少資料和多少功能,這就是它的侷限性。

未來大模型發展的一大挑戰是探索自監督資料,因為大模型目前基本用完了已知人類積累的自監督文字資料語料庫。 為了實現AGI,可能需要考慮如何產生更高質量的自監督資料,例如通過模擬環境合成更多的自監督資料。 特別是vision2action的資料,因為人類的輸入訊號不僅僅是文字資訊,還有大量的視覺資訊,比如遊戲,比如駕駛等,需要通過視覺資訊來判斷和推理。 強化學習當然是一種非常有用的手段,但強化學習也有很多侷限性,如泛化性差,如難以找到有效的q函式等。

所以在我看來,要實現雄心勃勃AGI理想情況下,大模型還不夠,可能需要結合對齊和**才有機會。

這也是為什麼Meta Elephant仍然堅持做元宇宙的原因。 通過元宇宙到現實世界**的模擬,產生大量的vision2action資料其實,我心目中的AGI可能是大模型+元宇宙

AI Tech Review:您如何看待當今的大模型給出我們整個世界帶來了哪些變化?

姚星:前段時間聽陸琦講大模型帶來的新正規化,讓我很感動。 人人都能依靠大模型通過自然語言與計算機進行交流,製作自己的應用、遊戲、工具等,實屬不可思議。

雲時代解決了軟體系統的部署和運維問題,你不需要對海量網際網絡系統有太多經驗,直接連線雲服務就可以提供海量網際網絡服務(海量使用者和接入)。

大模型帶領我們進入AI時代,大大降低了創作門檻,大家能創造的不再侷限於文字、**或**,而是用大模型來創造**、遊戲、App等更“高階”或更高維度的資訊,創造更多的操作和互動,更智慧型、更有用的工具,這意味著雲+大模型讓每個人都可以自由創作。 在大模型時代,每個人都可以成為程式設計師,可以創造。

未來是乙個可以釋放靈感和實現的世界,你不覺得這樣的世界,這樣的生活,是不是特別有趣?

(本文作者長期跟蹤大模型等AI領域的人物、公司故事和行業趨勢,歡迎新增作者微信。zzjj752254互補。

閱讀更多,點選下方關注:

相關問題答案

    獨家對話祖峰“遊”辣醬非洲,金東現場創作過癮

    祖峰是出生於南京的演員,以知識分子的身份而聞名。近日,他在江蘇衛視熱播劇 歡迎來到麥克樂村 中飾演醫療隊隊長江大橋一角,展現了他的演技和個人魅力。這部劇在江蘇衛視 時段播出,受到觀眾的熱烈追捧。劇中,祖峰飾演的江大橋展現了醫生的敬業精神和對家人的溫柔關懷。觀眾對他的表演和角色讚不絕口,並在社會 上稱...

    獨家秘密!《星星墜糖》的幕後曝光,是你想象不到的驚喜!

    大家好!今天,就來聊聊一部讓人停不下來的古裝神話劇 星星墜入糖 你想知道這部劇為什麼能夠脫穎而出嗎?別著急,我會一一給你揭曉的!保證你會喜歡看它,你還在等什麼,趕快翻轉吧!明星墜糖 這部劇是年我們古裝神劇行業的一匹大黑馬!不僅收視率爆炸,口碑也被利用!是什麼讓這個節目如此受歡迎?這是乙個精彩的情節嗎...