就在今天,有**海外傳出訊息稱,中國網際網絡科技巨頭位元組跳動悄悄利用OpenAI的技術,開發了自己的AI大語言模型——類似於“走捷徑、走捷徑”的做法。 由於位元組跳動違反OpenAI的服務條款,該公司的賬戶已被OpenAI暫停。 目前,這一事件引起了業內人士的關注和討論。
內部檔案顯示,位元組跳動在開發代號為“Project Seed”的基本大型語言模型時,幾乎在每個開發階段都依賴OpenAI的API(應用程式程式設計介面)。 該公司的行為被視為直接違反了 OpenAI 的服務條款。
位元組跳動發言人喬迪·塞斯(Jodi Seth)回應稱,GPT生成的資料在“種子計畫”的早期開發中曾被用於標註模型,但在今年年中已經從位元組跳動的訓練資料中刪除。 Jodi Seth表示,位元組跳動已獲得Microsoft的許可,可以使用GPT API。 位元組跳動在非中國市場使用GPT驅動的產品和功能,但在中國市場使用自研模型驅動“豆包”。
OpenAI 發言人 Niko Felix 證實,OpenAI 已暫停位元組跳動的賬戶,原因是其行為不符合公司政策。 Niko Felix 強調,所有 API 客戶都必須遵守 OpenAI 的使用政策,以確保該技術用於良好的目的。 “儘管位元組跳動很少使用我們的API,但在我們進一步調查期間,他們的賬戶已被暫停。 如果我們發現他們的使用不符合這些政策,我們將要求他們進行必要的調整,或終止他們的帳戶。 ”
雖然很少公開討論,但小公司利用專有的人工智慧模型,尤其是OpenAI的模型,來開發與之競爭的人工智慧產品是很常見的。 由於OpenAI和Microsoft尚未將違規案例作為參考,這種做法仍處於法律灰色地帶。 “現在很多初創公司都在冒這種風險,”Databricks 生成式 AI 副總裁 N**Een Rao 說。
然而,像位元組跳動這樣規模龐大、資源豐富的科技巨頭,從事這種行為是極其罕見的。 這似乎表明 Project Seed 團隊面臨著快速交付結果的巨大壓力。 “我經常收到位元組跳動發來的工作電子郵件,”美國一家大型科技公司的人工智慧研究員說,“我通常忽略它們。 但這件事讓我想把這些電子郵件標記為垃圾郵件。 ”
其他公司也遇到了類似的問題,擔心他們的GPT模型的輸出會被用來開發競爭對手。 例如,一位谷歌研究人員選擇辭職,因為一些同事試圖使用包含 ChatGPT 對話內容的資料。 該事件不涉及濫用 OpenAI 的 API,但在內部造成了不小的尷尬,涉事員工也受到了輕微的紀律處分。
自從位元組跳動大約一年前推出Project Seed以來,該專案一直是一項高優先順序、高保密的任務。 參與其中的員工被要求簽署特殊的保密協議,專案內的資訊獲取變得越來越孤立。 位元組跳動創始人張一鳴一直密切關注該專案。
Project Seed目前正在開發兩款主要產品:一款是AI聊天機械人豆寶,已在中國市場推出另乙個是面向企業使用者的聊天機械人平台,目前正在開發中,計畫通過位元組跳動的雲服務部門推廣並出售給企業使用者。
位元組跳動開設 Project Seed 的最終目標是開發像 OpenAI 一樣的通用人工智慧 (AGI)同時,它似乎更傾向於盡快成為中國版的ChatGPT。 專案組已接到指示,要在年底前實現GPT-35 相同的效能水平,並在 2024 年中期達到 GPT-4 的效能水平。 現在SEED模型的引數大約是2000億,GPT-35 的引數為 1750 億。 (OpenAI 尚未公布 GPT-4 引數的大小。 傳聞數萬億)
Project Seed 不隸屬於位元組跳動旗下的 TikTok,主要在中國的伺服器上開發。 大多數團隊成員都在中國,但也有成員在美國。 該專案由位元組跳動獵頭部門負責人朱文佳領導,向公司高階工程負責人楊振元匯報工作。 該項目的其他主要負責人包括喬木(朱文佳的一部分)和負責應用機械人習團隊的向亮。
乙個有趣的問題是,當大量大型語言模型(LLM)開始參與構建其他大型語言模型時,網路資訊的質量如何變化我們還不知道。 由於這些基礎模型本身是在虛幻的、人工製造的資料上訓練的,因此使用它們來構建更大的語言模型可能會進一步放大錯誤資訊的傳播。 正如 Databricks 的 N**een Rao 所說,“這最終可能導致與現實世界脫節。 ”
關於位元組跳動這件事被帶出海外,反映了AI領域的激烈競爭和複雜的動態,其實位元組跳動能夠積極加入AI大語言模型的競爭,作為中國人,在心態上更是支援。 位元組跳動在做AI大模型方面有很多很強的優勢,未來還需要堅持長期的大規模投入,自主研發打造全球競爭激烈的領先AI大模型及其應用和服務。
2024年,位元組跳動營收達到852億美元,同比增長超過38%;2024年第一季度,公司營收接近245億美元,同比增長近34%;2023 年第二季度,收入為 290 億美元,同比增長約 40%。 即使假設同比增長率為 30%,位元組跳動 2023 年全年的收入也將首次超過 1000 億美元——可能超過 1100 億美元。
另一方面,位元組跳動(平台)的很多產品都擁有大量的活躍使用者,使用者粘性往往不低。 例如,抖音的日活躍使用者超過7億,TikTok的月活躍使用者超過11億,今日頭條的月活躍使用者約為4億,Capcut可能擁有兩三億的活躍使用者其他產品如番茄**、西瓜**、番茄聽、皮皮蝦、懂澈、蘇打**、幸福、活小邦、飛書(雲雀)等,活躍使用者超過一兩億,少至百萬或數千萬。
目前,位元組跳動已經推出了多款面向網際網絡使用者的獨立AI聊天機械人產品,包括豆包、小悟空、中投、Chitchop等。 豆包和小悟空面向中國使用者,CICI和CHITCHOP面向海外使用者。 此外,位元組跳動的產品,如今日頭條、劍影、飛書等,也在通過融合AI技術,對使用者體驗進行公升級。 從位元組跳動進軍生成式人工智慧AI的舉動來看,它應該專注於全球市場,而不僅僅是中國市場。
不久前,網上有傳言稱,位元組跳動正在開發乙個開放平台,允許使用者建立自己的AI聊天機械人,預計將在今年12月底前作為公測版向使用者推出。 OpenAI 的 ChatGPT 已經向使用者推出了建立 AI 代理的功能,可以根據使用者的需求和喜好輕鬆定製,例如專注於中英文翻譯的 AI、精通金融投資的 AI、精通各種程式的 AI、特別擅長建立某些型別高質量影象的 AI、 專門運營社交內容的AI、提供法律諮詢服務的AI、幫助看病和抓藥的AI...... 總之,太多了。 此外,位元組跳動還在開發一款類似於Midjourney的AI影象生成工具。 在 AI 影象生成方面,Midjourney 是領先的工具。
也就是說,像位元組跳動這樣的科技巨頭,手裡已經有很多好牌了,如果立志在戰略層面做好AI大語言模型,那將會很有意思。 當位元組跳動的AI大語言模型在效能上達到GPT-4或以上時,那麼位元組跳動有望在這場全球AI大模型大戰中佔據非常重要的位置。
根據飛書文件的資料,今年11月,中國排名前五的AI聊天機械人分別是文心一言、科大訊飛星火、阿里通義千文、位元組跳動豆寶、知步清妍。 僅憑這一點,似乎就瞥見了乙個事實,雖然國內很多企業在早期都在做大模型,但真正可以指望的國內AI大模型玩家應該屈指可數——從長遠來看,中國能有兩三家像OpenAI這樣的公司成為大模型的基地——最終導致AGI, 這其實非常好。位元組跳動更有可能成為這兩三家公司之一。
我正在整理技術怪胎的版本)。