外媒The Verge在北京時間今天凌晨報道稱,在生成式AI的瘋狂競賽中,位元組跳動一直在暗中利用OpenAI的技術“走捷徑”,指出位元組跳動在中國使用GPT生成的資料來訓練自己的大模型,違反了Microsoft和OpenAI的開發者許可。 不久之後,OpenAI發言人Niko Felix發表宣告,確認位元組跳動的賬戶已被暫停,並將接受進一步調查。
外媒稱,位元組跳動此舉違反了OpenAI的相關服務條款。 該條款規定,其模型輸出不能用於“開發任何與我們的產品和服務競爭的人工智慧模型”。 位元組跳動正在通過Microsoft購買OpenAI的訪問許可權,該具有相同的政策。
但記者亞歷克斯·希思(Alex Heath)表示,從他看到的內部文件中可以證實,位元組跳動幾乎在開發的每個階段,包括訓練和評估模型,都依靠OpenAI API來開發其代號為“Project Seed”的基本大型模型。
報道提到,自位元組跳動在大約一年前在內部啟動“種子計畫”以來,它已成為乙個高優先順序的秘密計畫。 從事這項工作的員工必須簽署單獨的保密協議。 相關員工也非常清楚這一事件的影響。 Alex Heath 在飛書國際雲雀的內部溝通日誌上看到了關於如何通過“資料編輯”來“粉飾”證據的對話,“其中濫用行為猖獗,種子計畫的員工經常達到 API 訪問的上限。
內部檔案顯示,在種子計畫的早期階段,OpenAI平台的使用更加肆無忌憚。 但幾個月前,位元組跳動命令該團隊“在模型開發的任何階段”停止使用 GPT 生成的文字。 正是在這個時候,位元組跳動獲得了中國監管機構的批准,通過人工智慧模型“豆寶”啟動了種子計畫。
不過,Alex說,使用API違反了OpenAI和Microsoft的服務條款,包括評估Bean資料包背後的模型的效能。 文章援引一位自稱對位元組跳動內部有深入了解的舉報人的話說,“他們說他們想確保一切都是合法的,但他們真的只是不想被抓住。
位元組跳動、Microsoft和OpenAI的發言人都對這份報告做出了回應。
針對報告中詳述的事實,位元組跳動發言人喬迪·塞斯(Jodi Seth)表示,GPT生成的資料在種子專案的早期開發中被用於標註模型,並在今年年中左右從位元組跳動的訓練資料中刪除。
“位元組跳動擁有Microsoft使用 GPT API 的許可,”她提到。 “我們使用GPT為非中國市場的產品和功能提供動力,但使用我們自主研發的模型為豆袋提供動力,這些豆袋僅在中國有售。 ”
Microsoft發言人Frank Shaw在乙份宣告中表示:“Microsoft AI解決方案,如Azure OpenAI服務,是我們有限訪問框架的一部分,這意味著所有客戶都必須申請並獲得Microsoft的批准才能訪問。 “我們還制定了標準和資源,以幫助我們的客戶負責任地使用這些技術並遵守我們的服務條款,並且我們制定了適當的流程來檢測濫用行為,並在公司違反我們的行為準則時停止訪問。” ”
OpenAI發言人Niko Felix告訴該報告的作者,已經確認位元組跳動的賬戶已被暫停:“所有API客戶都必須遵守我們的使用政策,以確保我們的技術得到明智使用。 雖然位元組跳動很少使用我們的API,但我們暫停了他們的賬戶,同時繼續進一步調查。 如果我們發現他們的使用不符合這些政策,我們將要求他們進行必要的更改或終止他們的帳戶。 ”
今年以來,在OpenAI掀起的生成式AI競賽中,無論是巨頭還是初創企業,都陷入了一種“瘋狂”的漩渦。 不等我的焦慮已經成為每個人頭上的口頭禪。 於是,灰色地帶應運而生。
對於小公司來說,使用專有的人工智慧模型,尤其是OpenAI的模型,來幫助構建競爭產品已經成為一種普遍的做法。 這通常被視為法律灰色地帶,因為OpenAI和Microsoft尚未公開對任何違規者施加“嚴厲處罰”。 正如 Databricks 生成式 AI 副總裁 N**Een Rao 所說,“現在很多初創公司都在冒這種風險。 ”
外媒強調,在這次事件中,這種行為對於位元組跳動這種規模的公司來說是非常不尋常的。 這表明種子專案團隊承受著快速交付的巨大壓力。
據介紹,種子計畫正在開發的兩款主要產品,一款是目前在中國上市的AI聊天機械人豆包,另一款是正在開發中的以商業為中心的機械人平台,將通過位元組跳動的雲部門進行銷售。 洪流程式與TikTok無關,它是在中國的伺服器上開發的。 專案負責人是位元組跳動的獵頭負責人朱文佳,他向公司最高工程負責人楊振元匯報工作。
雖然員工們被告知,種子專案的目標是最終構建通用人工智慧,就像OpenAI一樣,但真正的目標似乎是盡快成為中國的ChatGPT。 該團隊已收到與 GPT-3 合作的訂單到 2024 年年中,5 個效能將與 GPT-4 相匹配。 目前的 SEED 模型有大約 2000 億個引數。 相比之下,GPT-35 有 1750 億個引數,而 GPT-4 的引數大小尚未公布。
濫用GPT創造競爭對手並不是乙個孤立的案例。 今年早些時候,一名谷歌研究人員辭職,因為一些員工試圖使用人們上傳的聊天資料。 那件事雖然沒有發酵和引起輿論,但在內部也被視為恥辱。
目前,OpenAI 正在努力識別 API 的輸出,以防止潛在的誤用和濫用,但潘多拉的盒子已經開啟。 目前尚不清楚位元組跳動的此類行動是否會進一步加劇中美之間的高度緊張關係,兩國都將人工智慧視為乙個***問題。
另乙個必須關注的問題是,隨著大型模型越來越多地幫助構建其他大型模型,資訊質量會發生什麼變化。 由於底層模型已經在非事實的、人為建立的資料上進行了訓練,因此使用它們來構建更大的模型只會放大錯覺問題。 走鋼絲的同時,我們一定要警惕掉進更濃的迷霧中,人工智慧的未來將何去何從?我們可能只能在迷茫中前進,在更深層次的博弈中找到答案。