視覺中國.
文 |《元宇宙新聲音》,孫浩男主編。眾所周知,在AI大模型領域,OpenAI開發chat-GPT就像是我上學時老師布置的乙個特別難的題目,就在大家還在摸索解決問題的想法或疑惑不解的時候,班上的尖子生已經先寫完了, 所以大部分人更傾向於和尖子生交流想法,或者直接抄作業。
最近的動盪似乎也證實了許多看似複雜的事情本質上是一樣的。 此前,馬斯克旗下的Grok AI因資料集汙染被懷疑抄襲甚至shell聊天gpt,現有的位元組跳動因涉嫌違反服務條款被OpenAI封禁。
近日,外媒The Verge報道稱,位元組跳動使用微軟的OpenAI API賬號生成資料來訓練自己的人工智慧模型,這實際上違反了Microsoft和OpenAI的使用條款。 訊息曝光後不久,The Verge 進一步表示,OpenAI 已暫停位元組跳動的賬戶。
那麼位元組跳動違反了哪些具體條款呢? 事實上,OpenAI的服務條款中有明確規定,即OpenAI提供的模型能力不允許用於“開發任何與其產品和服務競爭的AI模型”。
據The Verge報道,證據來自位元組跳動的乙份內部檔案,即飛書海外版Lark的聊天記錄。
該檔案顯示,位元組跳動在其代號為 Project Seed 的基本大型語言模型專案中,幾乎在每個開發階段都依賴 OpenAI 的 API 進行開發,包括訓練和評估模型。
“種子計畫”大約在一年前啟動,目前重點開發兩款產品,一款是已在國內推出的豆包; 另乙個是面向商業使用者的聊天機械人平台,目前正在開發中。
參與“種子專案”的員工很清楚過度依賴OpenAI的API的後果,因此他們開始討論如何通過“資料遮蔽”來粉飾證據。 如此之多,以至於員工經常達到 OpenAI API 的最大訪問限制。
根據內部檔案,位元組跳動大約幾個月前發布了一項命令,要求“在模型開發的任何階段停止使用 GPT 生成的文字”。
然而,也正是在這個時候,位元組跳動發布了自己的大語言模型豆包。 鬥寶AI官方微介紹,鬥寶AI可以提供聊天機械人、寫作助手和英語學習習助手等功能,可以回答各種問題和進行對話,幫助人們獲取資訊,支援Web平台,iOS和Android平台。豆寶可以提供自然語言處理、知識理解、對話、資訊檢索、情感分析、機器學習、習等多種型別的輔助。
然而,位元組跳動繼續以違反OpenAI和Microsoft服務條款的方式使用API,包括評估Bean資料包背後的模型的效能。 一位對位元組跳動內部情況有第一手了解的人指出,“他們說他們想確保一切都是合法的,但他們真的只是不想被抓住。
在The Verge的報道之後,位元組跳動發言人Jodi Seth回應稱,GPT生成的資料在“種子專案”的早期開發中被用於標註模型,並在今年年中左右從位元組跳動的訓練資料中刪除。 位元組跳動已獲得 Microsoft 的許可,可以使用 GPT API。 我們利用GPT來支援我們的產品在非中國市場; 但在中國市場,我們用我們自主研發的模型來支援豆袋。
昨日下午,位元組跳動相關負責人再次回應稱,該公司強調,在使用OpenAI相關服務時,必須遵守其使用條款。 我們還與OpenAI保持聯絡,以澄清外部報告可能引起的任何誤解。
位元組跳動使用 OpenAI 服務的介紹:
1、今年年初,技術團隊剛開始對大模型進行初步探索時,就有工程師將GPT的API服務應用到小模型的實驗專案研究中。 該模型僅用於測試,沒有上線計畫,也從未在外部使用過。 在該公司於 4 月推出 GPT API 呼叫規範檢查後,這種做法已停止。
2、早在今年4月,Byte Model團隊就已經提出了明確的內部要求,即GPT模型生成的資料不應新增到Byte Model的訓練資料集中,並且已經對工程師團隊進行了使用GPT時遵守服務條款的培訓。
今年1月,該公司進行了另一輪內部檢查,並採取措施進一步確保對GPT的API呼叫符合規範。 例如,對模型的訓練資料與GPT的相似度進行批量取樣,防止資料標註者私自使用GPT。
4. 在未來的日子裡,我們將再次進行全面檢查,以確保嚴格遵守相關服務的使用條款。
OpenAI發言人Niko Felix發表宣告,確認位元組跳動的賬戶已被暫停。 “所有API客戶都必須遵守我們的使用政策,以確保我們的技術得到良好的使用。 雖然位元組跳動很少使用我們的API,但我們已經暫停了他們的賬戶,同時繼續進一步調查。 如果我們發現他們的使用不符合公司政策,我們將要求他們進行必要的更改或終止他們的帳戶。 菲利克斯說。
Microsoft發言人Frank Shaw在乙份宣告中表示,Microsoft AI解決方案,如Azure OpenAI服務,是我們有限訪問框架的一部分,這意味著所有客戶都必須申請並獲得Microsoft的批准才能訪問。 我們還制定標準並提供資源,以幫助我們的客戶負責任地使用這些技術並遵守我們的服務條款。 我們還制定了適當的流程來檢測濫用行為,並在企業違反我們的行為準則時阻止其訪問。 ”
從此次事件的三方宣告中可以看出,OpenAI更為保守,只是暫停了位元組跳動的賬號,並表示在決定是否需要採取進一步措施之前會進行調查。 另一方面,Microsoft則有一種“與它無關”的態度,彷彿在說“我只是乙個中間人,我們有自己的規則,如果有違規行為,我們會禁止它”。 位元組跳動更著急,畢竟“火”已經在它身上燃燒了。 先是澄清了解釋,然後立即聯絡OpenAI,迅速“撲滅”了事件。
公開資料顯示,早在2024年,位元組跳動就成立了AI實驗室,專注於自然語言處理、機器習、資料探勘等方面的研究。 抖音、今日頭條等位元組跳動產品也頻頻加入AIGC(生成式人工智慧)功能,持續吸引流量。
2024年,位元組跳動在AI領域的行動將大幅加速。 6月,位元組跳動Volcano Engine發布大型模型服務平台“火山方舟”,為企業提供模型微調、評估、推理等全方位平台服務。
8月,位元組跳動自主研發的通用大模型“雲雀”在首批通過《生成式人工智慧服務管理暫行辦法》的大模型名單中亮相。
8月17日,位元組跳動公開測試了基於雲雀大模型開發的AI聊天機械人“豆寶”,並專注於面向C端市場的AI應用。
最近,位元組跳動在縮減遊戲和XR業務的同時,成立了乙個新的人工智慧部門Flow。 據相關招聘資訊顯示,Flow是位元組跳動的AI創新業務團隊,已分別在國內和海外推出“豆包”和“CICI”兩款產品,並正在孵化多款AI相關創新產品。
與此同時,位元組跳動今年從英偉達訂購了超過10億美元的GPU,僅其訂單就相當於英偉達去年在中國銷售的商用GPU的總收入。 此外,在人才招聘方面,位元組跳動在AIGC新增職位數量排名前10的公司中也排名第一,佔比為324%。
種種行為都表明,Bytes對AI和大模型的重視程度很高,回到事件本身,如此重視它的Bytes會為了“彎道超車”而冒這麼大的風險嗎?
ChatGPT問世後,位元組和國內很多大廠商一樣,都在努力跟上AI的節奏。 但顯然位元組有點落後,很多人在豆包推出後才使用,但效果並沒有達到一流水平。 如果用ChatGPT-GPT訓練的AI只是這個效果,過去好像不是很怎麼說,如果不用ChatGPT-GPT訓練豆包,那麼這個效果是意料之中的。
在接受 Ars Technica 採訪時,人工智慧研究員 Simon Willison 在接受 Ars Technica 採訪時表示,“許多大型模型已經在使用 OpenAI API 生成的資料集上進行了微調,或者從 ChatGPT 本身中抓取。 ”
但顯然這些操作都是在合理的範圍內進行的,對於位元組來說可能也是如此,至於位元組是否過於“急功近利”,選擇超出合理範圍使用,想必作為一家龐大的網際網絡公司,應該不會進行這種“小虧”的抄襲。