Chat GPT是“參考答案”，連位元組跳動都是“抄作業”？

視覺中國.

文 |《元宇宙新聲音》，孫浩男主編。

眾所周知，在AI大模型領域，OpenAI開發chat-GPT就像是我上學時老師布置的乙個特別難的題目，就在大家還在摸索解決問題的想法或疑惑不解的時候，班上的尖子生已經先寫完了，所以大部分人更傾向於和尖子生交流想法，或者直接抄作業。

最近的動盪似乎也證實了許多看似複雜的事情本質上是一樣的。此前，馬斯克旗下的Grok AI因資料集汙染被懷疑抄襲甚至shell聊天gpt，現有的位元組跳動因涉嫌違反服務條款被OpenAI封禁。

近日，外媒The Verge報道稱，位元組跳動使用微軟的OpenAI API賬號生成資料來訓練自己的人工智慧模型，這實際上違反了Microsoft和OpenAI的使用條款。訊息曝光後不久，The Verge 進一步表示，OpenAI 已暫停位元組跳動的賬戶。

那麼位元組跳動違反了哪些具體條款呢？事實上，OpenAI的服務條款中有明確規定，即OpenAI提供的模型能力不允許用於“開發任何與其產品和服務競爭的AI模型”。

據The Verge報道，證據來自位元組跳動的乙份內部檔案，即飛書海外版Lark的聊天記錄。

該檔案顯示，位元組跳動在其代號為 Project Seed 的基本大型語言模型專案中，幾乎在每個開發階段都依賴 OpenAI 的 API 進行開發，包括訓練和評估模型。

“種子計畫”大約在一年前啟動，目前重點開發兩款產品，一款是已在國內推出的豆包; 另乙個是面向商業使用者的聊天機械人平台，目前正在開發中。

參與“種子專案”的員工很清楚過度依賴OpenAI的API的後果，因此他們開始討論如何通過“資料遮蔽”來粉飾證據。如此之多，以至於員工經常達到 OpenAI API 的最大訪問限制。

根據內部檔案，位元組跳動大約幾個月前發布了一項命令，要求“在模型開發的任何階段停止使用 GPT 生成的文字”。

然而，也正是在這個時候，位元組跳動發布了自己的大語言模型豆包。鬥寶AI官方微介紹，鬥寶AI可以提供聊天機械人、寫作助手和英語學習習助手等功能，可以回答各種問題和進行對話，幫助人們獲取資訊，支援Web平台，iOS和Android平台。豆寶可以提供自然語言處理、知識理解、對話、資訊檢索、情感分析、機器學習、習等多種型別的輔助。

然而，位元組跳動繼續以違反OpenAI和Microsoft服務條款的方式使用API，包括評估Bean資料包背後的模型的效能。一位對位元組跳動內部情況有第一手了解的人指出，“他們說他們想確保一切都是合法的，但他們真的只是不想被抓住。

在The Verge的報道之後，位元組跳動發言人Jodi Seth回應稱，GPT生成的資料在“種子專案”的早期開發中被用於標註模型，並在今年年中左右從位元組跳動的訓練資料中刪除。位元組跳動已獲得 Microsoft 的許可，可以使用 GPT API。我們利用GPT來支援我們的產品在非中國市場; 但在中國市場，我們用我們自主研發的模型來支援豆袋。

昨日下午，位元組跳動相關負責人再次回應稱，該公司強調，在使用OpenAI相關服務時，必須遵守其使用條款。我們還與OpenAI保持聯絡，以澄清外部報告可能引起的任何誤解。

位元組跳動使用 OpenAI 服務的介紹：

1、今年年初，技術團隊剛開始對大模型進行初步探索時，就有工程師將GPT的API服務應用到小模型的實驗專案研究中。該模型僅用於測試，沒有上線計畫，也從未在外部使用過。在該公司於 4 月推出 GPT API 呼叫規範檢查後，這種做法已停止。

2、早在今年4月，Byte Model團隊就已經提出了明確的內部要求，即GPT模型生成的資料不應新增到Byte Model的訓練資料集中，並且已經對工程師團隊進行了使用GPT時遵守服務條款的培訓。

今年1月，該公司進行了另一輪內部檢查，並採取措施進一步確保對GPT的API呼叫符合規範。例如，對模型的訓練資料與GPT的相似度進行批量取樣，防止資料標註者私自使用GPT。

4. 在未來的日子裡，我們將再次進行全面檢查，以確保嚴格遵守相關服務的使用條款。

OpenAI發言人Niko Felix發表宣告，確認位元組跳動的賬戶已被暫停。 “所有API客戶都必須遵守我們的使用政策，以確保我們的技術得到良好的使用。雖然位元組跳動很少使用我們的API，但我們已經暫停了他們的賬戶，同時繼續進一步調查。如果我們發現他們的使用不符合公司政策，我們將要求他們進行必要的更改或終止他們的帳戶。菲利克斯說。

Microsoft發言人Frank Shaw在乙份宣告中表示，Microsoft AI解決方案，如Azure OpenAI服務，是我們有限訪問框架的一部分，這意味著所有客戶都必須申請並獲得Microsoft的批准才能訪問。我們還制定標準並提供資源，以幫助我們的客戶負責任地使用這些技術並遵守我們的服務條款。我們還制定了適當的流程來檢測濫用行為，並在企業違反我們的行為準則時阻止其訪問。 ”

從此次事件的三方宣告中可以看出，OpenAI更為保守，只是暫停了位元組跳動的賬號，並表示在決定是否需要採取進一步措施之前會進行調查。另一方面，Microsoft則有一種“與它無關”的態度，彷彿在說“我只是乙個中間人，我們有自己的規則，如果有違規行為，我們會禁止它”。位元組跳動更著急，畢竟“火”已經在它身上燃燒了。先是澄清了解釋，然後立即聯絡OpenAI，迅速“撲滅”了事件。

公開資料顯示，早在2024年，位元組跳動就成立了AI實驗室，專注於自然語言處理、機器習、資料探勘等方面的研究。抖音、今日頭條等位元組跳動產品也頻頻加入AIGC（生成式人工智慧）功能，持續吸引流量。

2024年，位元組跳動在AI領域的行動將大幅加速。 6月，位元組跳動Volcano Engine發布大型模型服務平台“火山方舟”，為企業提供模型微調、評估、推理等全方位平台服務。

8月，位元組跳動自主研發的通用大模型“雲雀”在首批通過《生成式人工智慧服務管理暫行辦法》的大模型名單中亮相。

8月17日，位元組跳動公開測試了基於雲雀大模型開發的AI聊天機械人“豆寶”，並專注於面向C端市場的AI應用。

最近，位元組跳動在縮減遊戲和XR業務的同時，成立了乙個新的人工智慧部門Flow。據相關招聘資訊顯示，Flow是位元組跳動的AI創新業務團隊，已分別在國內和海外推出“豆包”和“CICI”兩款產品，並正在孵化多款AI相關創新產品。

與此同時，位元組跳動今年從英偉達訂購了超過10億美元的GPU，僅其訂單就相當於英偉達去年在中國銷售的商用GPU的總收入。此外，在人才招聘方面，位元組跳動在AIGC新增職位數量排名前10的公司中也排名第一，佔比為324%。

種種行為都表明，Bytes對AI和大模型的重視程度很高，回到事件本身，如此重視它的Bytes會為了“彎道超車”而冒這麼大的風險嗎？

ChatGPT問世後，位元組和國內很多大廠商一樣，都在努力跟上AI的節奏。但顯然位元組有點落後，很多人在豆包推出後才使用，但效果並沒有達到一流水平。如果用ChatGPT-GPT訓練的AI只是這個效果，過去好像不是很怎麼說，如果不用ChatGPT-GPT訓練豆包，那麼這個效果是意料之中的。

在接受 Ars Technica 採訪時，人工智慧研究員 Simon Willison 在接受 Ars Technica 採訪時表示，“許多大型模型已經在使用 OpenAI API 生成的資料集上進行了微調，或者從 ChatGPT 本身中抓取。 ”

但顯然這些操作都是在合理的範圍內進行的，對於位元組來說可能也是如此，至於位元組是否過於“急功近利”，選擇超出合理範圍使用，想必作為一家龐大的網際網絡公司，應該不會進行這種“小虧”的抄襲。

Chat GPT是“參考答案”，連位元組跳動都是“抄作業”？

相關問題答案

夫妻在情感上參考答案

主題 03 化學術語的參考答案

如何讓男人更愛你，參考答案

如果我因墜入愛河而感到疲倦，我該怎麼辦？參考答案

主題 04 元素及其化合物參考答案