大型語言模型的版權危機 如何保護原創作品的權利?

Mondo 文化 更新 2024-03-07

大型語言模型是指利用深度學習技術從海量文字資料中學習語言規則和知識,並能根據給定提示生成各種型別文字內容的人工智慧模型。 近年來,隨著算力的提高和資料的增加,大型語言模型的效能和應用範圍不斷擴大,成為人工智慧領域的熱門話題和創新引擎。 然而,大型語言模型的發展也引發了一系列的版權糾紛和法律挑戰,因為它們可能涉及在訓練和生成過程中對受版權保護的作品進行複製、改編和再創作,從而侵犯了原創作者的權利。

最近,一家名為 Patronus AI 的初創公司發布了乙個 API,用於檢測大型語言模型生成的內容是否包含受版權保護的內容。 該公司還提出了一項研究,測試了幾種流行的大型語言模型,例如 OpenAI 的 GPT-4、Mixtral 的 Mictral、Anthropic 的 Claude 2 和 Meta 的 Llama-2,發現它們都在不同程度上生成了受版權保護的內容。 該研究使用美國受版權保護的書籍作為測試資料,從編目**好讀物中選擇熱門書籍,並設計了 100 個不同的提示,讓模型通過繼續或輸出第一頁來做出響應。

結果顯示,GPT-4 的表現最差,在 44% 的提示上生成了受版權保護的內容,其中 Mictral 為 22%,Claude 2 為 8%,LLAMA-2 為 10%。 這些結果意味著這些模型也可能在未經原始創作者許可的情況下在訓練資料中使用這些受版權保護的作品。 OpenAI今年早些時候曾表示,在沒有版權作品的情況下,“不可能”訓練頂級AI模型。

這不是大型語言模型第一次引發版權爭議。 去年,OpenAI發布了擁有1750億個引數的大型語言模型GPT-3,引起了全球的關注和讚譽。 然而,GPT-3 也被多位作家指責,他們發現 GPT-3 未經授權將他們的作品用作訓練資料,並生成了與他們相似的內容。 其中一位作家是美國科幻小說家斯科特·卡德(Scott Card),他發現 GPT-3 生成的內容與他的《安德的遊戲》相似,並在推特上寫道:“這是對我的版權侵犯,我不會容忍這種行為。 ”。另一位作家、英國奇幻藝術家尼爾·蓋曼(Neil Gaiman)發現 GPT-3 生成的內容與他的《美國眾神》相似,並在推特上寫道:“這是非法的,我不會同意這種行為。 ”。

除了作家之外,一些**機構也對大型語言模型的版權問題表示不滿。 今年 1 月,《紐約時報》起訴 OpenAI 和 Microsoft,指控他們使用數百萬篇《紐約時報》文章作為 GPT-3 和 Codex 的訓練資料,並通過 Copilot 等服務讓使用者可以訪問和使用它們。 《紐約時報》要求OpenAI和Microsoft停止侵權並支付數十億美元的賠償金。

大型語言模型的版權問題不僅涉及訓練資料的合法性,還涉及生成內容的所有權和責任。 目前,大型語言模型可以生成各種型別的文字內容,如**、詩歌、歌詞、新聞、評論等,可能具有一定的獨創性和價值,也可能與現有作品有相似或衝突。 那麼,這些內容是否應該受到版權法的保護呢? 如果是這樣,給誰? 是原始資料的開發者、消費者還是提供者? 如果內容侵犯了他人的版權或其他權利,或對社會造成危害,誰應該承擔責任? 這些都是尚未明確解答的法律問題,需要各國的立法者、司法人員、學者和從業人員來解決。

大型語言模型的版權危機反映了人工智慧技術的快速發展和傳統版權法的滯後。 為保護原創作品權益,促進人工智慧健康發展,需要建立適應大語言模型特點和需求的版權體系,平衡各方利益和需求,規範大語言模型的訓練和使用,防止版權侵權和濫用, 促進人工智慧與人類文化的和諧共生。

熱點引擎計畫資訊參考**:1: openai says it can’t build artificial intelligence without copyrighted works - the verge

2: gpt-3 is generating plagiarized content, researchers say - venturebeat

3: neil gaiman on twitter: “this is illegal. i do not consent to this.”

4: new york times sues openai and microsoft for billions over gpt-3 - business insider

相關問題答案

    如何突破大型語言模型的最大瓶頸

    譯者 布加迪。OpenAI 的 GPT 和 Anthropic 的 Claude 等大型語言模型 LLM 以其生成類級文字的能力激發了公眾的想象力。企業也很熱情,許多企業都在探索如何使用 LLM 來改進他們的產品和服務。然而,嚴重限制在生產中採用最先進的 LLM 的乙個主要瓶頸是速率限制。有一些方法...

    如何通過 API 將大型語言模型整合到您自己的應用程式中

    在現代應用程式開發中,利用強大的大型語言模型為應用程式新增智慧型和自然語言處理能力已成為一種趨勢。通過使用開放介面 API 開發人員可以輕鬆地將這些大型語言模型整合到自己的應用程式中,從而增強使用者體驗並增加功能的深度。本文將介紹一些基本步驟,以幫助您成功將大型語言模型嵌入到應用程式中。首先,需要選...

    當語言模型風口來臨時,中國企業如何抓住機遇?

    年月日,央視新聞網報道,工信部賽迪研究院資料顯示,今年中國中國大模型市場規模實現快速提公升,應用場景不斷豐富,增速有望超過 語言模型是指利用深度學習習技術,基於海量文字資料訓練的具有較強語言理解和生成能力的人工智慧模型,被認為是人工智慧領域的重要突破和未來發展方向。大型語言模型的興起源於國外Open...

    大型語言模型 API 市場的演變

    隨著越來越多的企業進入機器習領域,大型語言模型 LLM API市場將如何發展?這個市場的起源可以追溯到 OpenAI 發布 ChatGPT,該遊戲迅速實現了 億美元的收入。然而,在去年的這個時候,大型語言模型API市場幾乎沒有競爭。巴德還沒有出現,更不用說克勞德了,雙子座在谷歌首席執行官桑達爾 皮查...

    年度AI論文 大型語言模型的“智慧型湧現”根本不存在!

    關注大模型的人或多或少都聽說過 emergent beh ior 它是指在執行任務時由大型語言模型產生的意外行為 想法或想法。在某種程度上,這種出現可以理解為人工智慧對自己想法的覺醒。這個概念與大模型的 超智慧型 能力有著深厚的聯絡,這是當今人們在討論大模型時最常掛在嘴邊的詞,也是人們如此重視這一波...