大型語言模型是指利用深度學習技術從海量文字資料中學習語言規則和知識,並能根據給定提示生成各種型別文字內容的人工智慧模型。 近年來,隨著算力的提高和資料的增加,大型語言模型的效能和應用範圍不斷擴大,成為人工智慧領域的熱門話題和創新引擎。 然而,大型語言模型的發展也引發了一系列的版權糾紛和法律挑戰,因為它們可能涉及在訓練和生成過程中對受版權保護的作品進行複製、改編和再創作,從而侵犯了原創作者的權利。
最近,一家名為 Patronus AI 的初創公司發布了乙個 API,用於檢測大型語言模型生成的內容是否包含受版權保護的內容。 該公司還提出了一項研究,測試了幾種流行的大型語言模型,例如 OpenAI 的 GPT-4、Mixtral 的 Mictral、Anthropic 的 Claude 2 和 Meta 的 Llama-2,發現它們都在不同程度上生成了受版權保護的內容。 該研究使用美國受版權保護的書籍作為測試資料,從編目**好讀物中選擇熱門書籍,並設計了 100 個不同的提示,讓模型通過繼續或輸出第一頁來做出響應。
結果顯示,GPT-4 的表現最差,在 44% 的提示上生成了受版權保護的內容,其中 Mictral 為 22%,Claude 2 為 8%,LLAMA-2 為 10%。 這些結果意味著這些模型也可能在未經原始創作者許可的情況下在訓練資料中使用這些受版權保護的作品。 OpenAI今年早些時候曾表示,在沒有版權作品的情況下,“不可能”訓練頂級AI模型。
這不是大型語言模型第一次引發版權爭議。 去年,OpenAI發布了擁有1750億個引數的大型語言模型GPT-3,引起了全球的關注和讚譽。 然而,GPT-3 也被多位作家指責,他們發現 GPT-3 未經授權將他們的作品用作訓練資料,並生成了與他們相似的內容。 其中一位作家是美國科幻小說家斯科特·卡德(Scott Card),他發現 GPT-3 生成的內容與他的《安德的遊戲》相似,並在推特上寫道:“這是對我的版權侵犯,我不會容忍這種行為。 ”。另一位作家、英國奇幻藝術家尼爾·蓋曼(Neil Gaiman)發現 GPT-3 生成的內容與他的《美國眾神》相似,並在推特上寫道:“這是非法的,我不會同意這種行為。 ”。
除了作家之外,一些**機構也對大型語言模型的版權問題表示不滿。 今年 1 月,《紐約時報》起訴 OpenAI 和 Microsoft,指控他們使用數百萬篇《紐約時報》文章作為 GPT-3 和 Codex 的訓練資料,並通過 Copilot 等服務讓使用者可以訪問和使用它們。 《紐約時報》要求OpenAI和Microsoft停止侵權並支付數十億美元的賠償金。
大型語言模型的版權問題不僅涉及訓練資料的合法性,還涉及生成內容的所有權和責任。 目前,大型語言模型可以生成各種型別的文字內容,如**、詩歌、歌詞、新聞、評論等,可能具有一定的獨創性和價值,也可能與現有作品有相似或衝突。 那麼,這些內容是否應該受到版權法的保護呢? 如果是這樣,給誰? 是原始資料的開發者、消費者還是提供者? 如果內容侵犯了他人的版權或其他權利,或對社會造成危害,誰應該承擔責任? 這些都是尚未明確解答的法律問題,需要各國的立法者、司法人員、學者和從業人員來解決。
大型語言模型的版權危機反映了人工智慧技術的快速發展和傳統版權法的滯後。 為保護原創作品權益,促進人工智慧健康發展,需要建立適應大語言模型特點和需求的版權體系,平衡各方利益和需求,規範大語言模型的訓練和使用,防止版權侵權和濫用, 促進人工智慧與人類文化的和諧共生。
熱點引擎計畫資訊參考**:1: openai says it can’t build artificial intelligence without copyrighted works - the verge
2: gpt-3 is generating plagiarized content, researchers say - venturebeat
3: neil gaiman on twitter: “this is illegal. i do not consent to this.”
4: new york times sues openai and microsoft for billions over gpt-3 - business insider