冼漢迪談人工智慧時代語料庫建設的合規問題

3月2日下午，中國國家網際網絡空間安全協會人工智慧安全治理專業委員會在北京召開“人工智慧語料庫建設與合規”研討會。全國人大代表、政協委員及學術界、法學界、行業專家出席會議，就人工智慧大型模型語料庫採集、處理、流通所涉及的相關法律問題進行深入研究。

中國手機電子集團全國人大代表（00302.）HK）聯合創始人、國巨集嘉信資本創始合夥人辛漢迪先生就《人工智慧語料庫的構建與合規思考》發表了自己的看法，他說：模型訓練仍然有很大的版權侵權風險，我的觀點是，為了人工智慧產業的發展，我建議在合理使用版權作品的情況下，一些大型模型可以免除版權責任，但不是無條件和無限制的;應鼓勵技術創新，如發展智慧型版權識別技術，以更好地幫助和管理版權問題; 要鼓勵公眾多參與這一話題的討論，提高版權意識和智財權教育，共同推動人工智慧技術的健康發展。

以下為演講全文：

大家下午好，非常感謝大家的邀請，很高興今天能和大家一起討論智慧型語料庫建設與合規的問題，這裡我也就談談我的想法。

一目前，大型模型訓練仍存在較大的版權侵權風險

首先，讓我們回顧一下大模型的基本概念。大型模型是一種深度學習模型，可以在海量資料上進行訓練，以實現自然語言理解和生成等任務。但正是因為其訓練依賴於大量資料，涉及使用受版權保護的作品，這也引發了對版權侵權的擔憂，而未經授權使用第三方平台工作資料進行大模型訓練也引發了一些糾紛。

很多AI開發者沒有透露自己訓練資料集中關於生成式AI所用資料的確切細節**，但大致可以分為兩步：第一步是通過購買資料庫、公開抓取等方式獲取海量內容資料，再經過某種形式的改造後儲存在相關伺服器中; 第二步，對內容資料進行分析和處理，以找到某些模式、趨勢和相關性，並將其轉換為大型模型引數，以便後續生成內容。但是，其中一些資料包含受版權保護的內容。

例如，包括 Google、Facebook 和 OpenAI 在內的 AI 開發人員正在使用“Colossal Clean Crawled Corpus”資料集（通常簡稱為 C4 資料集）來訓練大型模型，其中包含大量受版權保護的內容**，這些形式的資料收集也會引發版權歸屬和合理使用的問題，這是生成式 AI 技術健康發展的關鍵。

第二判斷用於大型模型訓練的受版權保護的作品是否侵權的現有標準是什麼？

為了進一步了解如何判斷使用版權作品訓練大型模型是否侵權，我還去了解了中國的相關法律法規：

我國著作權法第24條規定了“合理使用”的具體情形（即可以不經著作權人許可，不向著作權人支付報酬而對作品進行利用），涉及大模型訓練的具體規則一般包括“個人使用”、“適當引用”、“學習研究使用”、等。

其中：第一點是“個人使用”的適用目的有嚴格限制，目前大模式主要用於商業服務，不符合本項;

第二點，“適當引用”，法律規定的前提是“以介紹或評論為目的解釋某項作品”或“說明某項問題”，而AIGC模式的商業應用顯然不符合這一項;

第三點，“科學研究”，將作品的使用限制在“學校課堂教學或科學研究”，並且還強調只能製作少量的複製品，而目前大型模型大量複製和使用作品的現狀無法滿足這一要求。

那麼，如果只根據著作權法來看，使用未經授權的著作權作品進行模型訓練無疑是侵權的。

但是，除了著作權法之外，為了使著作權法服務於促進全社會文化知識共享、內容傳播技術進步等更高層次的公共利益，各國也制定了例外規則，即如果滿足“三步檢驗法”，也可以判定為“不侵權”。三步檢驗法的具體內容是“只能在特殊情況下製作，不與作品的正常利用相衝突，不無理損害著作權人的利益”。

至於用這三個步驟來判斷乙個大模型是否侵權，相信今天在座的各位法律專家也會有自己的專業意見。我想重點關注以下幾點：未經授權使用受版權保護的作品進行模型訓練是否會對受版權保護的作品產生市場影響？這是否會導致公共利益的不平衡？這一定是乙個價值考量和利益平衡的過程，很難說有100%的正確答案。我相信AIGC的發展將極大地促進社會的發展。雖然模型培訓可能會對著作權人產生一定的市場影響，但如果在培訓過程中過分強調著作權作品的付費，肯定會限制甚至阻礙AIGC產業的發展。

因此，我們也看到，自ChatGPT發布以來，為了推動AI的發展，世界各國其實在對法律的完善進行了初步探索，在一定程度上以“免除AIGC平台在模型訓練階段的版權責任”為目標。例如，歐盟、日本和美國都通過修改法律規定，對大型模型的版權責任進行了一定程度的免除。

第三建議

因此，我想提出以下建議：

1.為了人工智慧產業的發展，我建議在合理使用版權作品的情況下，一些大模型可以免除版權責任，但不是無條件、無限制的。

2.鼓勵技術創新，例如開發智慧型版權識別技術，以更好地幫助和管理版權問題。

3.鼓勵公眾參與該議題的討論，提高版權意識和智財權教育，共同推動人工智慧技術的健康發展。比如，像今天這樣的討論就是乙個很好的機會，所以我想再次感謝主辦方組織了這樣的發布會，讓我們能夠就AI語料庫構建和合規的問題進行更深入的思考和交流。

以上就是我的分享，謝謝！

熱點引擎程式

冼漢迪談人工智慧時代語料庫建設的合規問題

相關問題答案

人工智慧革命：如何在人工智慧時代保住你的工作

步入人工智慧新時代

在人工智慧時代，我們看好矽光子學！

人工智慧時代始於銳龍 8040 移動處理器功能

AI人工智慧時代