冼漢迪談人工智慧時代語料庫建設的合規問題

Mondo 科技 更新 2024-03-06

3月2日下午,中國國家網際網絡空間安全協會人工智慧安全治理專業委員會在北京召開“人工智慧語料庫建設與合規”研討會。 全國人大代表、政協委員及學術界、法學界、行業專家出席會議,就人工智慧大型模型語料庫採集、處理、流通所涉及的相關法律問題進行深入研究。

中國手機電子集團全國人大代表 (00302.)HK)聯合創始人、國巨集嘉信資本創始合夥人辛漢迪先生就《人工智慧語料庫的構建與合規思考》發表了自己的看法,他說: 模型訓練仍然有很大的版權侵權風險,我的觀點是,為了人工智慧產業的發展,我建議在合理使用版權作品的情況下, 一些大型模型可以免除版權責任,但不是無條件和無限制的;應鼓勵技術創新,如發展智慧型版權識別技術,以更好地幫助和管理版權問題; 要鼓勵公眾多參與這一話題的討論,提高版權意識和智財權教育,共同推動人工智慧技術的健康發展。

以下為演講全文:

大家下午好,非常感謝大家的邀請,很高興今天能和大家一起討論智慧型語料庫建設與合規的問題,這裡我也就談談我的想法。

目前,大型模型訓練仍存在較大的版權侵權風險

首先,讓我們回顧一下大模型的基本概念。 大型模型是一種深度學習模型,可以在海量資料上進行訓練,以實現自然語言理解和生成等任務。 但正是因為其訓練依賴於大量資料,涉及使用受版權保護的作品,這也引發了對版權侵權的擔憂,而未經授權使用第三方平台工作資料進行大模型訓練也引發了一些糾紛。

很多AI開發者沒有透露自己訓練資料集中關於生成式AI所用資料的確切細節**,但大致可以分為兩步:第一步是通過購買資料庫、公開抓取等方式獲取海量內容資料,再經過某種形式的改造後儲存在相關伺服器中; 第二步,對內容資料進行分析和處理,以找到某些模式、趨勢和相關性,並將其轉換為大型模型引數,以便後續生成內容。 但是,其中一些資料包含受版權保護的內容。

例如,包括 Google、Facebook 和 OpenAI 在內的 AI 開發人員正在使用“Colossal Clean Crawled Corpus”資料集(通常簡稱為 C4 資料集)來訓練大型模型,其中包含大量受版權保護的內容**,這些形式的資料收集也會引發版權歸屬和合理使用的問題,這是生成式 AI 技術健康發展的關鍵。

第二判斷用於大型模型訓練的受版權保護的作品是否侵權的現有標準是什麼?

為了進一步了解如何判斷使用版權作品訓練大型模型是否侵權,我還去了解了中國的相關法律法規:

我國著作權法第24條規定了“合理使用”的具體情形(即可以不經著作權人許可,不向著作權人支付報酬而對作品進行利用),涉及大模型訓練的具體規則一般包括“個人使用”、“適當引用”、“學習研究使用”、 等。

其中:第一點是“個人使用”的適用目的有嚴格限制,目前大模式主要用於商業服務,不符合本項;

第二點,“適當引用”,法律規定的前提是“以介紹或評論為目的解釋某項作品”或“說明某項問題”,而AIGC模式的商業應用顯然不符合這一項;

第三點,“科學研究”,將作品的使用限制在“學校課堂教學或科學研究”,並且還強調只能製作少量的複製品,而目前大型模型大量複製和使用作品的現狀無法滿足這一要求。

那麼,如果只根據著作權法來看,使用未經授權的著作權作品進行模型訓練無疑是侵權的。

但是,除了著作權法之外,為了使著作權法服務於促進全社會文化知識共享、內容傳播技術進步等更高層次的公共利益,各國也制定了例外規則,即如果滿足“三步檢驗法”,也可以判定為“不侵權”。 三步檢驗法的具體內容是“只能在特殊情況下製作,不與作品的正常利用相衝突,不無理損害著作權人的利益”。

至於用這三個步驟來判斷乙個大模型是否侵權,相信今天在座的各位法律專家也會有自己的專業意見。 我想重點關注以下幾點:未經授權使用受版權保護的作品進行模型訓練是否會對受版權保護的作品產生市場影響? 這是否會導致公共利益的不平衡? 這一定是乙個價值考量和利益平衡的過程,很難說有100%的正確答案。 我相信AIGC的發展將極大地促進社會的發展。 雖然模型培訓可能會對著作權人產生一定的市場影響,但如果在培訓過程中過分強調著作權作品的付費,肯定會限制甚至阻礙AIGC產業的發展。

因此,我們也看到,自ChatGPT發布以來,為了推動AI的發展,世界各國其實在對法律的完善進行了初步探索,在一定程度上以“免除AIGC平台在模型訓練階段的版權責任”為目標。 例如,歐盟、日本和美國都通過修改法律規定,對大型模型的版權責任進行了一定程度的免除。

第三建議

因此,我想提出以下建議:

1.為了人工智慧產業的發展,我建議在合理使用版權作品的情況下,一些大模型可以免除版權責任,但不是無條件、無限制的。

2.鼓勵技術創新,例如開發智慧型版權識別技術,以更好地幫助和管理版權問題。

3.鼓勵公眾參與該議題的討論,提高版權意識和智財權教育,共同推動人工智慧技術的健康發展。 比如,像今天這樣的討論就是乙個很好的機會,所以我想再次感謝主辦方組織了這樣的發布會,讓我們能夠就AI語料庫構建和合規的問題進行更深入的思考和交流。

以上就是我的分享,謝謝!

熱點引擎程式

相關問題答案

    人工智慧革命:如何在人工智慧時代保住你的工作

    未來已經到來 只是分布不均。威廉 吉布森。從技術進步來看,人工智慧的發展趨勢主要體現在演算法優化 資料處理能力提公升 跨學科融合等方面。隨著演算法的不斷優化,人工智慧處理複雜問題的能力越來越強 資料處理能力的提公升,為人工智慧提供了更廣闊的應用空間跨學科融合將人工智慧帶入了醫學 金融等新領域。無論是...

    步入人工智慧新時代

    江蘇省海安市教師發展中心附屬小學 四季不老 團隊智慧篇 小蓮花社 調研系列活動校外輔導。白天是月亮,學習是在光明中。詩經 周松 尊敬 智慧型時代的到來,是人類社會的新時代 人類因為自身的不斷努力,經過時間的積累,才能夠 抓光 所以今天,有四大社會分工 鐵器的出現,蒸汽機的出現,電氣化的出現和計算機網...

    在人工智慧時代,我們看好矽光子學!

    矽光子學是一種用於製備光子積體電路 PIC 的技術,通常用於產生 檢測 傳輸和處理光。該方法使用半導體絕緣體上的矽 SOI 晶圓作為襯底材料,並使用標準互補金屬氧化物半導體 CMOS 半導體技術製造。對快速高效通訊技術的需求不斷增長,導致矽光子學研究的增加。自成立以來,矽光子學發展迅速,已被許多製造...

    人工智慧時代始於銳龍 8040 移動處理器功能

    AMD的行動速度比我們預期的要快,在加利福尼亞州聖何塞舉行的Advancing AI活動中推出了代號為 Hawk Point 的Ryzen 系列移動處理器。紅隊聲稱,新的 APU 在某些 AI 工作負載上的效能提高了 次次。代號為 Strix Point 的移動晶元也在發布會上被提及。預計將於 年發...

    AI人工智慧時代

    年初,當AI人工智慧爆發時,中泰新和研究發現,AI人工智慧需要在價值形成和商業輸出方面進行探索 到 ai AI人工智慧的發展和變革不斷衝擊著應用領域。目前,AI人工智慧已經凝聚成業界共識,讓我們一起來看看AI代代的變化。ai .時代是以卷積神經網路模型為核心技術的感知智慧型時代。它主要基於計算機視覺...