AIGC(生成式人工智慧)對人類資料庫造成的“汙染”問題擺在桌面上。
《展望東方週刊》記者毛振華,編輯陳榮雪。
某網路平台“國家足球隊贏得大力神盃”的AI圖。
ChatGPT(OpenAI訓練的大型語言模型)的出現開啟了通往新世界的大門:事實證明,人工智慧可以讓生活變得如此便利。 隨著越來越多的AIGC(生成式人工智慧)工具的誕生和應用,整個社會對人工智慧給予了前所未有的關注和期待。
然而,在那之後,問題接踵而至。 AIGC生成的**、新聞、問答等開始傳播到網路世界的各個角落,隨著技術的不斷公升級,越來越難以將它們與現實世界區分開來。
AIGC對人類資料庫造成的“汙染”問題已經擺在桌面上。 如何面對這一新挑戰是不可避免的。
混淆真假。 一支舉辦大力神盃的國家足球隊在網際網絡上廣為流傳。 如果不是內容和大眾認知的反差太大,就**而言,人物的表情、動作、背景都完全可以達到假的地步。
根據網路出版商的說法,這種“現實”**是由AI(人工智慧)生成的。 它可能看起來很荒謬和有趣,但風險是真實的——它傳達了可能被公眾接受為真實的錯誤資訊,導致廣泛的謠言。
這並非沒有根據。
黃色的葡萄,嬌嫩的粉紅色秋海棠花和......斑駁的雲層被太陽刺穿這些網路上的**,儘管視覺效果令人驚嘆,但都被證明是由 AIGC 合成的。 不少網友擔心,大量這樣的**充斥著網際網絡,不僅混淆了人們的認知,而且經過技術的迭代進步,從長遠來看,AIGC的生成可能會變得越來越難以辨別真假,從而“汙染”人類資料庫。
擔心並非沒有必要。 在現實生活中,在美國科羅拉多州的乙個藝術博覽會上,一幅名為“太空歌劇”的畫作獲得了數字藝術類別的獎項。 然而,該作品首先由AI對映工具生成,然後由Photoshop軟體潤色。 這一事件在網際網絡上引發了討論,許多藝術家指責AI在比賽中作弊。
* 它可以被“偽造”,客觀的新聞可以被“生成”。
追蹤錯誤資訊的調查機構Newsguard的研究發現,AIGC產生的假新聞和資訊已經開始爆炸式增長,並正在成為當前網際網絡時代的新挑戰。
據《新聞衛隊》報道,自 2023 年 5 月以來,產生的假文章數量激增了 1,000% 以上,從 49 篇增加到 600 多篇,涉及 15 種語言。 這些**每天產生大量文章,涵蓋政治、社會等各個領域。 這背後的動機從動搖信仰和造成破壞到依靠兩極分化的內容來推動流量和廣告收入。
新的資訊戰。
AIGC技術的進步使幾乎任何人都可以輕鬆建立看似合法的新聞**,從而產生通常與真實新聞無法區分的內容。
例如,AIGC有一篇文章虛構了乙個關於“以色列總理班傑明·內塔尼亞胡的精神病醫生”的故事,這是乙個被廣泛傳播甚至出現在電視節目中的虛假故事。 有的**混淆了真假新聞,大大增加了欺騙性報道的可信度。
“新聞衛士”警告說,這種情況的危險在於人工智慧的範圍和規模,當它與更複雜的演算法相結合時,誤導性資訊擴散的規模和速度將是前所未有的,成為一種新的資訊戰。
AIGC新聞造假看似遙不可及,但實際上卻發生在我們身邊。 2023年12月28日,重慶市奉節縣**發現網友王某成利用某資訊平台AI寫作軟體,捏造發布“某地煤礦事故造成12人死亡”的帖子,引發網友關注,造成不良社會影響。 經過第一次調查,王某成的目的就是為了吸引人們的注意力,吸引流量。 他本人受到了應有的懲罰。
與AIGC產生的假新聞類似,利用AIGC製作和傳播虛假資訊在一些短平台上也越來越普遍。
《東方瞭望》記者在短**平台上發現,這種**經常以AIGC打造的智者老人、小和尚等“數字人”的形式出現,他們的“語音”聲音和字幕也是AIGC生成的。 對於操作熟練的人來說,乙個小時製作多個段不是問題。 **所傳播的所謂健康知識、人生哲學、人生哲學,不是觀點極端,就是打著“私物”的廣告,對老少很有欺騙性。
千鑫集團產業安全研究中心主任裴志勇表示,聲音和影象都可以通過特定的數學變換分解成若干個特徵向量,可以給每個向量分配一組特定的引數,形成乙個特定的聲音或影象。 所謂AI變聲,就是以乙個人之前的聲音為樣本,通過機器學習進行學習,從而給語音的每個特徵向量賦予特定的引數,然後用這組引數讀出新的內容,從而模仿語音、語氣甚至情感。
加州大學伯克利分校(University of California, Berkeley)數字取證學教授漢尼·法里德(Hanni Farid)認為,人工智慧技術的進步使詐騙者很容易根據簡短的音訊樣本複製聲音。
兩年前,您可能需要大量音訊來轉殖乙個人的聲音。 但現在,只要在社交平台上發布一段音訊超過30秒,複製聲音就可以很快完成。 漢尼·法里德說。
吞噬“現實世界”。
在這個階段,大多數人對AIGC產生的內容持平和寬容的態度,因為很多內容都是“一目了然”。 但是,當技術飛躍到難以分辨的地步時,敲響警鐘為時已晚。
在流行的AIGC工具誕生之初,《瞭望東方週刊》的記者嘗試了一下,發現體驗並不好。 例如,在回答“劉翔是哪一年贏得世乒賽冠軍”這個明顯錯誤的問題時,它給出了“劉翔在2004年奪得世乒賽冠軍”的答案。 這個問題被重複了,並在 2005 年給出了答案。 至於“太山是濟南的著名景區嗎?”,它的第乙個答案是“是的,太山是濟南市的著名景區”。 它位於中國五大山之一的山東省泰安市,歷史悠久,文化底蘊深厚。 該工具僅在一段時間後再次提出相同的問題後才會糾正答案。 但近一年過去了,該工具已經能夠再次處理類似的問題,並且不再出現類似的低階錯誤。
中國資訊通訊研究院雲計算與大資料研究所人工智慧部主任曹峰認為,生成式人工智慧借助預訓練學習、微調學習、提示學習、強化學習,進而持續人工反饋等技術手段,實現了更強的自學習能力。 這就是它的力量和可取性開始的地方。
經過反覆的專業訓練和資料積累,AIGC生成的回覆的準確性和個性化將逐漸提高,屆時將更難區分。 因此,AIGC引發的人類資料庫“汙染”問題是漸進的,高度隱蔽的,危害不易被發現。
技術越進步,就越難區分它生成的內容的真實性,它“吞噬”了傳統世界。 從純粹的技術角度來看,這將是乙個難以阻止的趨勢。
很難想象,未來人們檢索到的**、資料、問答等相當一部分,如動物的長相、植物的長相、書畫的內容,都會被AIGC修改。 當將這些“生成”的內容與現實世界進行比較時,人們以什麼樣的心態看待世界,做出什麼樣的判斷?
2023年7月7日,2023世界人工智慧大會在上海舉行,觀眾參觀了以“交響樂”為主題的AIGC藝術展(辛夢辰攝)。
模擬自噬。 除了“汙染”人類資料庫外,AIGC的另乙個隱患是“自噬”。 換句話說,知識生成的過程是向後而不是向前的。
根據最新研究,將 AI 生成的內容提供給類似的模型進行訓練會導致模型質量下降甚至崩潰。 這種自我吞噬的現象被科學家稱為模型自噬。
研究人員指出,雖然AIGC演算法在影象、文字等領域取得了長足的進步,但繼續使用合成資料來訓練模型可能會導致模型變得封閉,並最終失去多樣性和準確性。
史丹福大學和加州大學伯克利分校的一篇新文章證實了這一點,2023 年 6 月的 GPT-4 客觀上在某些任務上的表現比 3 月差。 例如,使用相同的 500 個問題來確定給定的整數是否為素數,我們測試了兩個版本,發現 GPT-4 在 3 月份得到了 488 個答案,而在 6 月份,它只得到了 12 個正確答案。
不僅如此,能力也有所下降。 研究人員認為,在沒有新鮮資料(即人工注釋資料)的情況下,僅將AIGC生成的內容“饋送”到模型中,只會導致AIGC效能下降。
AIGC帶來的負面影響引起了相關部門的關注。 將於2023年實施的《生成式人工智慧服務管理暫行辦法》明確提出,要採取有效措施提高訓練資料質量,增強訓練資料的真實性、準確性、客觀性和多樣性,實質上是拓寬AIGC未來發展的軌跡。
建立“禁區”。
科學技術的發展,最終要服務於人類的幸福美好生活。 當大量虛幻甚至錯誤的資訊使人類的知識空間不再純粹時,就需要及時糾正偏差。 特別是在AIGC發展的早期階段,從長遠來看,採取果斷措施是當務之急。
現在,越來越多的平台開始要求AIGC生成的內容必須有明確的標籤,以幫助人們正確理解。 為AIGC設立“禁區”已經變得很有必要,新聞業就是其中之一。
DataQin Technology首席執行官兼首席科學家崔偉表示,AIGC產生的虛假和劣質新聞已成為公共滋擾。 比如經常有關於油價發布的訊息,但是當你開啟它時,最近沒有官方發布的訊息。
如果你仔細觀察,你會發現這類新聞有共同的特點,比如標題驚人,吸引流量,點選和評論量高; 內容非常格式化,先談新聞,再用幾百或幾千字講影響。 有趣的是,每個人都不同,但非常相似。 評論往往是不管是真是假都潑潑苦水的網友,最終賺到流量的還是平台和自****,讀者發洩情緒,誰也不知道事實是什麼。 他表示,當AIGC被用來產生虛假資訊時,其速度和規模優勢可以迅速放大誤導性內容的影響,導致公眾信任危機和社會混亂。
AIGC生成的內容必須受到限制。 他特別建議,要從源頭和平台端加強管理,嚴禁人工智慧產生的假新聞在新聞領域無中生有的傳播,防止假新聞的生產成為工廠和流水線。 一旦被發現,堅決清理相關內容,避免將辨真假難留給公眾。 即使出於“黑色幽默”的目的,也將生成的內容放在非新聞部分下並明確標記,以避免謠言被相信為真實。
共同治理。 加強科技倫理治理,推動科技向善,將成為一項長期任務。
崔偉等人認為,技術本身不具備做出道德判斷的能力,其應用取決於人類使用者的意圖。 因此,制定和執行有關AIGC應用的道德準則和法律法規尤為重要。 這不僅需要技術開發者和使用者的責任感,還需要相關監管機構的有效參與。
北京航空航天大學法學院副教授趙敬武表示,2022年底,國家網際網絡資訊辦公室、工業和資訊化部、公安部制定了《網際網絡資訊服務深度綜合管理規定》,明確了深度綜合服務提供者的法律義務, 例如使用技術或手動方法審查深度綜合服務使用者的輸入資料和合成結果。
除了監管之外,科技公司、教育機構和公眾都可以發揮重要作用。 趙敬武認為,這不僅是乙個技術問題,更是乙個涉及社會治理、公共教育、國際合作的廣泛問題。
利用技術來控制技術混亂已被提上日程。
隨著技術的進步,社會的適應和應對機制需要更新。 例如,新聞機構和社交媒體平台需要開發更有效的工具和方法來識別和過濾AIGC生成的虛假內容。 新火科技控股區塊鏈專家王陽平認為,區塊鏈技術可以幫助解決AIGC引發的資料和知識造假問題。
他表示,新聞攝影、物種**、公眾知識等都可以記錄在區塊鏈上,全程可追溯,內容透明不可篡改,永久記錄可以有效幫助人們提高認知和辨別力,減少網際網絡上虛假知識和謠言的產生。
點選下面的標題閱讀這個特殊部分的所有文章。
2024,關於人工智慧的三個問題“特別系列。