在今年的兩會上,全國政協委員張勤帶來了《關於促進人工智慧賦能中華優秀傳統文化傳播的提案》。
目前,全球人工智慧新技術和新產品的湧現正在加速。 一方面,文盛圖、文盛**等一系列新技術,給各行各業帶來了發展的想象; 另一方面,瞬息萬變的形勢也給中國大模型的發展帶來了挑戰,使其面臨“什麼是中國自己的大模型”、“如何在模型語料庫訓練層面體現中國特色”等一系列問題。
張勤說文生**,關鍵在文字中,對於人工智慧來說,輸出的關鍵在於輸入。 然而,目前國內外大典範對中國優秀傳統文化的學習還嚴重不足。 目前,在世界通用(國內也使用)的大模型資料訓練集中,中文語料庫僅佔13%,中國公司使用的大部分語料庫由美國和西方主導。 如果我們繼續用西方價值觀資料和西方應用場景來訓練中國模型,中國的認知就會被湮滅。
以 OpenAI 的 ChatGPT 為例,它對中國文化的了解非常有限。 比如,讓它列舉著名的七首絕句,但它給出的答案包括杜甫的《春的希望》、王志煉的《爬鸛塔》等五字絕句。 張勤表示,如果不加以引導,中國優秀的傳統文化有可能在新的全球技術變革中被人工智慧拋在後面,甚至被抹去。
張勤表示,優秀的中國傳統文化具有領域廣、資料量大、理解難度高的特點,與人工智慧的結合既是優勢也是挑戰。 優點是優秀的中國傳統文化有很深的積澱,是人工智慧學習的龐大語料庫。 以古籍為例,中國是世界上古籍數量最多的國家,中國古籍300萬冊,散落在海外的古籍40多萬冊,740,000臺。 但是,中國古籍的資料結構不嚴,極難理解。 這就需要大量的團隊持續投入精力進行語料庫建設,甚至需要為中國古典、古代等優秀傳統文化構建機器演算法和編碼系統,從而根據語境組織和明確“道”、“德”、“善”等核心價值觀,讓人工智慧準確理解優秀中國傳統文化的豐富內涵。
張勤表示,廣電作為音訊語料庫最豐富的機構,與高校、科研機構、國內企業在人工智慧領域開展了卓有成效的探索,與多家機構共同發起成立“中國大模型語料庫聯盟”,聯合發布“央視收聽模型大模型”, 並率先建立大型樣板研發社群,在科研、需求應用、安全開發、產業生態等方面開展合作,聯動產業鏈上下游,提供主站和中國。高質量發展行業,創造新的優質生產力。她提出,為加快新技術發展,更好地賦能文化傳播,應集聚資源,打造以第一廣播電視台為主導的重大原創平台,具體內容如下:
一是國家發改委、財政部支援首家廣播電視台率先推動人工智慧等現代技術與重點專案和專項資金相結合。 建議將相關工作納入國家人工智慧總體規劃,加快構建中國優秀傳統文化與主流價值觀相關的語料庫,開展面向主流價值觀的資料分類、聚合和運營,將中國優秀傳統文化語料庫建設與人工智慧大模型訓練有機結合; 從而為中國人工智慧的發展提供真正的中國智慧。
二是國家資料局牽頭制定相關政策,鼓勵主流文化機構有序有效開放文化資料資源。 在認知安全的前提下,推動中華優秀傳統文化相關資料要素向生產要素轉化,進一步支援資料主體採取市場化操作,鼓勵通過招標、聯合規劃、聯合申請、聯合驗收、合資等多種方式與相關主體建立資料共享使用機制; 從協調資料歸集、同意形成資料產權和收益分配機制等層面提供指導和幫助。
三是加快培養與中國傳統文化、人工智慧相關的交叉學科人才。 增加相關專業和課程,構建高校與建設單位聯合人才培養選拔通道。 結合計算機、人工智慧和人文社會科學等專業方向,在多所試點高校增設相關專業或課程,推進一級學科建設,以第一台廣電台開展中國優秀傳統文化人工智慧工程為試點,構建高校與建設單位之間的人才聯盟, 聯合培養選拔,促進人才培養與國家戰略需求有效融合。