在大型語言模型計算能力快速增長的時代,創新的前景與安全、負責任的開發和使用之間存在著激烈的爭奪。 在本文中,我們將概述大型語言模型面臨的挑戰,調查圍繞這些挑戰的新興科學研究,並深入探討 AWS 正在採取哪些措施來推進負責任的 AI 工作。
大型語言模型的技術本質
亞馬遜學者麥可·凱恩斯(Michael Keynes)在論壇上主持了演講,解釋了以GPT-3等大型語言模型為代表的大型語言模型系統是如何工作的。 這些系統通過計算給定文字提示或上下文中下乙個可能單詞的概率分布,然後通過取樣選擇實際新增到文字中的下乙個單詞來重複生成自由格式的文字。 這項令人印象深刻的技術使 AI 在開放文字生成方面具有巨大的多功能性。
然而,這種開放性也給負責任的人工智慧帶來了一系列問題,包括偏見、可解釋性、視覺錯覺、毒性和智財權保護等挑戰。
負責任的人工智慧的重要性和挑戰
凱恩斯在演講中強調,大型語言模型的開放性導致了負責任的人工智慧問題的顯著增加。 與之前的人工智慧時代相比,大型語言模型在處理廣泛的輸入和輸出(例如代詞選擇問題)時定義公平性變得更加複雜。 他指出,大型語言模型的隨機性使得相同的提示可能導致完全不同的輸出,這增加了公平性的挑戰。
除了公平問題,凱恩斯還詳細闡述了視覺錯覺、毒性和智財權保護等新出現的問題。 其中,“幻覺”是指語言模型捏造令人信服的事實的能力,而毒性是指處理冒犯性資訊的不確定性。 此外,生成模型可能會通過生成的同義詞句子揭示個人私隱,從而引發對新私隱水平的擔憂。 在藝術領域,使用人工智慧來模仿藝術家的風格或作者的寫作方式可能會導致版權和合理使用問題。
亞馬遜雲科技負責任的 AI 實踐
隨後,亞馬遜雲科技 AI 責任主管 Peter Halinan 分享了將研究轉化為實踐的挑戰。 他指出,機器學習和傳統軟體之間存在關鍵差異,需要考慮安全性、公平性、可解釋性和魯棒性等其他屬性。 為此,亞馬遜雲科技制定了五項高階原則,包括定義狹窄的應用程式使用案例、將流程與風險級別相匹配、將資料集視為產品規格、分析不同資料集對模型效能的影響,以及在供應商和部署人員之間分擔責任。
Halinan 重申了負責任的 AI 在整個機器學習生命週期中的重要性,包括問題定義、資料收集、模型開發、測試和監控。 他強調,亞馬遜雲科技不僅提供培訓課程、合作夥伴網路和解決方案架構師,還提供 CodeWhisperer 和 Amazon Titan 等服務,這些服務在設計時考慮到了負責任的 AI,包括所有權、內容過濾和安全掃瞄等功能。
未來的挑戰和方向
儘管大型語言模型帶來了新的挑戰,但正在研究的技術,如資料水印和用於對齊的強化學習,具有巨大的潛力。 然而,負責任地開發和部署大型語言模型需要團隊、公司、學術界和整個社會的共同努力和辛勤工作。 大型語言模型的未來需要通過意識、技能培訓、採用新興的最佳實踐以及最終的運營整合來構建內部能力。
總而言之,大型語言模型具有巨大的潛力,但它們也帶來了圍繞安全性、公平性、私隱和控制的複雜挑戰。 亞馬遜雲科技致力於將前沿的負責任的 AI 研究轉化為實用的流程、工具和服務。 隨著我們不斷深入探索,我們期待看到更多創新的解決方案,以確保大語言模型的不斷發展和社會的和諧共處。