由機器之心報告。
編輯:婁佳琦、張倩
只有 61 小時的資料:人們終於證明,使用當代人工智慧工具,真正的語言學習是可能的。在公開採訪中,圖靈獎得主Yann Lecun一再提到,與人類嬰兒相比,今天的人工智慧模型學習效率太低了。 那麼,如果你讓乙個人工智慧模型學習嬰兒的頭戴式攝像頭能捕捉到什麼,它能學到什麼?
最近,《科學》雜誌上的一篇文章進行了初步嘗試。 研究發現,即使資料有限,人工智慧模型也能夠從10到100個單詞-視覺指涉和視覺指涉之間的對映樣本中學習,並且能夠以零樣本泛化到新的視覺資料集,並實現多模態對齊。 這表明,使用當今的人工智慧工具,可以從嬰兒的角度學習真正的語言。
他今年兩歲,已經教了一年半
SAM 如何教 AI 學習?
這一次,人工智慧通過嬰兒的眼睛看世界來學習語言。
神經網路通過人類嬰兒的視覺體驗學會自己識別物體,這為人類學習提供了新的見解。
AI 從 SAM 佩戴的頭戴式攝像頭捕獲的聲音**中學習。
當嬰兒聽到“球”這個詞時,他們如何將這個詞的語義與乙個圓形的、有彈性的物體(即正確的視覺指涉物)聯絡起來? 哲學家和認知科學家一致認為,嬰兒在學習新單詞時需要從眾多候選詞中挑選出合適的乙個。
嬰兒非常擅長學習詞彙。 在 6 到 9 個月大時,他們開始在單詞和面前的物體之間建立語音聯絡。 當他們 18 到 24 個月大時,他們已經可以理解大約 300 個單詞。
那麼,孩子如何快速學會眼前物體的名稱呢? 他們如何在物體的意義和視覺之間建立聯絡? 這些問題需要進一步的探索和研究。
此前,一些相關理論已經在實驗中得到驗證。 一些學者認為,單詞學習是由一種簡單的聯想學習機制驅動的,該機制可以連線各個領域。 然而,這些理論通常是在嬰兒成長的不同時期進行測量的,並沒有揭示某些促進單詞學習的因素的相對重要性,也不能從中建立計算模型,為計算機模型獲得類人學習能力提供指導。
如果乙個模型能夠通過孩子的眼睛和耳朵來感知世界,那麼它是否只能通過基於物件表徵的聯想學習來理解和整合物件的形式和語義,就像解釋人類詞彙學習能力的聯想學習理論一樣? 還是需要其他認知能力,例如歸納偏差來啟用這種能力?
為了回答這些問題,紐約大學的研究人員以前所未有的方式測試了最簡單的詞彙學習理論:他們把乙個嬰兒放在頭戴式攝像頭上,並檢查模型是否可以從攝像頭的記錄中學習單詞與其視覺指涉之間的對映。
戴著相機的是來自澳大利亞的山姆,他從6個月大到大約2歲(約佔他清醒時間的1%),每週戴相機兩個小時。
研究團隊基於SAM的**構建了SayCam-S資料集。 他們選擇了 61 小時的鏡頭,包括 600,000 幀和 3750,000 個轉錄的錄音,記錄了大約 250,000 個單詞例項和相應的影象。 這些影象是山姆在玩耍、閱讀和吃飯等活動中拍攝的。
基於這些資料,研究團隊訓練了神經網路並獲得了CVCL,這是一種針對兒童視角的對比學習模型。 CVCL採用對比學習技術來學習哪些影象和文字經常一起出現,哪些不經常出現,從而獲得用某些單詞(如“球”和“碗”)引用影象的能力。
研究發現CVCL可以從孩子有限的經驗片段中充分學習多模態表徵。 CVCL能夠在分類任務中將一系列日常用語與相應的視覺能指相匹配,大規模地對齊視覺和語言概念,並將這種能力推廣到訓練中未見過的新示例。 本研究表明,多模態表示學習與特定領域的聯想學習機制相結合,可以為計算機單詞學習帶來突破
具體來說,研究人員根據多模態模型研究的最新進展設計了CVCL。 CVCL 整合了表徵學習和聯想學習,使用對比目標來協調兩個神經網路,即視覺編碼器和語言編碼器。
如圖1所示,比較目標以自監督方式進行訓練(即只使用兒童視角的記錄,不使用外部標註),模型將**幀中目標與語言片段的共現轉化為向量提取,視為正例,將非共現變換向量分離為隱式負例。
在提取正樣本後,CVCL將這些時間向量轉換為學習訊號,用於學習和調整多模態表示。 這種方法不需要對單詞的含義或可能的視覺指涉的預先列表進行任何限制,並且可以從嬰兒記錄的**及其視覺指涉的組合中恢復許多基本單詞。
評估了 CVCL 獲得的詞彙量
對應於視覺所指物件的結果
訓練完成後,研究團隊評估了CVCL和各種類似模型學習的單詞-視覺能指組合的質量。 基於一項針對兒童的常見測試,研究團隊提示模型乙個目標類別標籤,並要求模型根據四個候選影象與標籤的余弦相似度選擇相應的視覺指涉。
圖2a顯示了標籤S的測試結果,總體而言,CVCL的分類精度為616%。圖2D顯示了模型在不同標籤下的具體結果,在22個概念中,CVCL對11個概念的判斷與CLIP的差異不到5%。 但用於 CLIP 訓練的資料量(網際網絡上有 4 億個影象到文字對)比 CVCL 大得多。 為了解決分類重疊等潛在問題,研究團隊還手動篩選出子集以供後續評估。
為了確定CVCL捕捉單詞含義的能力的上限和下限,研究小組還嘗試了類似的模型。 為了測試該模型對映語言和視覺資訊的能力,研究團隊通過對原始資料集中共同出現的目標物件的幀和錄音進行打亂,重新訓練了模型的變體CVCL-SHUFFLED。 中斷的模型表現不佳,這顯示了視覺和語言資訊共現在模型學習中的關鍵作用
為了測試視覺嵌入的有效性,研究人員在訓練過程中隨機凍結了 CVCL 的視覺編碼器。 儘管該模型掌握了一些概念,例如沙子和汽車,如圖 2d 所示,但模型的效能再次顯著下降 (m = 38.)。0%)。
研究人員將CVCL與基於其他資料或Oracle訓練資料的AI模型進行了比較,這些資料超出了兒童詞彙量。 夾子的準確率為667%,即 51%,這要歸功於 Clip 對廚房、玩具和籃子等幾個詞的含義有了更好的理解。
通過以上測試可以看出,在一定範圍內測試時,CVCL的效能可以與基於網際網絡規模資料訓練的模型相媲美。
此外,研究人員還測試了該模型是否可以獨立地對單詞進行分類,而不是根據指導兒童的某些句子得出判斷。 他們將線性分類器擬合在初始化的預訓練編碼器上,以獲得精度為 81 的線性探針模型6%,表明CVCL具有獨立判斷的能力。
研究小組量化了相對直接的標記示例的價值,這些示例在對話中自然出現,用於模型訓練。 如圖 2b 所示,他們使用較少的手動注釋資料(10% 和 1% 的標記資料)訓練了兩個線性探針模型,結果如下表所示。
減少手動標註資料的線性探針模型將分類準確率分別降低到77%2% 和 659%。使用1%的注釋示例的模型效能略優於CVCL。 相比之下,可以保守地估計,乙個人工注釋相當於至少七個來自自然語言的例子。 然而,來自自然語言的資料可以更靈活、更準確地表示兒童正在學習的內容,並且可以容納無限數量的視覺概念。
為了研究是否還有其他因素影響單詞-視覺指稱組合的可學習性,研究小組還訓練了CVCL模型的其他變體進行評估。 他們改變了模型結構或訓練過程的各個方面,但沒有乙個變體的效能優於CVCL本身。
綜上所述,研究結果表明:人類最初學習的文字-視覺能指組合可以從 10 到 100 個自然發生的文字-視覺能指組合中獲得
泛化到新的視覺化例項
為了測試CVCL的泛化能力,研究團隊在Konkle Objects資料集上進行了實驗。
受研究嬰兒語言學習實驗的啟發,研究小組向CVCL提供了64張白色背景上單個物體的額外影象,所有這些影象都與CVCL詞彙表中的單詞相對應。 這個實驗使研究小組能夠檢查CVCL學習的單詞是否成功地推廣到看不見的物體中。
如圖 3a 所示,CVCl 具有一定的泛化能力,在 64 個物件中有 16 個在 50% 以上(正確),在另外 42 個概念中得分在 25% 以上(偶然),總體準確率為 347%。
此外,CVCL的兩個模型變體都接近機會精度(CVCL隨機特徵模型和CVCL隨機特徵模型分別為25)。6% 和 234%),它們的最佳效能接近當前的SOTA方法(Clip和Linear Probe型號的精度分別為99)。4% 和 907%)。
這些結果表明,CVCl的多模態表徵如何允許泛化超出分布範圍,這與這種能力的其他更大規模的演示一致。 為了說明這種評估所需的視覺泛化程度,圖3b顯示了嵌入在話語中的單詞的一些自然訓練例項(從兒童的角度來看),這些單詞與用於評估的新測試影象(及其分類準確性)相匹配。 此外,該評估與經典嬰兒詞彙學習實驗中呈現的刺激型別非常相似,表明在實驗室外獲得的表現足以解釋嬰兒如何將實驗室中的視覺刺激推廣到新的視覺刺激。
多模態表徵的組織結構
最後,研究人員介紹了在CVCL中學到的多模態表徵結構的三個分析系列。
探討的第乙個問題是CVCL的視覺和語言概念系統在多大程度上保持一致。 例如,如果汽車的視覺和文字嵌入都獨立地類似於道路而不是球,則表明多模態對齊良好。
使用 Labeled-S 中的 22 個概念,研究人員通過隨機抽樣 100 個注釋幀來提取他們的影象嵌入,並平均每個概念在各個幀中的視覺原型。 他們還為每個概念搜尋了相應的單詞嵌入。 接下來,計算這些嵌入(模態內和模態間)之間的所有余弦相似性,並使用 T 分布式隨機鄰居嵌入 (T-SNE) 視覺化它們的關係,如圖 4a 和 b 所示。 在圖 4a 中,虛線表示每個概念的相應視覺質心和詞嵌入之間的距離。
由於這些跨模態距離中的許多都很小,研究人員檢查了概念之間的模態內相似性(通過余弦)是否與視覺和語言有關,並發現了很大程度的概念對齊(相關係數r = 0)。37,p < 0.001)。
這些關係不適用於CVCL的兩個下界中的任何乙個(圖S4)。 此外,對準距離與分類效能呈強負相關 (r = -0.)。65,p = 0.001),一些最不準確的類別在它們各自的視覺原型和詞嵌入之間表現出最大的距離。圖 4b 說明了每個概念的標記影象嵌入子集,突出顯示了不同視覺概念之間示例聚類緊密程度的差異。 通過將視覺變化視為概念視覺嵌入與其視覺原型之間的平均歐幾里得距離,研究人員還發現與分類效能呈很強的負相關(r = -0.)。48,p = 0.025),這表明與汽車和嬰兒床等緊密聚集的概念相比,CVCL在處理手和玩具等詞的指稱對映方面的困難與它們的視覺變化有關。
接下來,研究人員視覺化了不同的單詞嵌入如何與CVCL中的影象嵌入相互作用(圖4C)。 通過研究三個不同的概念,他們觀察到,與特定單詞嵌入(以綠色顯示)最接近的模型**的影象非常接近每個類別的真實標記影象集(以藍色顯示),並且完整的概念集如圖S6所示。 研究人員發現,CVCL學習將不同的視覺相似專案集表示為概念的不同子簇,儘管每個單詞只使用乙個向量。 例如,單詞樓梯嵌入最強烈地啟用了兩個獨立的集群,代表室內和室外樓梯,而拼圖遊戲產生了另外兩個集群,代表字母和動物拼圖。 以前關於概念學習的心理理論通常需要明確的、內建的機制來捕捉概念中的子結構,但在 CVCL 中,我們發現多集群表徵通過對比學習隱含地出現。
研究人員還定性地檢查了 CVCL 定位參照物的能力。 對於給定影象,通過應用grad-cam獲得注意力圖,並通過計算最終卷積層特徵圖的加權和(使用基於影象文字余弦相似度梯度相對於特徵圖空間平均值的權重)來突出顯示與目標類別最相關的影象區域。 研究人員可以將此注意力圖疊加在影象上,並檢查參考位置和注意力圖之間的任何對應關係。
圖 5 顯示了四個概念中的多個注意力圖示例。 對於某些類別,CVCL的注意力圖提供了物件定位的證據:注意力圖中最活躍的區域密切跟蹤所指的定位。
有關研究的更多詳細資訊,請參閱原文**。