今天分享AI大模型系列深度研究報告:AI大模型專題:2024年AI大模型及應用報告
報告製作人:徐福昌)。
報告總計:51頁。
專題報告**:人工智慧學院
注意力機制實際上來自於人們處理外部資訊的能力。 因為人們在任何時候接收到的資訊都是無比龐大和複雜的,遠遠超過了人腦的處理能力,所以人們在處理資訊時,會關注需要注意的資訊,並過濾其他無關緊要的外部資訊,這就是所謂的注意力機制。
引起注意的方式可以分為兩類,一類是非自願提示,另一類是自願提示。 其中,非自願線索是指由客體本身的突出特徵引起的注意傾向,自主線索是指先驗知識以先驗權重干預客體而引起的注意傾向。 換言之,可以理解為非自願線索來源於客體本身,自主線索來源於主觀傾向。 以下是一些示例:
當我們第一次看到上面的圖片時,我們首先將注意力集中在兔子身上。 這是因為兔子在整體畫面中的特徵非常突出,讓人一眼就注意到了兔子。 這種吸引注意力的方式被稱為非自願暗示。 當我們看到乙隻兔子時,我們想知道兔子在做什麼,我們注意兔子的行為。 這時,兔子正在吃草,所以我們把注意力集中在兔子周圍的草地上。 這種注意力機制被喚起的方式是自主提示,其中"兔子在做什麼"這是我們的主觀意識。
我們面前有五件物品,分別是報紙、咖啡筆記本和書籍。 首先,我們將關注咖啡,因為只有咖啡是紅色的,而其他物體是黑白的。 因此,紅咖啡由於其顯眼的特徵,成為注意力機制的不由自主的線索。
喝完咖啡後,我精神抖動,想看書。 此時,通過"我想讀一本書“,我們把注意力集中在書上。 這種通過主觀意識吸引注意力的方式稱為自主提示。
如果只考慮非自願線索,只需對所有物件的特徵資訊(非自願線索)執行乙個全連線層,甚至是平均收斂層或最大收斂層,就可以提取出需要感興趣的物件。
如果我們想考慮自主提示,我們需要設計一種通過查詢、鍵和值來實現注意力機制的方法。 查詢是指自主線索,即主觀意識的特徵向量,key是指非自願線索,即客體的顯著特徵資訊向量,value是指代表客體本身的特徵向量。
注意力機制是通過查詢和鍵的注意力收斂,實現價值的注意力權重分配,並生成最終的輸出結果。
多頭注意力機制:
多頭注意力機制是在自注意力機制的基礎上發展起來的,是自注意力機制的變體,旨在增強模型的表達能力和泛化能力。 它通過使用多個獨立的注意力頭分別計算注意力權重,並對其結果進行拼接或加權以獲得更豐富的表示。
多頭注意力是多組自注意力成分的組合,自注意力機制可以幫助建立包含上下文資訊的詞特徵表達,多頭注意力可以幫助學習許多不同型別的語境影響,例如"這是乙個陽光明媚的日子,非常適合出去跑步",在不同的場景中,今天"與“陽光”相同。"、"執行"相關性不同,尤其是頭部越多,越有利於捕獲越來越大範圍的關聯特徵,增加模型的表現力。
報告總計:51頁。
專題報告**:人工智慧學院