在當今大資料和人工智慧時代,大型視覺語言模型 (LVLM) 已成為解鎖複雜視覺和語言任務的關鍵。 然而,隨著這些模型能力的不斷提高,對計算資源的需求也在增加,導致訓練和推理成本急劇增加。 為了應對這一挑戰,北京大學和中山大學的研究人員提出了一種名為moe-tuning的創新訓練策略,該策略通過實現模型稀疏性來平衡效能改進和計算成本之間的矛盾。
萌調策略的核心思想是引入所謂的"專家"(experts),並且只有一小部分通過路由演算法在給定時刻被啟用,這樣就可以在保持大量引數的同時控制模型的實際計算成本。 該策略的成功應用催生了MOE-LL**a框架,這是一種新型的稀疏大型視覺語言模型,在模型設計中採用了Mixture of Experts(MOE)架構,使模型在執行任務時更加靈活和高效。
MOE-LL**a 模型設計巧妙,僅 3b 稀疏啟用引數即可實現 7b 引數的 LL**A-1這 5 個模型在某些視覺理解任務上可與 13b 引數的 ll**a-1 相媲美,甚至超過5 種型號。 這一顯著成就不僅展現了稀疏模型在技術上的強大潛力,也為未來多模態學習系統的研究和發展提供了新的方向和靈感。
Moe-ll**A模型的訓練採用三階段策略,首先由視覺編碼器對輸入進行處理,將視覺令牌與文字令牌相結合,通過MLP將視覺令牌對映到LLM的輸入域,使LLM獲得描述和理解語義的能力。 隨後,通過引入複雜的多模態指令資料,進一步提高了模型的多模態理解能力。 最後,通過複製 FFN 作為專家集的初始權重,並使用路由器計算令牌與專家之間的匹配度,實現了模型的稀疏性。
在許多基準測試中,Moe-ll**a模型表現出出色的視覺理解能力,特別是在減少物體幻覺方面。 這些結果不僅證明了MOE-LL**a的技術先進性,而且顯示了其在實際應用中的巨大潛力。
綜上所述,MOE-LL**a模型的開發和成功應用為解決大型模型面臨的高訓練和推理成本問題提供了一條實用的方法。 通過稀疏技術的創新應用,Moe-ll**A不僅在效能上取得了令人矚目的成就,也為未來的AI研究和應用開闢了新的可能性,標誌著多模態AI領域的重要進展。