國產AI大模型多模態能力橫向對比

12月7日凌晨，谷歌發布了新一代人工智慧模型Gemini，表明它是一種處理多模態資訊的人工智慧。 Demo一經發布，震驚了世界，似乎為人類開啟了乙個新時代，谷歌的市值飆公升了近6%。隨著雙子座測試賬號的發布，大家在上手後發現貨不對勁。隨即，谷歌承認，demo是經過精心編輯的，大家驚喜回歸現實——雖然進步很大，但沒有質的突破。那麼目前國產大車型的多模態能力如何呢？本文將進行基層評估。

100個家庭援助計畫測試的範圍。

首先，所有的評測都是國內公測版，普通人可以簡單註冊使用，方便大家使用的手機版（對於雲計算的通用人工智慧來說，登入沒有太大的差距）。目前，國家AI模型需要備案，獲得公測資格的已經完成備案。因此，我們選擇了文心一言、清華的智譜AI、科大訊飛的科大訊飛星火、阿里巴巴的通益千問、抖音的豆寶、崑崙萬維的天工和360的智腦，這些都是A股股東最關心的。比如騰訊混源還在內測中，其他一些公司不是上市公司，暫時不在測試範圍內（有些資料查多了會收費）。

作為人類智慧型的最高結晶之一，人工智慧在評估方法上也需要非常嚴謹。我是草根，所以我只能橫向評估多模態函式的存在和使用，除非我是AI演算法工程師，否則我無法準確評估模型的多模態能力。

這裡就來無私安利看看國內測評中比較專業的“線索漢語理解測評基準”，它們是真正專業的測評，測評方法、題庫、評分體系都是公開嚴謹的。榜單每月更新一次，也比較中立，不受資本市場影響。

使用相同的啟邁資料，為了嚴謹對標，只考慮國內蘋果店**情況（國內安卓**渠道多而雜，無法完全統計）。

天宮資料是一周前，360腦資料太少了。七麥無法估計**金額。各大AI工具的排名基本與知名母公司有關。其中大部分也是國家官方發布的，也就是9月1日之後，就會有app，所以比較。 **卷排名也與線索列表的排名基本呈正相關。資料與評價次數有一定的比例關係，數量不大。

文心一言、豆寶、訊飛星火是國內蘋果使用者使用較多的AI人工智慧產品，而A股上市公司旗下兩家相關公司天工、369智腦使用者較少，**熱**兩天。

多模態意味著人工智慧可以處理語音、文字、影象等資訊。目前 Google Gemini 和 ChatGPT 無法分析**（Google fakes），語音相對成熟。因此，國產AI可以進行語音互動。現在主要的多模態分水嶺是對影象的理解。

國內AI模型在多模態層面存在較大差距，存在明顯的故障分化，因此敢於評價AI模型的多模態能力。只有三家公司擁有核心的多模態功能——影象理解。 為什麼ai那些更難但不是其核心功能的繪畫呢因為國外有開源模式，我不確定在中國有沒有抄襲，在中國ai繪畫效果很一般。

對於大多數公司來說，根本沒有多式聯運能力。 a兩家公司的股份ai除了該工具根本不是多模態之外，它根本不是多模態的。它們不配被稱為多式聯運ai概念股。具體點名批評的360，完全不像一般的人工模型，進一進去後，介面裡滿是花裡胡哨，不知道是不是問了三個問題，而且一天限量300個問題，操作很慢。難怪沒有人使用它。

我們舉個例子來說明，因為我測試了多個**，情況差不多。