12月7日凌晨,谷歌發布了新一代人工智慧模型Gemini,表明它是一種處理多模態資訊的人工智慧。 Demo一經發布,震驚了世界,似乎為人類開啟了乙個新時代,谷歌的市值飆公升了近6%。 隨著雙子座測試賬號的發布,大家在上手後發現貨不對勁。 隨即,谷歌承認,demo是經過精心編輯的,大家驚喜回歸現實——雖然進步很大,但沒有質的突破。 那麼目前國產大車型的多模態能力如何呢?本文將進行基層評估。
100個家庭援助計畫測試的範圍。
首先,所有的評測都是國內公測版,普通人可以簡單註冊使用,方便大家使用的手機版(對於雲計算的通用人工智慧來說,登入沒有太大的差距)。 目前,國家AI模型需要備案,獲得公測資格的已經完成備案。 因此,我們選擇了文心一言、清華的智譜AI、科大訊飛的科大訊飛星火、阿里巴巴的通益千問、抖音的豆寶、崑崙萬維的天工和360的智腦,這些都是A股股東最關心的。 比如騰訊混源還在內測中,其他一些公司不是上市公司,暫時不在測試範圍內(有些資料查多了會收費)。
作為人類智慧型的最高結晶之一,人工智慧在評估方法上也需要非常嚴謹。 我是草根,所以我只能橫向評估多模態函式的存在和使用,除非我是AI演算法工程師,否則我無法準確評估模型的多模態能力。
這裡就來無私安利看看國內測評中比較專業的“線索漢語理解測評基準”,它們是真正專業的測評,測評方法、題庫、評分體系都是公開嚴謹的。 榜單每月更新一次,也比較中立,不受資本市場影響。
使用相同的啟邁資料,為了嚴謹對標,只考慮國內蘋果店**情況(國內安卓**渠道多而雜,無法完全統計)。
天宮資料是一周前,360腦資料太少了。 七麥無法估計**金額。 各大AI工具的排名基本與知名母公司有關。 其中大部分也是國家官方發布的,也就是9月1日之後,就會有app,所以比較。 **卷排名也與線索列表的排名基本呈正相關。 資料與評價次數有一定的比例關係,數量不大。
文心一言、豆寶、訊飛星火是國內蘋果使用者使用較多的AI人工智慧產品,而A股上市公司旗下兩家相關公司天工、369智腦使用者較少,**熱**兩天。
多模態意味著人工智慧可以處理語音、文字、影象等資訊。 目前 Google Gemini 和 ChatGPT 無法分析**(Google fakes),語音相對成熟。 因此,國產AI可以進行語音互動。 現在主要的多模態分水嶺是對影象的理解。
國內AI模型在多模態層面存在較大差距,存在明顯的故障分化,因此敢於評價AI模型的多模態能力。 只有三家公司擁有核心的多模態功能——影象理解。 為什麼ai那些更難但不是其核心功能的繪畫呢因為國外有開源模式,我不確定在中國有沒有抄襲,在中國ai繪畫效果很一般。
對於大多數公司來說,根本沒有多式聯運能力。 a兩家公司的股份ai除了該工具根本不是多模態之外,它根本不是多模態的。 它們不配被稱為多式聯運ai概念股。 具體點名批評的360,完全不像一般的人工模型,進一進去後,介面裡滿是花裡胡哨,不知道是不是問了三個問題,而且一天限量300個問題,操作很慢。 難怪沒有人使用它。
我們舉個例子來說明,因為我測試了多個**,情況差不多。
我撿到了一則熱點新聞**,展示了NBA著名球星詹姆斯上籃的英勇模樣。 球隊的球衣應該是乙個突出的新聞特徵。 我們將把這個交給三個有能力理解並看看他們如何回答的人工智慧。
溫昕說
在提示下(給玩家這個關鍵詞),文心認出了這個角色。 並描述了圖中的細節,並描述了**中的突出特徵。 文欣說,其他**基本都在這個水平。 在 3-4 句話中,將概述重要的細節,但複雜的推理將是錯誤的(例如計算圖表中有多少人)。
訊飛星火
同樣,科大成功識別了玩家,但畫面卻極其簡潔。 科大訊飛一般都明白,只有一句話,缺少細節。
智慧譜清晰的詞語
志璞的問答先問了兩個問題,只回答了一句話。 在詢問內容後,描述細節的過程是有問題的。 這個錯誤不是偶然的,同樣的錯誤在詢問後出現了兩次。
總結:文心一妍是國內多模態大模型唯一的苗頭,是小三、四年級水平的學生,能說3-4句話,基本能把握畫面主題,是趕超國外先進大模型的排頭兵。 志璞和科大至少在做東西,這是乙個多模態的模式。 其他公司仍有工作要做,他們根本沒有足夠的工作。
其他AI+**公司遠非多模態。 多模態必須首先能夠處理跨類別的資訊並完成非特定任務。 目前,A股中沒有一家多式聯運公司真正出手,大多是純炒作。