國產AI大模型多模態能力橫向對比

Mondo 科技 更新 2024-01-28

12月7日凌晨,谷歌發布了新一代人工智慧模型Gemini,表明它是一種處理多模態資訊的人工智慧。 Demo一經發布,震驚了世界,似乎為人類開啟了乙個新時代,谷歌的市值飆公升了近6%。 隨著雙子座測試賬號的發布,大家在上手後發現貨不對勁。 隨即,谷歌承認,demo是經過精心編輯的,大家驚喜回歸現實——雖然進步很大,但沒有質的突破。 那麼目前國產大車型的多模態能力如何呢?本文將進行基層評估。

100個家庭援助計畫測試的範圍。

首先,所有的評測都是國內公測版,普通人可以簡單註冊使用,方便大家使用的手機版(對於雲計算的通用人工智慧來說,登入沒有太大的差距)。 目前,國家AI模型需要備案,獲得公測資格的已經完成備案。 因此,我們選擇了文心一言、清華的智譜AI、科大訊飛的科大訊飛星火、阿里巴巴的通益千問、抖音的豆寶、崑崙萬維的天工和360的智腦,這些都是A股股東最關心的。 比如騰訊混源還在內測中,其他一些公司不是上市公司,暫時不在測試範圍內(有些資料查多了會收費)。

作為人類智慧型的最高結晶之一,人工智慧在評估方法上也需要非常嚴謹。 我是草根,所以我只能橫向評估多模態函式的存在和使用,除非我是AI演算法工程師,否則我無法準確評估模型的多模態能力。

這裡就來無私安利看看國內測評中比較專業的“線索漢語理解測評基準”,它們是真正專業的測評,測評方法、題庫、評分體系都是公開嚴謹的。 榜單每月更新一次,也比較中立,不受資本市場影響。

使用相同的啟邁資料,為了嚴謹對標,只考慮國內蘋果店**情況(國內安卓**渠道多而雜,無法完全統計)。

天宮資料是一周前,360腦資料太少了。 七麥無法估計**金額。 各大AI工具的排名基本與知名母公司有關。 其中大部分也是國家官方發布的,也就是9月1日之後,就會有app,所以比較。 **卷排名也與線索列表的排名基本呈正相關。 資料與評價次數有一定的比例關係,數量不大。

文心一言、豆寶、訊飛星火是國內蘋果使用者使用較多的AI人工智慧產品,而A股上市公司旗下兩家相關公司天工、369智腦使用者較少,**熱**兩天。

多模態意味著人工智慧可以處理語音、文字、影象等資訊。 目前 Google Gemini 和 ChatGPT 無法分析**(Google fakes),語音相對成熟。 因此,國產AI可以進行語音互動。 現在主要的多模態分水嶺是對影象的理解。

國內AI模型在多模態層面存在較大差距,存在明顯的故障分化,因此敢於評價AI模型的多模態能力。 只有三家公司擁有核心的多模態功能——影象理解。 為什麼ai那些更難但不是其核心功能的繪畫呢因為國外有開源模式,我不確定在中國有沒有抄襲,在中國ai繪畫效果很一般。

對於大多數公司來說,根本沒有多式聯運能力。 a兩家公司的股份ai除了該工具根本不是多模態之外,它根本不是多模態的。 它們不配被稱為多式聯運ai概念股。 具體點名批評的360,完全不像一般的人工模型,進一進去後,介面裡滿是花裡胡哨,不知道是不是問了三個問題,而且一天限量300個問題,操作很慢。 難怪沒有人使用它。

我們舉個例子來說明,因為我測試了多個**,情況差不多。

我撿到了一則熱點新聞**,展示了NBA著名球星詹姆斯上籃的英勇模樣。 球隊的球衣應該是乙個突出的新聞特徵。 我們將把這個交給三個有能力理解並看看他們如何回答的人工智慧。

溫昕說

在提示下(給玩家這個關鍵詞),文心認出了這個角色。 並描述了圖中的細節,並描述了**中的突出特徵。 文欣說,其他**基本都在這個水平。 在 3-4 句話中,將概述重要的細節,但複雜的推理將是錯誤的(例如計算圖表中有多少人)。

訊飛星火

同樣,科大成功識別了玩家,但畫面卻極其簡潔。 科大訊飛一般都明白,只有一句話,缺少細節。

智慧譜清晰的詞語

志璞的問答先問了兩個問題,只回答了一句話。 在詢問內容後,描述細節的過程是有問題的。 這個錯誤不是偶然的,同樣的錯誤在詢問後出現了兩次。

總結:文心一妍是國內多模態大模型唯一的苗頭,是小三、四年級水平的學生,能說3-4句話,基本能把握畫面主題,是趕超國外先進大模型的排頭兵。 志璞和科大至少在做東西,這是乙個多模態的模式。 其他公司仍有工作要做,他們根本沒有足夠的工作。

其他AI+**公司遠非多模態。 多模態必須首先能夠處理跨類別的資訊並完成非特定任務。 目前,A股中沒有一家多式聯運公司真正出手,大多是純炒作。

相關問題答案

    深化AIGC大模型多模態應用,AI Agent加速應用普及

    報告製作人 招商局 跟蹤當前AIGC行業的發展,大模型的多模態發展進一步深化,尤其是文盛 能力的快速提公升,將大大降低創作門檻,開拓C端創作的商業空間,以及遊戲 影視製作等B端應用空間。在應用端,隨著大模型能力的提公升和大模型開發工具門檻的降低,AI智慧型體的構建能力有望快速下沉,這將推動AI應用的...

    谷歌發布了 Gemini,一款效能優於 GPT 4 的多模態大模型!

    近日,谷歌CEO桑達爾?Pichai 和 DeepMind 首席執行官 Damith Hassabis 在谷歌官網上的一篇文章中宣布,谷歌最新的多模態大型模型 gemini版本 正式上線。該模型被稱為 Gemini,不僅優於 OpenAIGPT 模型,而且還是最強大 用途最廣泛的模型之一。Gemin...

    對標ChatGPT國產大模型發展現狀

    溫說。自年開始搜尋以來,成立了自然語言部門,初步研究了網際網絡機器翻譯技術,年推出了語音助手,年推出了智慧型搜尋小度機械人,年推出了智慧型客服。在長期的布局和發展中,構建了完整的語言和知識技術布局,包括知識圖譜 語言理解和生成技術,以及上述技術所支撐的應用系統,包括智慧型搜尋 機器翻譯 對話系統 智...

    全大模型APE最強的“全開源”多模態分割

    要點 .APE是乙個完全開源的多模態分割模型,通過對每個類別名稱例項進行獨立建模,將詞級嵌入壓縮為句子級嵌入,採用不同的特徵融合方式,統一前台和背景粒度,提高分割效果。 APE的方法主要包括對每個類別名稱例項進行獨立建模,將詞級嵌入壓縮為句子級嵌入,採用不同的特徵融合方法,通過矩陣乘法計算物件嵌入和...

    多模態在市場上被熱議!AI應用呈爆炸式增長

    作為第乙個從一開始就用多模態資料訓練的大模型,Google Gemini 大模型在擁有原生多模態大模型的前提下,構建了三個不同的數量級 Gemini Ultra 最大 最強大的功能,適用於最複雜的任務 Gemini Pro 適用於各種任務的最佳型號 Gemini Nano 用於裝置端任務的最高效模型...