1月30日,科大訊飛舉辦科大訊飛星火認知模型V35 公升級發布會,會上,科大訊飛Spark v3第5版正式發布,這是國家首個在國家算力平台“飛星一號”上訓練的全國開放大模型。
科大訊飛董事長劉慶峰表示,科大訊飛Spark V35 總體上已經接近 GPT-4 水平; 它與數學和語言互動的能力優於 GPT-4TURBO。 **96% 的 GPT-4 Turbo 和 91% 的 GPT-4V 的多模態理解。
此外,科大訊飛還首次發布了星火語音模型,這是全球領先的主流語言,引領了萬物互聯時代的人機互動革命。 同時,Spark開源模型“Spark Open Source-13B”也首次發布,深度適配國內算力,幫助開發者、高校、企業自主開發。
然後是最新的科大訊飛Spark v35 該版本實際上是如何工作的? 今天,我們將與您一起體驗。
1. AIGC核心競爭力經驗。
對於大型模型來說,最關鍵的自然是AIGC的核心對話能力,所以我們主要先測試一下這些能力。
測試時,使用 ChatGPT 最新的 GPT-4 和 iFLYTEK Spark V35 個版本進行比較,看看科大訊飛 Spark v35 真的有可能趕上ChatGPT嗎? 除非另有說明,否則預設情況下兩者都是基於 Web 的。
事不宜遲,讓我們開始吧。
1.全語音互動。
在本次發布會上,印象最深刻的是科大訊飛星火v35 完整的語音互動能力,可以直接用語音與科大訊飛星火對話,就像和真人聊天一樣,非常驚人,所以我們先從這一點來評估一下體驗。
目前可以在APP上體驗完整的語音對話,公升級後,底部輸入框最右邊有乙個機械人助手的圖示,點選即可進入完整的語音互動狀態。
科大訊飛Spark v35的全語音互動非常流暢,首先AI的聲音非常自然,說話時甚至還有“嗯”和“裡面”等情緒詞,幾乎和真人沒什麼區別。 其次,在互動時,科大訊飛Spark v35 的反應也很靈敏,說話後會很快回公升。 此外,科大訊飛Spark v35的答案也非常準確,與上下文相連,沒有不問的答案,簡而言之,“互動”,更像是自然的“交流”。
GPT-4方面,需要注意的是,由於使用過程中網路連線不穩定的客觀原因,在對話過程中會出現頻繁的重連、漫長的等待時間,除此之外,GPT-4的語音對話也比較不錯,聲音也像真人一樣自然流暢。
科大訊飛Spark v35 全語音互動目前有兩種音色:凌小月(女聲)和凌飛逸(男聲)可以切換。
2.語言理解。
在語言理解方面,讓我們首先測試兩個大型模型,讓他們嘗試分析以下段落中表達的思想和情感:
所有不幸命運的救贖之路在哪裡? 如果智慧和理解力可以引導我們走上救贖之路,那麼所有人都能獲得這樣的智慧和理解力嗎? 我常常想,醜陋的女人造就了美麗的女人。 我經常認為傻瓜引用智者。 我常常認為這是乙個懦夫,他照耀著英雄。 我常常認為,眾生已經轉化了佛陀。
科大訊飛Spark v35 和 GPT-4 各自給出以下理解:
從答案來看,科大訊飛Spark v35 和 GPT-4 都是可以接受的,但總的來說,GPT-4 更準確、更詳細。
讓我們讓他們更難分析以下具有諷刺意味的對聯:
牆上的蘆葦頭重腳輕,很淺; 竹筍在山上,嘴尖皮厚,肚子空心。
科大訊飛Spark v35 和 GPT-4 都給出了滿分:
然後增加難度,用陰陽怪詞測試兩個大模型:
公司早上09:00上班,我09:00來公司報到,碰巧遇到了老闆,老闆看到了我。 說:“親愛的王總,你真的很準時,我們公司有你這樣準時的員工,業績也不馬虎? 老闆,這是什麼意思?
對於這個問題,科大訊飛Spark v35 誤會,沒有進入老闆話語的諷刺:
相對來說,GPT-4回答得更好,也理解了老闆話語中的諷刺。
又一句陰陽怪異:
我真的很羨慕你的**,維護得這麼好。
為了理解這句話,這次科大訊飛Spark v35 準確地把握了其中的諷刺和諷刺:
GPT-4 也承認這其中有諷刺意味,但它對它所諷刺的內容給出了錯誤的理解:
測試後,科大訊飛Spark v35和GPT-4在漢語理解上各有優有失,總體可以說是在乙個水平上,語言背後隱藏的意思大部分都能識別出來,理解能力還是令人滿意的。
3.邏輯推理。
然後測試科大訊飛Spark v3版本 5 和 GPT-4 邏輯推理能力,選擇一些用於邏輯思維訓練的試題。 第乙個是:
假設你有乙個池塘,裡面有無限量的水,有兩個空水壺,容積分別為 5 公升和 6 公升。 問:用這兩個水壺如何從池塘中取出 3 公升水?
對於這個問題,科大訊飛Spark v3答案5的步驟很清楚,邏輯很清楚,實際可操作性沒有問題。
GPT-4 是回答這個問題的步驟列表,但根據它給出的方法,你不能得到 3 公升水。
然後我發現了另乙個話題:
A、B、C、D下一盤棋,每人下一盤棋,A勝D,A、B、C贏得相同數量的棋局。 問:D 贏了多少場?
對於這個問題,科大訊飛Spark v35 和 GPT-4 有不同的想法,但他們都給出了正確的答案:
然後是問題:
四年級有三個班,每個班有兩名班長,只有一名班長參加班會。 首次參會者是 A、B 和 C; 第二位與會者是 b、d、e; 第三位與會者是 A、E、F。 哪兩個班長在同乙個班級?
這個問題,科大訊飛Spark v35給出了正確而完整的答案:
GPT-4 也給出了正確的答案,思路很明確。
說到邏輯思維,有一些類似腦筋急轉彎的問題,也可以測試大模型的思維和反應能力,比如下面的問題:
如果 1=7,2=17,3=27,4=37,5=47,6=57,那麼 7=?
這個問題,科大訊飛Spark v3無論是 5 還是 GPT-4 都無法識別問題中的混淆條件並給出錯誤的答案:
另乙個有思維陷阱的話題:
你參加比賽,當你超過第二名時,你有多少個名次?
這個問題,科大訊飛Spark v35 和 GPT-4 都設法避免了這個陷阱,回答“第一”而不是“第一”,而是“成為新的第二”。
整體來看,在邏輯思維能力方面,科大訊飛星火v35 和 GPT-4 都表現出了非常好的邏輯推理和避坑能力,其中科大訊飛 Spark V35 在第乙個問題中,有乙個小小的勝利。
4. 回答數學問題。
我們之前已經測試過兩個大模型的邏輯推理能力,與之類似的是,其實還有回答數學問題的能力,可以進一步測試大模型的“智商水平”。
我們先來看看下面這個問題:
在 abc 中,a,b,c 是與內角 a,b,c 相對的邊,如果 2asina=(2sinb+sinc) b+(2sinc+sinb) c。 (1)求乙個的大小; (2)求sinb+sinc的最大值。
科大訊飛Spark v35 第乙個測驗答對了,但第二個測驗答錯了,最大值應為 1
GPT-4 另一方面,這兩個問題都沒有成功回答。
然後我發現了另乙個問題:
中學女子站立跳遠的考核要求為:133 公尺得 5 分,每增加 0 分03公尺,分數增加5分,直到184公尺後得90分,加01公尺,分數提高5分,滿分是120分,如果乙個女孩在訓練前的成績是70分,經過一段時間的訓練,分數是105分,那麼這個女孩在訓練後的跳遠中提高了多少公尺?
科大訊飛Spark v35 給出正確答案,並給出解決問題的過程:
GPT-4 一開始只給出正確答案,只有在詢問問題解決過程後才會給出詳細的步驟。
最後,嘗試乙個稍微困難的問題:
知道函式 f(x)=e x-ax-1 和 g (x)=kx 2,當 a>0 時,求 f (x) 的範圍。
對於這個問題,科大訊飛Spark v35.給出正確答案,雖然解決問題的過程很簡單,但思路比較清晰。
GPT-4 給出了乙個相對較長的解決方案步驟,但結果是錯誤的。
以上例子中的三個問題都是從高三的一次數學模擬測試中發現的,可以在科大訊飛星火v3中看到5的數學能力至少已經達到了高中水平,在實際使用過程中,確實可以發現科大訊飛Spark v35 在解決數學問題方面仍然優於 GPT-4。 但總的來說,兩者都有改進的餘地。
5.文字生成。
文字生成可能是人們在使用大型模型來幫助我們進行一些文案寫作時最常用的功能。 這裡還測試了兩個大型模型。
首先,我希望他們幫我寫乙份招聘文案:
招聘要求:具有經濟學專業背景,有媒體工作經驗,寫作優秀,能經常出差。 招聘待遇:有五險一金,月薪15k起,工作環境新雅,節假日有禮品,每年一次旅行團建。 文案要求:風格輕鬆幽默,500字以內。
科大訊飛Spark v35 給出的副本基本上沒有扣除:
GPT-4 的文案總體上也不錯,但語言與科大訊飛 Spark V3 相比5 不夠輕鬆幽默。
再看故事紙牌,從最經典的故事開始,讓他們繼續:
世界末日過後,我成了地球上唯一的倖存者,我正坐在房間裡獨白,突然想起了敲門聲。
科大訊飛Spark v35和GPT-4的故事延續可以合乎邏輯,流暢,有開頭有結尾,還有一些細節可以描述,比較不錯。
職場中的朋友經常需要寫一些計畫、活動計畫等,這個時候,也可以利用大模型的內容生成能力,幫助你更快完成任務。 在這裡,IT之家以“我公司計畫開展閱讀活動,幫我寫活動計畫”為需求進行測試。
科大訊飛星火給出的方案比較完整,有時間、地點、目標、流程、前期準備、結果評估等環節,而且不乏細節,可用性非常高。
GPT-4 提案相對簡潔,細節較少,但也更完整。
總體而言,在文字生成方面,科大訊飛Spark v35 與 GPT-4 相當,生成的內容沒有問題。
6.能力。
使用AI大模型輔助編寫也是一些程式設計師的常見用例,也可以看作是大模型內容生成能力的重要組成部分。
測試時,先用以下問題測試兩個大模型:請用C生成以下**:給你乙個字串s,求s中最長的回文子串。 如果字串的反序與原始字串相同,則該字串稱為回文字串。 **請按照以下模板操作:公共類解決方案 }
根據大模型可以直接使用的標準,對程式執行工具生成的大模型進行測試,看它是否能直接完美執行。 由於我不懂**,我也找了IT家裡的程式設計師來協助評估。
首先,讓我們一起來看看科大訊飛星火v35.它給出的格式標準和演算法都比較簡潔,看起來很清爽。
我拿到檢測工具執行測試,發現這個**可以直接執行,輸出結果準確,也就是說可以直接使用。
GPT-4 這裡給出的**也有標準化的格式,也比較簡潔,還有注釋。
如果在檢測軟體中執行,也可以執行成功,效能也不錯。
除了會寫**之外,你還必須會分析**,所以然後找一段**讓他們回答這個**是幹什麼用的:
# python 3def remove_common_prefix(x, prefix, ws_prefix):x["completion"]=x["completion"].str[len(prefix):]if ws_prefix:#keep the single whitespace as prefixx["completion"]=" " + x["completion“]return x 解釋了這個 ** 的用途。
迅飛星火的回答簡明扼要地說明了這個**的主要作用,答案是準確的。
GPT-4 也給出了這個實現功能,這也很好,同時也指出了 ** 中的乙個小錯誤,那就是末尾非標準引號的問題,GPT 稍微好一點。
綜上所述,目前科大訊飛Spark v35和GPT-4都非常有能力,兩者的水平基本沒有區別。
7.行業知識。
最後,讓我們測試一下兩者對行業知識的掌握程度。
讓我們從化學領域的乙個話題開始:
以下關於鑭系元素的陳述中哪一項是錯誤的? (a) 梅斯最常見的氧化態是+3。 (b) 銻絡合物通常具有較高的配位數(>6)。 (c) 所有鉲都與水溶性酸反應生成氫氣。 (d) 在元素週期表中,maczes的原子半徑從la逐漸增加到lu。
科大訊飛Spark v35 和 GPT-4 都給出了正確答案。 其中,科大訊飛Spark v35 的答案相對簡單,GPT-4 更詳細一些。
然後問他們另乙個關於醫學的問題:
連線到心臟左房室口周邊的瓣膜是什麼?
科大訊飛Spark v35 和 GPT-4 都給出了準確的答案。
在知識方面,還需要考慮大模型對最新資訊的掌握,即對其知識庫的更新。 以下是要測試的幾個問題。
首先問“Apple Vision Pro 是什麼時候發布的? ”
科大訊飛Spark v35給出了正確答案,並對本產品進行了簡要介紹。 知識庫的解釋非常新,這真是令人驚訝。
GPT-4沒有直接回答,然後問了乙個與體育有關的問題:
NBA球星克里斯保羅現在在哪支球隊?
科大訊飛星火給出了正確而完整的答案:
GPT-4 仍然沒有回答,指向搜尋引擎。
總體而言,在行業知識方面,科大訊飛星火V35 在知識掌握深度上,與GPT-4基本持平,但在知識庫儲備的更新速度上,目前科大訊飛星火V35 明顯優於 GPT-4。
8.多式聯運能力。
在此科大訊飛Spark v3中多模態功能在版本 5 中也得到了顯著改進,因此讓我們最終測試它在多模態中的表現。
首先是基本的文生圖能力,先讓他們畫出“天宮裡的孫悟空浩劫”,科大訊飛星火v35 和 GPT-4 都很快給出了圖紙,而且都相當合規。
但總的來說,GPT-4 的畫作更加精緻和細緻。
然後是屠生文的能力,找乙個**,看看能不能辨認出**裡的笑話。
科大訊飛Spark v35準確地給出了**中的笑話,也判斷這是《貓捉老鼠》中的乙個場景,但同時,對**中沒有的元素也有解釋。
GPT-4 也能準確看出**中的笑話在哪裡,不會產生多餘的資訊,但並沒有指出這是《貓捉老鼠》中的場景,總體上各有優缺點。
在多模態體驗方面,還有另外乙個大家比較關注的功能,那就是**生成。 這裡試圖讓兩個大模型生成乙個關於超人的段落。
科大訊飛Spark v35 很快生成了乙個小**介紹超人,還有乙個虛擬數字人負責講解,很不錯。
目前不支援 GPT-4**。
總的來說,目前,在多模態能力方面,科大訊飛Spark v35 也非常全面,實際使用體驗也很好,與 GPT-4 相比,可以說各有各的優點,介於兩者之間。
總的來說,經過多個版本的技術迭代,目前的科大訊飛Spark v3版本 5 在基本功能體驗方面問題不大,使用起來全面成熟。
2、有其他基本功能的經驗。
最後,我們從其他基礎功能體驗方面來看看科大訊飛星火的情況,IT之家主要從終端覆蓋和功能豐富兩個方面進行講解。
在終端覆蓋的豐富性方面,科大訊飛星火一直相對領先,早在去年6月,科大訊飛星火v1當5公升級時,它已經實現了Android、iOS、小程式、PC、H5的全覆蓋,所以大家可以在主流裝置中體驗科大訊飛星火大模型。
在ChatGPT方面,目前覆蓋了網頁端、移動端、PC和Mac、Linux,沒有小程式和H5,比於迅飛星火有自己的優勢。
在功能上,現在的科大訊飛星火也非常全面。 例如,在之前的 v1 中5 版中引入的科大訊飛 AI 助手功能,針對特定應用場景提供專門的服務和功能,涵蓋“職場、生活、旅行、寫作、娛樂、情感”等多種場景,甚至可以建立自己的 AI 助手。
在科大訊飛星火上可以看到,目前各類星火AI助手還是非常全面的,幾乎可以覆蓋所有應用場景。
ChatGPT 上也有類似的功能。
除了星火AI助手,科大訊飛星火還擁有獨特的科大訊飛配套功能,你可以將具體的知識、歷史對話,或者你每天讀、寫、想、想的東西傳送到系統,並定製你的專屬AI個性“朋友”,使用者可以體驗到科大訊飛星火APP的AI個性“不僅知識, 還有個性”。
再比如,科大訊飛星火還擁有豐富的外掛程式功能,包括PPT生成、郵件生成、簡歷生成、操作文案生成、思維導圖、AI面試官等,非常齊全。
這些是 GPT-4 目前不具備的功能。
結語。 此前,科大訊飛董事長劉慶峰在接受採訪時表示,科大訊飛星火將於2024年4月對GPT-4進行全面基準測試。
從這個時候到新的科大訊飛Spark v3從第5版的經驗來看,在綜合能力上確實可以和GPT-4不相上下,甚至在邏輯推理、數學能力、知識庫更新速度等方面都有一定的領先優勢。
簡而言之,科大訊飛星火認知模型v35 讓我們看到國產大模型在技術和應用方面的無限發展潛力,期待科大訊飛星火在未來不斷演進,讓我們的AI大模型技術和應用生態真正實現國際領先。