啟富科技語音情感計算論文入選國際頂級AI學術會議ICASSP 2024

Mondo 教育 更新 2024-01-31

12月27日,2024年IEEE聲學、語音與訊號處理國際會議(ICASSP)宣布採用啟富科技在語音情感計算方面的最新研究成果**“MS-SENET: enhancing speech emotion recognition through multi-scale feature fusion with squeeze-and-excitation blocks”。

該團隊提出了一種新的網路結構,稱為MS-SENET,可以有效地提取、選擇和加權空間和時間多尺度特徵,並將這些特徵與原始資訊融合在一起,以獲得更強的語音情感表示向量。

情感計算領域是乙個涉及電腦科學、心理學和語言學的跨學科研究領域,其主要目的是通過分析和處理語音訊號中的情緒資訊,使計算機能夠識別和理解人類的情緒狀態。 業界主流做法是通過音訊、文字等多模態資訊對感官進行分類,但團隊認為,人類底層情感特徵是相同的,完全可以跨越特定的語言和文字內容。

奇孚科技自主研發了MS-SENET音訊情感計算網路框架。

基於此,該團隊提出了MS-SENET框架,通過減少對大量不相關聲學特徵的提取,融合區域性頻率和長期時間特徵,提高語音訊號的情感表徵學習能力。 MS-SENET利用不同大小的卷積核提取多尺度時空特徵,並引入壓力激勵模組來有效捕獲這些多尺度特徵。 同時,通過跳躍連線和空間損失層防止過擬合和合併,增加了模型的深度,進一步提高了情感計算模型的表現能力。

此外,該團隊還評估了六個不同場景的多語言資料集,包括中國科學院自動化研究所的語音情感資料集、柏林情感資料庫、義大利資料集、互動式情感二進位動作捕捉資料庫、薩里視聽表達情感資料集和瑞爾森視聽情感語音和歌曲資料集。 與SOTA(最先進的技術,指當前在特定任務中表現最好的方法或模型)相比,MS-SENET將UA和WA提高了131% 和 161%,而MS-SENET仍然保持著出色的情感識別能力,具有更多的情感類別和更低的資料量。

據介紹,啟富科技在語音情感計算方面的研究不僅是理論上的突破,更是一次成功的實際應用。 例如,在貸後投訴專案中,異常情緒監測首次應用於現實生活中的業務。 通過對高危客戶的通話錄音進行逐一分析,及時選擇情緒異常的客戶,以便相關人員及時干預,實驗結果表明,模型組的投訴率比對照組低4個絕對百分點。

相關問題答案

    財務模式重新進化,奇孚科技大資料平台全面公升級

    幾十年來,金融機構一直將資料視為有待開採的金礦,他們希望構建資料平台來增強業務能力。但是,為什麼業內人士一直認為這是一項艱鉅的任務呢?答案在於,雖然金融機構渴望將資料平台轉化為其業務的真正價值和生產力,但他們缺乏關鍵的生產工具。因此,很多與資料相關的工作仍然依賴於繁瑣的人工操作,如製作複雜的報表 建...

    水滴磨石,奇孚科技多元ESG路徑

    年,啟富科技的ESG工作將主要通過維護金融消費者權益和公益兩大崗位開展。投資時報 記者張靖宇。作為中國最大的金融科技公司上市公司,我們始終致力於維護金融消費者權益和促進社會福利,並通過綜合措施踐行金融科技行業的社會責任,以期構建更加公平 公正 有序的金融市場,為社會的可持續發展做出貢獻。多渠道 多形...

    同富微電子、長電科技、晶方科技,下游AI晶元爆發,誰最有機會?

    AI 人工智慧 的爆炸式增長從上游晶元中獲益最大。晶元行業存在週期性變化,乙個完整的變化週期是四年,主要是兩年的向上繁榮和兩年的衰落繁榮。它現在處於 年 月開始的上公升趨勢中,並將持續到 年 月。在全球晶元產業鏈中,半導體按生產分為四個階段,主要為設計 製造 封測 代工。由於重資產投入,國內資本很早...

    感受隆冬的大雪,MR數字技術帶來奇妙創意

    隆冬將至,大雪紛飛!在MR 節氣元宇宙數字空間體驗大雪。利用混合現實技術,將節氣的主要場景融入現實生活,將虛實融合,快速了解節氣的魅力。雪來了,整個元宇宙數字空間都布滿了雪花。這是乙個超越現實的世界,融合了虛擬和現實。在這個元宇宙中,大雪不僅僅是乙個虛擬的景觀,而是一種與現實生活融為一體的美妙體驗。...

    創富港戰略投資電陽科技,加速AI大模型應用專案落地

    年月日,創富岡在深圳總部舉行戰略投資簽約儀式,副總裁湯唯代表創富岡與電陽科技 深圳 正式簽署戰略投資協議。根據投資合作協議,創富剛在電陽科技投資的資金將用於電陽科技的技術研發和業務拓展。在數字技術時代,對AI模型的研究和投資已成為不可忽視的趨勢。未來,AI模型將更廣泛地應用於各行各業。面對這一趨勢,...