啟富科技語音情感計算論文入選國際頂級AI學術會議ICASSP 2024

Mondo 教育更新 2024-01-31

12月27日，2024年IEEE聲學、語音與訊號處理國際會議（ICASSP）宣布採用啟富科技在語音情感計算方面的最新研究成果**“MS-SENET： enhancing speech emotion recognition through multi-scale feature fusion with squeeze-and-excitation blocks”。

該團隊提出了一種新的網路結構，稱為MS-SENET，可以有效地提取、選擇和加權空間和時間多尺度特徵，並將這些特徵與原始資訊融合在一起，以獲得更強的語音情感表示向量。

情感計算領域是乙個涉及電腦科學、心理學和語言學的跨學科研究領域，其主要目的是通過分析和處理語音訊號中的情緒資訊，使計算機能夠識別和理解人類的情緒狀態。業界主流做法是通過音訊、文字等多模態資訊對感官進行分類，但團隊認為，人類底層情感特徵是相同的，完全可以跨越特定的語言和文字內容。

奇孚科技自主研發了MS-SENET音訊情感計算網路框架。

基於此，該團隊提出了MS-SENET框架，通過減少對大量不相關聲學特徵的提取，融合區域性頻率和長期時間特徵，提高語音訊號的情感表徵學習能力。 MS-SENET利用不同大小的卷積核提取多尺度時空特徵，並引入壓力激勵模組來有效捕獲這些多尺度特徵。同時，通過跳躍連線和空間損失層防止過擬合和合併，增加了模型的深度，進一步提高了情感計算模型的表現能力。

此外，該團隊還評估了六個不同場景的多語言資料集，包括中國科學院自動化研究所的語音情感資料集、柏林情感資料庫、義大利資料集、互動式情感二進位動作捕捉資料庫、薩里視聽表達情感資料集和瑞爾森視聽情感語音和歌曲資料集。與SOTA（最先進的技術，指當前在特定任務中表現最好的方法或模型）相比，MS-SENET將UA和WA提高了131% 和 161%，而MS-SENET仍然保持著出色的情感識別能力，具有更多的情感類別和更低的資料量。

據介紹，啟富科技在語音情感計算方面的研究不僅是理論上的突破，更是一次成功的實際應用。例如，在貸後投訴專案中，異常情緒監測首次應用於現實生活中的業務。通過對高危客戶的通話錄音進行逐一分析，及時選擇情緒異常的客戶，以便相關人員及時干預，實驗結果表明，模型組的投訴率比對照組低4個絕對百分點。

啟富科技語音情感計算論文入選國際頂級AI學術會議ICASSP 2024

相關問題答案

財務模式重新進化，奇孚科技大資料平台全面公升級

水滴磨石，奇孚科技多元ESG路徑

同富微電子、長電科技、晶方科技，下游AI晶元爆發，誰最有機會？

感受隆冬的大雪，MR數字技術帶來奇妙創意

創富港戰略投資電陽科技，加速AI大模型應用專案落地