12月27日,2024年IEEE聲學、語音與訊號處理國際會議(ICASSP)宣布採用啟富科技在語音情感計算方面的最新研究成果**“MS-SENET: enhancing speech emotion recognition through multi-scale feature fusion with squeeze-and-excitation blocks”。
該團隊提出了一種新的網路結構,稱為MS-SENET,可以有效地提取、選擇和加權空間和時間多尺度特徵,並將這些特徵與原始資訊融合在一起,以獲得更強的語音情感表示向量。
情感計算領域是乙個涉及電腦科學、心理學和語言學的跨學科研究領域,其主要目的是通過分析和處理語音訊號中的情緒資訊,使計算機能夠識別和理解人類的情緒狀態。 業界主流做法是通過音訊、文字等多模態資訊對感官進行分類,但團隊認為,人類底層情感特徵是相同的,完全可以跨越特定的語言和文字內容。
奇孚科技自主研發了MS-SENET音訊情感計算網路框架。
基於此,該團隊提出了MS-SENET框架,通過減少對大量不相關聲學特徵的提取,融合區域性頻率和長期時間特徵,提高語音訊號的情感表徵學習能力。 MS-SENET利用不同大小的卷積核提取多尺度時空特徵,並引入壓力激勵模組來有效捕獲這些多尺度特徵。 同時,通過跳躍連線和空間損失層防止過擬合和合併,增加了模型的深度,進一步提高了情感計算模型的表現能力。
此外,該團隊還評估了六個不同場景的多語言資料集,包括中國科學院自動化研究所的語音情感資料集、柏林情感資料庫、義大利資料集、互動式情感二進位動作捕捉資料庫、薩里視聽表達情感資料集和瑞爾森視聽情感語音和歌曲資料集。 與SOTA(最先進的技術,指當前在特定任務中表現最好的方法或模型)相比,MS-SENET將UA和WA提高了131% 和 161%,而MS-SENET仍然保持著出色的情感識別能力,具有更多的情感類別和更低的資料量。
據介紹,啟富科技在語音情感計算方面的研究不僅是理論上的突破,更是一次成功的實際應用。 例如,在貸後投訴專案中,異常情緒監測首次應用於現實生活中的業務。 通過對高危客戶的通話錄音進行逐一分析,及時選擇情緒異常的客戶,以便相關人員及時干預,實驗結果表明,模型組的投訴率比對照組低4個絕對百分點。