? 8月22日,阿里阿里通义发布新一代端到端的语音识别大模型Fun-ASR,该模型增强了上下文感知和高精度语音转写能力,在家装、通义推新保险等多个行业场景的代语%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91seal%20security语音识别准确率均提升了15%以上。目前,音模Fun-ASR已应用于会议字幕与同传、阿里智能纪要、通义推新语音助手等场景,代语未来该模型将进一步在阿里云百炼上线。音模
? Fun-ASR是阿里大语言模型驱动的语音识别算法,其基于自研语音算法和监督微调的通义推新Qwen3训练,并采用前沿的代语模型架构以及先进的文本模态对齐技术,可有效保护和增强大模型的音模语言处理能力;此外,Fun-ASR集成了RAG方案,阿里%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91seal%20security可提供自动化音频信息检索功能,通义推新最高可导入1000多个自定义热词。代语基于该功能,系统能够根据输入音频精确获取相关领域热词、文档及前文记录,大幅提升特定领域内的关键词识别效果。
?

Fun-ASR架构图
? 為解決語音識別不準確、噪聲干擾、語種混淆以及生成幻覺等問題,通義團隊還在ASR模型訓練中引入了RL(強化學習)技術,此策略有效減少識別過程中的幻覺,提高整體系統的準確性與可靠性。在四川話、粵語、閩南語等多地方言上,Fun-ASR取得了領先同類產品的表現。此外,Fun-ASR對遠場拾音和近場降噪的等多樣環境也表現出了良好的適應性,無論是會議室、工位,還是超市、戶外,均可有效保證識別準確率。
? 在訓練數據上,Fun-ASR基于上億小時音頻數據的訓練,全面涵蓋了互聯網、科技、家裝、畜牧、汽車等十多個領域的專業術語,在多個垂直領域的識別準確率顯著提升。實測數據顯示,Fun-ASR在保險行業的準確率較以往提升18%,在家裝、畜牧等行業也實現了15%-20%的提升。
? 在音頻領域,通義實驗室已推出語音生成大模型 Cosyvoice、端到端音頻多模態大模型MinMo、音頻生成模型ThinkSound等模型,全面覆蓋語音識別、語音合成、音頻生成、音頻理解等場景。
