首页 > Ai资讯 > Ai产品

Dolphin：海天瑞声与清华大学联合发布的一款面向东方语种的自动语音识别模型

Dolphin于2025-04-02发布在Ai产品

Dolphin 是什么？

Dolphin是一款由海天瑞声与清华大学电子工程系语音与音频技术实验室联合开发的专为东方语言设计的自动语音识别模型。Dolphin支持40种东方语言和22种中国方言。具有高准确率和强鲁棒性，能够适应多种复杂语音环境。Dolphin广泛应用于语音转文字、语音交互和语音内容分析等场景，支持一键安装和多种调用方式。

Dolphin 模型特点

多语种支持：Dolphin 支持 40 种东方语言，包括东亚、南亚、东南亚和中东地区的语言，还支持 22 种中国方言（含普通话）。
语言自适应：自动识别输入语音的语言种类，无需手动指定。
高准确率：在多个测试集上，词错误率（WER）显著低于同类模型。
强鲁棒性：适应不同口音、语速、背景噪声等复杂语音环境。
高性能表现：在海天瑞声、Fleurs、CommonVoice 三个测试集下，与 Whisper 同等尺寸模型相比，Dolphin 的词错误率（WER）显著降低。例如，base 版本平均 WER 降低 63.1%，small 版本平均 WER 降低 68.2%。
开源性：Dolphin 的 base 和 small 版本模型与推理代码已全面开源。

Dolphin 技术架构

网络结构：基于 CTC-Attention 架构，采用 E-Branchformer 编码器和 Transformer 解码器，并引入了 4 倍下采样层。这种结构结合了 CTC 的序列建模能力和注意力机制的上下文捕捉能力，能够有效提升模型的识别准确性和效率。
多任务格式：Dolphin 借鉴了 Whisper 和 OWSM 的设计方法，专注于 ASR 进行了若干关键修改，如去掉 previous text 及其相关标记的使用，简化了输入格式。此外，Dolphin 引入了两级语种标签系统，以更好地处理语言和地区的多样性。

Dolphin 技术架构.webp