Dolphin:海天瑞声与清华大学联合发布的一款面向东方语种的自动语音识别模型

Dolphin 是什么?

Dolphin是一款由海天瑞声与清华大学电子工程系语音与音频技术实验室联合开发的专为东方语言设计的自动语音识别模型。Dolphin支持40种东方语言和22种中国方言。具有高准确率和强鲁棒性,能够适应多种复杂语音环境。Dolphin广泛应用于语音转文字、语音交互和语音内容分析等场景,支持一键安装和多种调用方式。

Dolphin 模型特点

  • 多语种支持:Dolphin 支持 40 种东方语言,包括东亚、南亚、东南亚和中东地区的语言,还支持 22 种中国方言(含普通话)。

  • 语言自适应:自动识别输入语音的语言种类,无需手动指定。

  • 高准确率:在多个测试集上,词错误率(WER)显著低于同类模型。

  • 强鲁棒性:适应不同口音、语速、背景噪声等复杂语音环境。

  • 高性能表现:在海天瑞声、Fleurs、CommonVoice 三个测试集下,与 Whisper 同等尺寸模型相比,Dolphin 的词错误率(WER)显著降低。例如,base 版本平均 WER 降低 63.1%,small 版本平均 WER 降低 68.2%。

  • 开源性:Dolphin 的 base 和 small 版本模型与推理代码已全面开源。

Dolphin 技术架构

  • 网络结构:基于 CTC-Attention 架构,采用 E-Branchformer 编码器和 Transformer 解码器,并引入了 4 倍下采样层。这种结构结合了 CTC 的序列建模能力和注意力机制的上下文捕捉能力,能够有效提升模型的识别准确性和效率。

  • 多任务格式:Dolphin 借鉴了 Whisper 和 OWSM 的设计方法,专注于 ASR 进行了若干关键修改,如去掉 previous text 及其相关标记的使用,简化了输入格式。此外,Dolphin 引入了两级语种标签系统,以更好地处理语言和地区的多样性。

Dolphin 技术架构.webp

数据基础

Dolphin 的训练数据集整合了海天瑞声的专有数据和多个开源数据集,总时长超过 21.2 万小时。其中,海天瑞声数据集包含 137,712 小时的音频,覆盖 38 个东方语种。

应用场景

  • 语音转文字:适用于会议记录、语音输入法等场景。

  • 语音交互:用于ai智能语音助手、智能家居等,提升交互体验。

  • 语音内容分析:快速转写和分析语音媒体内容。

Dolphin 使用教程

  1. 安装:用户可以通过命令 pip install -U dataoceanai-dolphin 一键安装。

  2. 命令行调用:例如,使用 dolphin audio.wav 进行语音识别,还可以指定模型版本、语言和地区的标签。

  3. Python 调用:通过导入 dolphin 模块,加载音频和模型,即可进行语音识别。

相关链接

Github地址:https://github.com/DataoceanAI/Dolphin

项目主页:https://huggingface.co/DataoceanAI

收藏
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...