Ai应用
Ai资讯
AI生图
AI生视频
开源AI应用平台

首页 > Ai资讯 > Ai产品

Seed-ASR：字节跳动自动语音识别模型

Seed-ASR于2024-08-23发布在Ai产品

Seed-ASR，字节跳动自动语音识别模型，可将各种语音转化为文本信息，与传统 TTS 面向单一任务不同，Seed-TTS 能够建模各种声音，且允许同时从很多个维度进行操控，可识别不同语言、方言、口音，甚至吞字这类语音上的瑕疵。Seed-ASR在超过2000万小时的语音数据和近90万小时的配对ASR数据上进行了训练。不仅支持普通话，还能识别13种中国方言和7种外语以及各种口音的英语。

Seed-ASR：字节跳动自动语音识别模型

Seed-ASR 具有强大的上下文感知能力，能够识别在特定上下文下的语音内容。例如，模型可以利用历史对话或会议记录来更准确地识别当前语音中的人名、地名或其他上下文相关的关键词。

Seed-ASR具备强大的扩展性。这意味着它不只是一个固定的系统，而是可以根据具体需求进行定制的平台。比如说，你想让它专门识别医学术语，或者理解某种特殊口音，都可以通过微调来实现。

Seed-ASR最核心的技术就是把大语言模型融入到了语音识别中，为 Seed-ASR引入了上下文理解能力。这可不是简单地把两个系统拼在一起，而是从根本上改变了处理语音的方式。它就像是给语音识别系统装上了一个超级大脑，不仅能听，还能思考。

Seed-ASR技术亮点：

高精度识别：通过数十亿参数的模型处理复杂的语音输入，实现高精度识别。
大容量模型：使用大语言模型，提高了语音识别的准确性和上下文理解能力，好比是用"超级计算机"来帮你听写笔记，想想就觉得太酷了。
支持多种语言：包括普通话、13种中国方言以及多种外语，并计划扩展至40多种语言。
上下文感知：能够结合上下文信息，提高识别的准确性，就像你跟朋友聊天，它能听懂你们之前说过什么，然后根据这些信息更准确地理解你现在说的话。
分阶段训练方法：包括自监督学习、监督微调、上下文微调和强化学习，逐步增强模型能力。

Seed-ASR应用场景：

人机交互：提供语音输入渠道，通过实时将语音转成文字作为输入，达到和设备/硬件/应用快速、便捷交互的目的。
内容审核：将录音识别为文字，通过质检规则对文本进行分析，及时发现违规内容并干预处理。
会议访谈转写：将会议、访谈音频实时或异步识别为文字，自动切分有语音部分识别，降本增效。
音视频字幕：支持自动将音视频中的语音、歌词识别转换为文本，一键生成与音视频对应的字幕内容。

Seed-ASR 已在豆包 APP 中应用，被网友用在英语会话、虚拟聊天伴侣、复刻亲友声音等多个场景。面向更多企业客户，Seed-ASR 依托火山引擎，在语音交互、内容审核、会议访谈转写、音视频字幕等场景也有落地。

截至目前，豆包大模型团队语音方向已发布 Seed-TTS 、Seed-ASR 等多项技术成果。

Seed-ASR官网：https://bytedancespeech.github.io/seedasr_tech_report/

收藏

Notty：一款AI驱动的简洁快速笔记应用和Markdown编辑器

上一篇

Notty：一款AI驱动的简洁快速笔记应用和Markdown编辑器

Tailor：免费开源的视频智能裁剪、视频生成和视频优化工具

下一篇

Tailor：免费开源的视频智能裁剪、视频生成和视频优化工具

相关文章

XVerse：字节跳动推出的多主体图像合成开源工具

XVerse：字节跳动推出的多主体图像合成开源工具

2025-07-02

探饭：字节跳动推出的一款AI美食助手，搭载豆包大模型

探饭：字节跳动推出的一款AI美食助手，搭载豆包大模型

2025-06-23

DreamActor-H1：生成人物讲解商品的视频，

DreamActor-H1：生成人物讲解商品的视频，

2025-06-23

ImmerseGen：字节跳动和浙江大学联合开发的3

ImmerseGen：字节跳动和浙江大学联合开发的3

2025-06-21

MAGREF：字节跳动发布的一款多主体视频生成神器

MAGREF：字节跳动发布的一款多主体视频生成神器

2025-06-14

字节跳动旗下扣子空间推出一键文本生成播客功能

字节跳动旗下扣子空间推出一键文本生成播客功能

2025-05-29

最新文章

最新工具

Shell Shockers

一款多人在线的第一人称射击游戏，玩家操控各种“武装鸡蛋”在竞技场...

Sheet0

一个L4级 Data Agent工具，用户只需输入需求指令，系统...

DrFonts

一个AI字体生成工具，它能把手写的PNG图片，比如纸上的字稿，自...

Coding Adventure

Coding Adventure

一个面向小学三年级到初中学生的游戏化编程学习平台。学生用真实编程...

Vert.sh

一款完全免费、开源的文件转换工具，支持图片、音频、文档的本地处理...

Windrecorder

捕风记录仪，一款开源的屏幕录制与检索工具，它记录屏幕内容来实现记...

Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...

橙子8设计

一站式AI电商图片制作平台，专为电商和跨境卖家服务。不用专业设计...

Sandspiel

一款基于细胞自动机和实时物理的开源像素沙盘游戏，玩家可以在虚拟沙...

印象地图

这是个可以帮你记住全国省市位置的测试工具。打开网站就能用，选个模...

人生若只如初见

用户登录