SpeakerKit:可以快速、高效地识别音频中的不同说话人

SpeakerKit是什么?

SpeakerKit 是 Argmax 公司开发的一种 设备端说话人识别(Diarization)工具,可以快速、高效地识别音频中的不同说话人。它与 WhisperKit(一种音频转录工具)配合使用,能够生成带有说话人标签的转录文本。适用于需要快速、准确识别音频中说话人的应用场景。

SpeakerKit:可以快速、高效地识别音频中的不同说话人.jpg

SpeakerKit主要特点

速度:

  • 在 iPhone 上处理 4 分钟音频时,SpeakerKit 仅需 约 1 秒 完成说话人识别,速度远超其他同类系统。

  • 与 WhisperKit 结合使用时,转录和识别的总时间仅需 25 秒。

质量:

  • SpeakerKit 的错误率与行业领先的系统(如 Pyannote)相当,尽管其速度提升了数倍。

体积:

  • 总大小约为 10MB,便于集成到应用程序中或快速下载。

兼容性:

  • 支持 iOS 16 和 macOS 13 及更高版本的设备。

  • Android 支持正在开发中。

模块化:

  • SpeakerKit 可与 WhisperKit 配合使用,生成带有说话人标签的转录文本,也可以与其他转录引擎集成,提供了比服务器端 API 更高的灵活性。

SpeakerKit:可以快速、高效地识别音频中的不同说话人.webp

基准测试

Argmax 开发了一个名为 SDBench 的 Python 工具包,用于在 13 个广泛使用的数据集上标准化地测试说话人识别系统的性能。SDBench 的代码将开源,相关论文将于 2025 年 4 月发布。

未来规划

优化转录质量:目前SpeakerKit 的独立说话人识别质量已达到行业领先水平(通过 DER 测量)。下一步,团队将优化与 WhisperKit 的联合使用,以提升带有说话人标签的转录质量(通过 WDER 测量)。

说话人识别功能:SpeakerKit 将推出一项新功能,能够提取说话人的声纹,并在新的上下文中识别他们。

详细阅读:https://www.argmaxinc.com/blog/speakerkit

HuggingFace:https://huggingface.co/argmaxinc/speakerkit-pro

收藏
#人声分离软件

相关文章

最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...