SpeakerKit:可以快速、高效地识别音频中的不同说话人

SpeakerKit是什么?

SpeakerKit 是 Argmax 公司开发的一种 设备端说话人识别(Diarization)工具,可以快速、高效地识别音频中的不同说话人。它与 WhisperKit(一种音频转录工具)配合使用,能够生成带有说话人标签的转录文本。适用于需要快速、准确识别音频中说话人的应用场景。

SpeakerKit:可以快速、高效地识别音频中的不同说话人.jpg

SpeakerKit主要特点

速度:

  • 在 iPhone 上处理 4 分钟音频时,SpeakerKit 仅需 约 1 秒 完成说话人识别,速度远超其他同类系统。

  • 与 WhisperKit 结合使用时,转录和识别的总时间仅需 25 秒。

质量:

  • SpeakerKit 的错误率与行业领先的系统(如 Pyannote)相当,尽管其速度提升了数倍。

体积:

  • 总大小约为 10MB,便于集成到应用程序中或快速下载。

兼容性:

  • 支持 iOS 16 和 macOS 13 及更高版本的设备。

  • Android 支持正在开发中。

模块化:

  • SpeakerKit 可与 WhisperKit 配合使用,生成带有说话人标签的转录文本,也可以与其他转录引擎集成,提供了比服务器端 API 更高的灵活性。

SpeakerKit:可以快速、高效地识别音频中的不同说话人.webp

基准测试

Argmax 开发了一个名为 SDBench 的 Python 工具包,用于在 13 个广泛使用的数据集上标准化地测试说话人识别系统的性能。SDBench 的代码将开源,相关论文将于 2025 年 4 月发布。

未来规划

优化转录质量:目前SpeakerKit 的独立说话人识别质量已达到行业领先水平(通过 DER 测量)。下一步,团队将优化与 WhisperKit 的联合使用,以提升带有说话人标签的转录质量(通过 WDER 测量)。

说话人识别功能:SpeakerKit 将推出一项新功能,能够提取说话人的声纹,并在新的上下文中识别他们。

详细阅读:https://www.argmaxinc.com/blog/speakerkit

HuggingFace:https://huggingface.co/argmaxinc/speakerkit-pro

收藏
#人声分离软件

相关文章

最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...