首页 > Ai资讯 > Ai产品

SpeakerKit：可以快速、高效地识别音频中的不同说话人

映技派于2025-03-08发布在Ai产品

SpeakerKit是什么？

SpeakerKit 是 Argmax 公司开发的一种设备端说话人识别（Diarization）工具，可以快速、高效地识别音频中的不同说话人。它与 WhisperKit（一种音频转录工具）配合使用，能够生成带有说话人标签的转录文本。适用于需要快速、准确识别音频中说话人的应用场景。

SpeakerKit：可以快速、高效地识别音频中的不同说话人.jpg

SpeakerKit主要特点

速度：

在 iPhone 上处理 4 分钟音频时，SpeakerKit 仅需约 1 秒完成说话人识别，速度远超其他同类系统。
与 WhisperKit 结合使用时，转录和识别的总时间仅需 25 秒。

质量：

SpeakerKit 的错误率与行业领先的系统（如 Pyannote）相当，尽管其速度提升了数倍。

体积：

总大小约为 10MB，便于集成到应用程序中或快速下载。

兼容性：

支持 iOS 16 和 macOS 13 及更高版本的设备。
Android 支持正在开发中。

模块化：

SpeakerKit 可与 WhisperKit 配合使用，生成带有说话人标签的转录文本，也可以与其他转录引擎集成，提供了比服务器端 API 更高的灵活性。

SpeakerKit：可以快速、高效地识别音频中的不同说话人.webp

基准测试

Argmax 开发了一个名为 SDBench 的 Python 工具包，用于在 13 个广泛使用的数据集上标准化地测试说话人识别系统的性能。SDBench 的代码将开源，相关论文将于 2025 年 4 月发布。

未来规划

优化转录质量：目前SpeakerKit 的独立说话人识别质量已达到行业领先水平（通过 DER 测量）。下一步，团队将优化与 WhisperKit 的联合使用，以提升带有说话人标签的转录质量（通过 WDER 测量）。

说话人识别功能：SpeakerKit 将推出一项新功能，能够提取说话人的声纹，并在新的上下文中识别他们。

详细阅读：https://www.argmaxinc.com/blog/speakerkit

HuggingFace：https://huggingface.co/argmaxinc/speakerkit-pro

#人声分离软件

Local-NotebookLM：开源的本地版NotebookLM，能够将PDF转换为播客

Easydict：一个简洁优雅、开源的macOS词典翻译应用

最新工具

AiPyApp

一款以Python为核心的开源新人工智能体助手，结合大模型和 P...

Adobe Express

Adobe推出的一站式设计工具，整合了图像、视频、文档/PDF、...

Intangible AI

创意行业空间智能AI平台，通过简洁的3D界面与空间智能技术解决A...

法大大iTerms

法大大推出的一站式法律AI工作台，基于自研法律大模型的AI智能体...

Relume

一个通过AI来优化网站设计与搭建流程的平台，可以快速生成网站地图...

Pomelli

Google开发的AI营销工具，主要服务中小商家。你只需要提供企...

Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT

一个基于大语言模型的开源免费AIPPT生成平台，支持将文档内容自...

AppleWalls

一个免费提供苹果官方内置壁纸下载的网站，包括iPhone、iPa...

Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

用户登录