Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型

Aero-1-Audio是什么?

Aero-1-Audio是由LMMs-Lab开发的一款紧凑型音频模型,基于Qwen-2.5-1.5B语言模型构建,拥有 24.2 亿参数,采用MIT许可协议。它能高效处理多种音频任务,适合在资源受限情况下部署高质量音频处理功能的场景,比如手机语音助手、会议记录和转写系统、或者课堂实时语音转写等等。

Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型.jpg

Aero-1-Audio模型特点

  • 高效性能:Aero-1-Audio 基于 Qwen-2.5-1.5B 构建,不过虽然参数规模较小,但是在多个音频基准测试中都很出色,甚至超越了许多更大规模的ai模型,比如 Whisper、Qwen-2-Audio 和 ElevenLabs/Scribe。

  • 训练效率高:Aero-1-Audio模型仅用 16 个 H100 GPU 在一天内完成训练,使用了约 50 亿个 tokens(相当于 5 万小时音频)的高质量过滤数据。

  • 长音频处理能力强:Aero-1-Audio 能够不需要分割就可以处理长达 15 分钟的连续音频输入,这在当前的音频模型中比较少见。

性能评估

  • 语音识别任务:在 AMI、LibriSpeech 和 SPGISpeech 等数据集上,Aero-1-Audio 的词错误率(WER)最低。在长语音 ASR 测试中,它的性能下降幅度最小。

  • 音频理解任务:在音频分析与理解、语音指令跟随和音频场景理解等多个维度上,Aero-1-Audio 表现都比较出色,优于或媲美其他大型模型。

技术优势

  • 动态批大小:Aero-1-Audio 使用基于 token 长度的动态批处理策略,提高了计算资源利用率。

  • 序列打包:通过序列打包技术结合 Liger 内核融合,平均模型 FLOP 利用率(MFU)从 0.03 提升至 0.34,训练效率得到提高。

Aero-1-Audio应用场景

Aero-1-Audio 只要应用在教育、医疗、娱乐等领域,比如自动生成讲座笔记、辅助医生记录病历、实时生成视频字幕等。

Aero-1-Audio使用方法

  • 安装依赖:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。

  • 简单演示:通过导入相关库和函数,加载音频,使用AutoProcessor和AutoModelForCausalLM类,构建输入并生成输出,实现音频处理,如转录音频。

  • 批量推理:类似简单演示,可处理多个音频,需调整输入数据格式和参数设置,如设置填充方向等。

常见问题

问:Aero-1-Audio 与其他大型音频模型相比,优势体现在哪些方面?

答:Aero-1-Audio 参数使用更高效,训练数据量比 Qwen-Omni 和 Phi-4 等模型小超 100 倍,但性能仍具竞争力。它还能准确处理长达 15 分钟的连续音频输入,这在其他模型很少见的。

问:使用 Aero-1-Audio 模型进行推理前,需要做哪些准备工作?

答:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。若想提升性能,可安装flash-attn,命令为pip install --no-build-isolation flash-attn,不想使用flash attn时,也可选择sdpa或eager。

问:Aero-1-Audio 的训练数据有什么特点?

答:训练数据来自 20 多个公开数据集,约 50 亿个标记,对应约 5 万小时音频数据。相比其他模型,它的训练数据量小但样本效率高,能让模型在较小数据量下达到有竞争力的性能。

HuggingFace:https://huggingface.co/lmms-lab/Aero-1-Audio

收藏
最新工具
KingswayVideo
KingswayVideo

专注于外贸B2B视频领域,提供以视频为核心的独立站服务。其主要功...

Joinly AI
Joinly AI

一款让AI助手参与会议的工具。它通过服务器为 AI 提供会议所需...

Inkr
Inkr

一款音视频转录工具,支持实时会议录音、主流音视频文件和链接。能快...

Davia
Davia

一款开源网页生成工具,目标是提供类似大厂那种“所见即所得”的网页...

达探星
达探星

一款TikTok达人邀约工具,特别适合TikTok小店用来爆单。...

ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...