Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型

Aero-1-Audio是什么?

Aero-1-Audio是由LMMs-Lab开发的一款紧凑型音频模型,基于Qwen-2.5-1.5B语言模型构建,拥有 24.2 亿参数,采用MIT许可协议。它能高效处理多种音频任务,适合在资源受限情况下部署高质量音频处理功能的场景,比如手机语音助手、会议记录和转写系统、或者课堂实时语音转写等等。

Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型.jpg

Aero-1-Audio模型特点

  • 高效性能:Aero-1-Audio 基于 Qwen-2.5-1.5B 构建,不过虽然参数规模较小,但是在多个音频基准测试中都很出色,甚至超越了许多更大规模的ai模型,比如 Whisper、Qwen-2-Audio 和 ElevenLabs/Scribe。

  • 训练效率高:Aero-1-Audio模型仅用 16 个 H100 GPU 在一天内完成训练,使用了约 50 亿个 tokens(相当于 5 万小时音频)的高质量过滤数据。

  • 长音频处理能力强:Aero-1-Audio 能够不需要分割就可以处理长达 15 分钟的连续音频输入,这在当前的音频模型中比较少见。

性能评估

  • 语音识别任务:在 AMI、LibriSpeech 和 SPGISpeech 等数据集上,Aero-1-Audio 的词错误率(WER)最低。在长语音 ASR 测试中,它的性能下降幅度最小。

  • 音频理解任务:在音频分析与理解、语音指令跟随和音频场景理解等多个维度上,Aero-1-Audio 表现都比较出色,优于或媲美其他大型模型。

技术优势

  • 动态批大小:Aero-1-Audio 使用基于 token 长度的动态批处理策略,提高了计算资源利用率。

  • 序列打包:通过序列打包技术结合 Liger 内核融合,平均模型 FLOP 利用率(MFU)从 0.03 提升至 0.34,训练效率得到提高。

Aero-1-Audio应用场景

Aero-1-Audio 只要应用在教育、医疗、娱乐等领域,比如自动生成讲座笔记、辅助医生记录病历、实时生成视频字幕等。

Aero-1-Audio使用方法

  • 安装依赖:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。

  • 简单演示:通过导入相关库和函数,加载音频,使用AutoProcessor和AutoModelForCausalLM类,构建输入并生成输出,实现音频处理,如转录音频。

  • 批量推理:类似简单演示,可处理多个音频,需调整输入数据格式和参数设置,如设置填充方向等。

常见问题

问:Aero-1-Audio 与其他大型音频模型相比,优势体现在哪些方面?

答:Aero-1-Audio 参数使用更高效,训练数据量比 Qwen-Omni 和 Phi-4 等模型小超 100 倍,但性能仍具竞争力。它还能准确处理长达 15 分钟的连续音频输入,这在其他模型很少见的。

问:使用 Aero-1-Audio 模型进行推理前,需要做哪些准备工作?

答:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。若想提升性能,可安装flash-attn,命令为pip install --no-build-isolation flash-attn,不想使用flash attn时,也可选择sdpa或eager。

问:Aero-1-Audio 的训练数据有什么特点?

答:训练数据来自 20 多个公开数据集,约 50 亿个标记,对应约 5 万小时音频数据。相比其他模型,它的训练数据量小但样本效率高,能让模型在较小数据量下达到有竞争力的性能。

HuggingFace:https://huggingface.co/lmms-lab/Aero-1-Audio

收藏
最新工具
PPT世界
PPT世界

QIJ鳍迹旗下产品,集PPT模板下载、设计教程、交流社区和定制服...

职达AI简历
职达AI简历

一个专业的 AI 简历优化平台,提供简历&求职一站式服务...

喵记多APP
喵记多APP

快手推出的边聊天边记录的AI笔记,主要功能包括管理笔记,如剪藏、...

畅图
畅图

一款由摹客推出的AI原生可视化工具,专为个人和团队的创意表达、知...

Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...