Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型

Aero-1-Audio是什么?

Aero-1-Audio是由LMMs-Lab开发的一款紧凑型音频模型,基于Qwen-2.5-1.5B语言模型构建,拥有 24.2 亿参数,采用MIT许可协议。它能高效处理多种音频任务,适合在资源受限情况下部署高质量音频处理功能的场景,比如手机语音助手、会议记录和转写系统、或者课堂实时语音转写等等。

Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型.jpg

Aero-1-Audio模型特点

  • 高效性能:Aero-1-Audio 基于 Qwen-2.5-1.5B 构建,不过虽然参数规模较小,但是在多个音频基准测试中都很出色,甚至超越了许多更大规模的ai模型,比如 Whisper、Qwen-2-Audio 和 ElevenLabs/Scribe。

  • 训练效率高:Aero-1-Audio模型仅用 16 个 H100 GPU 在一天内完成训练,使用了约 50 亿个 tokens(相当于 5 万小时音频)的高质量过滤数据。

  • 长音频处理能力强:Aero-1-Audio 能够不需要分割就可以处理长达 15 分钟的连续音频输入,这在当前的音频模型中比较少见。

性能评估

  • 语音识别任务:在 AMI、LibriSpeech 和 SPGISpeech 等数据集上,Aero-1-Audio 的词错误率(WER)最低。在长语音 ASR 测试中,它的性能下降幅度最小。

  • 音频理解任务:在音频分析与理解、语音指令跟随和音频场景理解等多个维度上,Aero-1-Audio 表现都比较出色,优于或媲美其他大型模型。

技术优势

  • 动态批大小:Aero-1-Audio 使用基于 token 长度的动态批处理策略,提高了计算资源利用率。

  • 序列打包:通过序列打包技术结合 Liger 内核融合,平均模型 FLOP 利用率(MFU)从 0.03 提升至 0.34,训练效率得到提高。

Aero-1-Audio应用场景

Aero-1-Audio 只要应用在教育、医疗、娱乐等领域,比如自动生成讲座笔记、辅助医生记录病历、实时生成视频字幕等。

Aero-1-Audio使用方法

  • 安装依赖:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。

  • 简单演示:通过导入相关库和函数,加载音频,使用AutoProcessor和AutoModelForCausalLM类,构建输入并生成输出,实现音频处理,如转录音频。

  • 批量推理:类似简单演示,可处理多个音频,需调整输入数据格式和参数设置,如设置填充方向等。

常见问题

问:Aero-1-Audio 与其他大型音频模型相比,优势体现在哪些方面?

答:Aero-1-Audio 参数使用更高效,训练数据量比 Qwen-Omni 和 Phi-4 等模型小超 100 倍,但性能仍具竞争力。它还能准确处理长达 15 分钟的连续音频输入,这在其他模型很少见的。

问:使用 Aero-1-Audio 模型进行推理前,需要做哪些准备工作?

答:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。若想提升性能,可安装flash-attn,命令为pip install --no-build-isolation flash-attn,不想使用flash attn时,也可选择sdpa或eager。

问:Aero-1-Audio 的训练数据有什么特点?

答:训练数据来自 20 多个公开数据集,约 50 亿个标记,对应约 5 万小时音频数据。相比其他模型,它的训练数据量小但样本效率高,能让模型在较小数据量下达到有竞争力的性能。

HuggingFace:https://huggingface.co/lmms-lab/Aero-1-Audio

收藏
最新工具
JellyMario
JellyMario

一款改自经典的《超级马里奥》的网页游戏。游戏里的角色、敌人和场景...

MyAITeachers AI吾师
MyAITeachers AI吾师

一个面向 8 岁以上学习者的AI学习辅导工具,有多位 AI 老师...

Presenton
Presenton

一个可以本地运行的开源AI PPT生成器,使用OpenAI、Ge...

Eigent AI
Eigent AI

全球首个桌面端多智能体生产力平台,采用多智能体协作架构,通过拆分...

NB Map
NB Map

灰色执照做的免费在线三维地图生成工具。它能根据真实地形数据,做出...

AI Dungeon
AI Dungeon

一款靠AI运行的文字冒险游戏。玩家可以自己选或创建冒险场景,像幻...

PairDrop
PairDrop

一款开源的跨平台文件传输工具,能通过在其他设备打开它、配对设备或...

Oldswf
Oldswf

专门提供经典Flash小游戏的网站,收录了超过5万多不同类型的游...

AutoClip
AutoClip

一款AI智能视频切片工具,能自动下载B站视频、剪辑精彩片段并生成...

EdClub
EdClub

一个提供高品质课程的学习平台,EdClub主要提供打字学习、词汇...