Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型

Aero-1-Audio是什么?

Aero-1-Audio是由LMMs-Lab开发的一款紧凑型音频模型,基于Qwen-2.5-1.5B语言模型构建,拥有 24.2 亿参数,采用MIT许可协议。它能高效处理多种音频任务,适合在资源受限情况下部署高质量音频处理功能的场景,比如手机语音助手、会议记录和转写系统、或者课堂实时语音转写等等。

Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型.jpg

Aero-1-Audio模型特点

  • 高效性能:Aero-1-Audio 基于 Qwen-2.5-1.5B 构建,不过虽然参数规模较小,但是在多个音频基准测试中都很出色,甚至超越了许多更大规模的ai模型,比如 Whisper、Qwen-2-Audio 和 ElevenLabs/Scribe。

  • 训练效率高:Aero-1-Audio模型仅用 16 个 H100 GPU 在一天内完成训练,使用了约 50 亿个 tokens(相当于 5 万小时音频)的高质量过滤数据。

  • 长音频处理能力强:Aero-1-Audio 能够不需要分割就可以处理长达 15 分钟的连续音频输入,这在当前的音频模型中比较少见。

性能评估

  • 语音识别任务:在 AMI、LibriSpeech 和 SPGISpeech 等数据集上,Aero-1-Audio 的词错误率(WER)最低。在长语音 ASR 测试中,它的性能下降幅度最小。

  • 音频理解任务:在音频分析与理解、语音指令跟随和音频场景理解等多个维度上,Aero-1-Audio 表现都比较出色,优于或媲美其他大型模型。

技术优势

  • 动态批大小:Aero-1-Audio 使用基于 token 长度的动态批处理策略,提高了计算资源利用率。

  • 序列打包:通过序列打包技术结合 Liger 内核融合,平均模型 FLOP 利用率(MFU)从 0.03 提升至 0.34,训练效率得到提高。

Aero-1-Audio应用场景

Aero-1-Audio 只要应用在教育、医疗、娱乐等领域,比如自动生成讲座笔记、辅助医生记录病历、实时生成视频字幕等。

Aero-1-Audio使用方法

  • 安装依赖:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。

  • 简单演示:通过导入相关库和函数,加载音频,使用AutoProcessor和AutoModelForCausalLM类,构建输入并生成输出,实现音频处理,如转录音频。

  • 批量推理:类似简单演示,可处理多个音频,需调整输入数据格式和参数设置,如设置填充方向等。

常见问题

问:Aero-1-Audio 与其他大型音频模型相比,优势体现在哪些方面?

答:Aero-1-Audio 参数使用更高效,训练数据量比 Qwen-Omni 和 Phi-4 等模型小超 100 倍,但性能仍具竞争力。它还能准确处理长达 15 分钟的连续音频输入,这在其他模型很少见的。

问:使用 Aero-1-Audio 模型进行推理前,需要做哪些准备工作?

答:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。若想提升性能,可安装flash-attn,命令为pip install --no-build-isolation flash-attn,不想使用flash attn时,也可选择sdpa或eager。

问:Aero-1-Audio 的训练数据有什么特点?

答:训练数据来自 20 多个公开数据集,约 50 亿个标记,对应约 5 万小时音频数据。相比其他模型,它的训练数据量小但样本效率高,能让模型在较小数据量下达到有竞争力的性能。

HuggingFace:https://huggingface.co/lmms-lab/Aero-1-Audio

收藏
最新工具
SoundWise AI
SoundWise AI

一个完全免费的AI音视频转录工具,能在浏览器里直接把音频和视频转...

Armor Games
Armor Games

全球知名免费在线游戏平台与独立游戏发行商​,ArmorGames...

Social Auto Upload
Social Auto Upload

社交媒体视频一键多平台发布工具​,一站式解决抖音、小红书、视频号...

在线DOS游戏
在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器,适合怀旧玩家和游戏开...

HDLOGO
HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站,提供各类品牌和...

Funes.world
Funes.world

一个在线博物馆项目,通过众包方式把世界各地的建筑做成3D模型,F...

PrettyScale
PrettyScale

一个在线面部分析及颜值打分网站,用户通过上传照片或直接用摄像头参...

圆周旅迹
圆周旅迹

一款旅游出行AI智能规划APP,它可以直接从小红书这些平台导入别...

Wonderplan AI
Wonderplan AI

一个免费的AI旅游规划工具,能根据你的喜好、需求生成专属行程,支...

智写流程
智写流程

一个能自动记录网页操作并生成操作指南的工具。它能捕捉鼠标点击、键...