首页 > Ai资讯 > Ai产品

Aero-1-Audio：LMMs-Lab开发的一款紧凑型音频模型

Aero-1-Audio于2025-05-02发布在Ai产品

Aero-1-Audio是什么？

Aero-1-Audio是由LMMs-Lab开发的一款紧凑型音频模型，基于Qwen-2.5-1.5B语言模型构建，拥有 24.2 亿参数，采用MIT许可协议。它能高效处理多种音频任务，适合在资源受限情况下部署高质量音频处理功能的场景，比如手机语音助手、会议记录和转写系统、或者课堂实时语音转写等等。

Aero-1-Audio：LMMs-Lab开发的一款紧凑型音频模型.jpg

Aero-1-Audio模型特点

高效性能：Aero-1-Audio 基于 Qwen-2.5-1.5B 构建，不过虽然参数规模较小，但是在多个音频基准测试中都很出色，甚至超越了许多更大规模的ai模型，比如 Whisper、Qwen-2-Audio 和 ElevenLabs/Scribe。
训练效率高：Aero-1-Audio模型仅用 16 个 H100 GPU 在一天内完成训练，使用了约 50 亿个 tokens（相当于 5 万小时音频）的高质量过滤数据。
长音频处理能力强：Aero-1-Audio 能够不需要分割就可以处理长达 15 分钟的连续音频输入，这在当前的音频模型中比较少见。

性能评估

语音识别任务：在 AMI、LibriSpeech 和 SPGISpeech 等数据集上，Aero-1-Audio 的词错误率（WER）最低。在长语音 ASR 测试中，它的性能下降幅度最小。
音频理解任务：在音频分析与理解、语音指令跟随和音频场景理解等多个维度上，Aero-1-Audio 表现都比较出色，优于或媲美其他大型模型。

技术优势

动态批大小：Aero-1-Audio 使用基于 token 长度的动态批处理策略，提高了计算资源利用率。
序列打包：通过序列打包技术结合 Liger 内核融合，平均模型 FLOP 利用率（MFU）从 0.03 提升至 0.34，训练效率得到提高。

Aero-1-Audio应用场景

Aero-1-Audio 只要应用在教育、医疗、娱乐等领域，比如自动生成讲座笔记、辅助医生记录病历、实时生成视频字幕等。

Aero-1-Audio使用方法

安装依赖：需安装特定版本的 transformers 库，命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。
简单演示：通过导入相关库和函数，加载音频，使用AutoProcessor和AutoModelForCausalLM类，构建输入并生成输出，实现音频处理，如转录音频。
批量推理：类似简单演示，可处理多个音频，需调整输入数据格式和参数设置，如设置填充方向等。

常见问题

问：Aero-1-Audio 与其他大型音频模型相比，优势体现在哪些方面？

答：Aero-1-Audio 参数使用更高效，训练数据量比 Qwen-Omni 和 Phi-4 等模型小超 100 倍，但性能仍具竞争力。它还能准确处理长达 15 分钟的连续音频输入，这在其他模型很少见的。

问：使用 Aero-1-Audio 模型进行推理前，需要做哪些准备工作？

答：需安装特定版本的 transformers 库，命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。若想提升性能，可安装flash-attn，命令为pip install --no-build-isolation flash-attn，不想使用flash attn时，也可选择sdpa或eager。

问：Aero-1-Audio 的训练数据有什么特点？

答：训练数据来自 20 多个公开数据集，约 50 亿个标记，对应约 5 万小时音频数据。相比其他模型，它的训练数据量小但样本效率高，能让模型在较小数据量下达到有竞争力的性能。

HuggingFace：https://huggingface.co/lmms-lab/Aero-1-Audio