Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型

Aero-1-Audio是什么?

Aero-1-Audio是由LMMs-Lab开发的一款紧凑型音频模型,基于Qwen-2.5-1.5B语言模型构建,拥有 24.2 亿参数,采用MIT许可协议。它能高效处理多种音频任务,适合在资源受限情况下部署高质量音频处理功能的场景,比如手机语音助手、会议记录和转写系统、或者课堂实时语音转写等等。

Aero-1-Audio:LMMs-Lab开发的一款紧凑型音频模型.jpg

Aero-1-Audio模型特点

  • 高效性能:Aero-1-Audio 基于 Qwen-2.5-1.5B 构建,不过虽然参数规模较小,但是在多个音频基准测试中都很出色,甚至超越了许多更大规模的ai模型,比如 Whisper、Qwen-2-Audio 和 ElevenLabs/Scribe。

  • 训练效率高:Aero-1-Audio模型仅用 16 个 H100 GPU 在一天内完成训练,使用了约 50 亿个 tokens(相当于 5 万小时音频)的高质量过滤数据。

  • 长音频处理能力强:Aero-1-Audio 能够不需要分割就可以处理长达 15 分钟的连续音频输入,这在当前的音频模型中比较少见。

性能评估

  • 语音识别任务:在 AMI、LibriSpeech 和 SPGISpeech 等数据集上,Aero-1-Audio 的词错误率(WER)最低。在长语音 ASR 测试中,它的性能下降幅度最小。

  • 音频理解任务:在音频分析与理解、语音指令跟随和音频场景理解等多个维度上,Aero-1-Audio 表现都比较出色,优于或媲美其他大型模型。

技术优势

  • 动态批大小:Aero-1-Audio 使用基于 token 长度的动态批处理策略,提高了计算资源利用率。

  • 序列打包:通过序列打包技术结合 Liger 内核融合,平均模型 FLOP 利用率(MFU)从 0.03 提升至 0.34,训练效率得到提高。

Aero-1-Audio应用场景

Aero-1-Audio 只要应用在教育、医疗、娱乐等领域,比如自动生成讲座笔记、辅助医生记录病历、实时生成视频字幕等。

Aero-1-Audio使用方法

  • 安装依赖:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。

  • 简单演示:通过导入相关库和函数,加载音频,使用AutoProcessor和AutoModelForCausalLM类,构建输入并生成输出,实现音频处理,如转录音频。

  • 批量推理:类似简单演示,可处理多个音频,需调整输入数据格式和参数设置,如设置填充方向等。

常见问题

问:Aero-1-Audio 与其他大型音频模型相比,优势体现在哪些方面?

答:Aero-1-Audio 参数使用更高效,训练数据量比 Qwen-Omni 和 Phi-4 等模型小超 100 倍,但性能仍具竞争力。它还能准确处理长达 15 分钟的连续音频输入,这在其他模型很少见的。

问:使用 Aero-1-Audio 模型进行推理前,需要做哪些准备工作?

答:需安装特定版本的 transformers 库,命令为python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview。若想提升性能,可安装flash-attn,命令为pip install --no-build-isolation flash-attn,不想使用flash attn时,也可选择sdpa或eager。

问:Aero-1-Audio 的训练数据有什么特点?

答:训练数据来自 20 多个公开数据集,约 50 亿个标记,对应约 5 万小时音频数据。相比其他模型,它的训练数据量小但样本效率高,能让模型在较小数据量下达到有竞争力的性能。

HuggingFace:https://huggingface.co/lmms-lab/Aero-1-Audio

收藏
最新工具
DrFonts
DrFonts

一个AI字体生成工具,它能把手写的PNG图片,比如纸上的字稿,自...

Coding Adventure
Coding Adventure

一个面向小学三年级到初中学生的游戏化编程学习平台。学生用真实编程...

Vert.sh
Vert.sh

一款完全免费、开源的文件转换工具,支持图片、音频、文档的本地处理...

Windrecorder
Windrecorder

捕风记录仪,一款开源的屏幕录制与检索工具,它记录屏幕内容来实现记...

Custom Cursor
Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...

橙子8设计
橙子8设计

一站式AI电商图片制作平台,专为电商和跨境卖家服务。不用专业设计...

Sandspiel
Sandspiel

一款基于细胞自动机和实时物理的开源像素沙盘游戏,玩家可以在虚拟沙...

印象地图
印象地图

这是个可以帮你记住全国省市位置的测试工具。打开网站就能用,选个模...

Sandtris
Sandtris

一款把经典俄罗斯方块和流沙物理效果结合的休闲游戏。玩家需要利用沙...

Maze Toys
Maze Toys

一个以迷宫游戏为主的网站,提供多种类型的迷宫玩法,包括Mini、...