MoshiVis:一款能听还能看,并用流畅的语音跟你讨论图像内容的视觉语音模型

MoshiVis是什么?

MoshiVis 是一个在Moshi基础上开发的一款视觉语音模型,并保持了Moshi的低延迟和自然对话能力,能够以自然对话风格讨论图像内容。支持多轮对话,可以描述图片的文字内容并回答有关于图片的问题。

它通过交叉注意力机制将视觉信息融入语音流,同时保持低延迟和低内存占用。MoshiVis 提供了多种后端支持(如 PyTorch、Rust、MLX),并发布了预训练模型和合成视觉对话数据集,适用于实时语音交互场景。

MoshiVis:一款能听还能看,并用流畅的语音跟你讨论图像内容的视觉语音模型.jpg


MoshiVis核心功能

  • 视觉与语音结合:MoshiVis 在 Moshi 的基础上增加了视觉理解能力,能够将图像信息融入语音对话中。通过扩展核心 Transformer 架构,引入交叉注意力机制,将视觉信息注入语音流中。

  • 低延迟与低内存占用:为了保持低延迟并减少内存使用,MoshiVis 的交叉注意力投影权重在各层之间共享,并通过门控机制调节视觉输入流。

  • 自然对话风格:模型在融入视觉能力的同时,保留了 Moshi 原有的自然对话风格。

MoshiVis技术架构

  • 基础模型:基于 Moshi,一个 7B 参数的语音-文本基础模型。

  • 视觉编码器:使用 PaliGemma2 家族的预训练冻结 400M 视觉编码器。

  • 适配器参数:在 Moshi 基础上增加了约 206M 的适配器参数,用于视觉信息的处理。

  • 交叉注意力机制:通过交叉注意力模块将视觉信息注入语音流,同时通过门控机制调节视觉输入的影响。

MoshiVis技术架构.webp

MoshiVis模型发布

  • 模型变体:发布了基于 Moshika(女声)的 MoshiVis 模型,包含完整的模型权重,包括语音编解码器、文本分词器、图像编码器和基础 Moshi 模型。

  • 后端支持:提供了三种后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。

  • 许可证:模型权重(不包括视觉编码器)在 CC-BY 4.0 许可下发布,视觉编码器在 Gemma 许可下发布。

MoshiVis使用方式

  • WebUI 前端:提供了 WebUI 前端,支持回声消除,提升模型表现。用户可以通过预构建的静态版本或自行编译源代码来使用。

  • 后端运行:

  • PyTorch:需要约 24GB GPU 内存,不支持量化。

  • Rust:支持 GPU 加速,需要 Rust 工具链和 CUDA(或 macOS 上的 Metal)。

  • MLX:支持 bfloat16 和量化(q4、q8)格式。

  • 运行命令:提供了详细的运行命令,用户可以根据需要选择不同的后端和量化格式。

相关链接:

GitHub项目:https://github.com/kyutai-labs/moshivis

HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883

演示:https://vis.moshi.chat/

论文:https://arxiv.org/abs/2503.15633

收藏

相关文章

最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...