MoshiVis:一款能听还能看,并用流畅的语音跟你讨论图像内容的视觉语音模型

MoshiVis是什么?

MoshiVis 是一个在Moshi基础上开发的一款视觉语音模型,并保持了Moshi的低延迟和自然对话能力,能够以自然对话风格讨论图像内容。支持多轮对话,可以描述图片的文字内容并回答有关于图片的问题。

它通过交叉注意力机制将视觉信息融入语音流,同时保持低延迟和低内存占用。MoshiVis 提供了多种后端支持(如 PyTorch、Rust、MLX),并发布了预训练模型和合成视觉对话数据集,适用于实时语音交互场景。

MoshiVis:一款能听还能看,并用流畅的语音跟你讨论图像内容的视觉语音模型.jpg


MoshiVis核心功能

  • 视觉与语音结合:MoshiVis 在 Moshi 的基础上增加了视觉理解能力,能够将图像信息融入语音对话中。通过扩展核心 Transformer 架构,引入交叉注意力机制,将视觉信息注入语音流中。

  • 低延迟与低内存占用:为了保持低延迟并减少内存使用,MoshiVis 的交叉注意力投影权重在各层之间共享,并通过门控机制调节视觉输入流。

  • 自然对话风格:模型在融入视觉能力的同时,保留了 Moshi 原有的自然对话风格。

MoshiVis技术架构

  • 基础模型:基于 Moshi,一个 7B 参数的语音-文本基础模型。

  • 视觉编码器:使用 PaliGemma2 家族的预训练冻结 400M 视觉编码器。

  • 适配器参数:在 Moshi 基础上增加了约 206M 的适配器参数,用于视觉信息的处理。

  • 交叉注意力机制:通过交叉注意力模块将视觉信息注入语音流,同时通过门控机制调节视觉输入的影响。

MoshiVis技术架构.webp

MoshiVis模型发布

  • 模型变体:发布了基于 Moshika(女声)的 MoshiVis 模型,包含完整的模型权重,包括语音编解码器、文本分词器、图像编码器和基础 Moshi 模型。

  • 后端支持:提供了三种后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。

  • 许可证:模型权重(不包括视觉编码器)在 CC-BY 4.0 许可下发布,视觉编码器在 Gemma 许可下发布。

MoshiVis使用方式

  • WebUI 前端:提供了 WebUI 前端,支持回声消除,提升模型表现。用户可以通过预构建的静态版本或自行编译源代码来使用。

  • 后端运行:

  • PyTorch:需要约 24GB GPU 内存,不支持量化。

  • Rust:支持 GPU 加速,需要 Rust 工具链和 CUDA(或 macOS 上的 Metal)。

  • MLX:支持 bfloat16 和量化(q4、q8)格式。

  • 运行命令:提供了详细的运行命令,用户可以根据需要选择不同的后端和量化格式。

相关链接:

GitHub项目:https://github.com/kyutai-labs/moshivis

HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883

演示:https://vis.moshi.chat/

论文:https://arxiv.org/abs/2503.15633

收藏

相关文章

最新工具
AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...