UniTok:字节开源的一个同时用于生成和理解任务的视觉分词器

UniTok是什么?

UniTok 是字节开源的一个同时用于生成和理解任务的视觉分词器,能够高效地将视觉信息转化为 token,适用于多种自回归生成模型和多模态理解模型。它通过创新的视觉分词技术,能够以极低的 token 数量(如 256 个 token)实现高质量的视觉内容生成,例如图像和视频的重建。

UniTok.webp

UniTok 的核心功能

  • 高效视觉编码:UniTok 能够将复杂的视觉信息(如图像和视频)分解为离散的 token,便于模型处理。

  • 多模态支持:它不仅适用于图像,还能处理视频内容,支持连续和离散分词化。

  • 低资源需求:UniTok 在低 token 数量下仍能保持高重建质量,例如在 256 个 token 下的重建误差仅为 0.39。

  • 灵活的压缩率:用户可以根据需求调整 token 数量,以平衡生成质量和计算效率。

UniTok应用领域

  • 视觉生成任务:如图像和视频重建、语言模型驱动的视觉合成。

  • 多模态理解:结合文本和视觉信息,实现更高效的多模态模型训练。

  • 扩散模型:与 DiT 和 Latte 等扩散模型结合,生成高质量的视觉内容。

UniTok技术实现

UniTok 基于 VQVAE(变分量子化自编码器)和 VAE(变分自编码器)技术,通过两阶段训练实现高效的视觉编码。其训练过程包括:

  • 图像单一分辨率训练:在固定分辨率上进行图像训练。

  • 图像-视频联合多分辨率训练:在多个分辨率上进行图像和视频的联合训练。

  • VAE 微调:通过 KL 损失对 VQVAE 模型进行微调,得到 VAE 模型。

UniTok技术实现.jpg

UniTok优势

  • 单一模型和权重:UniTok 通过单一模型和权重处理图像和视频分词,简化了模型管理和部署。

  • 高适应性:支持高分辨率和长视频输入,适应多种应用场景。

  • 兼容性强:与语言模型和扩散模型兼容,实现多样化的视觉生成。

UniTok 通过多码本量化技术,解决了传统分词器在生成和理解任务中的瓶颈,为多模态大语言模型(MLLMs)提供了一个更高效的解决方案。

项目地址:https://foundationvision.github.io/UniTok/

GitHub仓库:https://github.com/FoundationVision/UniTok

收藏

相关文章

最新工具
达探星
达探星

一款TikTok达人邀约工具,特别适合TikTok小店用来爆单。...

ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...