UniTok:字节开源的一个同时用于生成和理解任务的视觉分词器

UniTok是什么?

UniTok 是字节开源的一个同时用于生成和理解任务的视觉分词器,能够高效地将视觉信息转化为 token,适用于多种自回归生成模型和多模态理解模型。它通过创新的视觉分词技术,能够以极低的 token 数量(如 256 个 token)实现高质量的视觉内容生成,例如图像和视频的重建。

UniTok.webp

UniTok 的核心功能

  • 高效视觉编码:UniTok 能够将复杂的视觉信息(如图像和视频)分解为离散的 token,便于模型处理。

  • 多模态支持:它不仅适用于图像,还能处理视频内容,支持连续和离散分词化。

  • 低资源需求:UniTok 在低 token 数量下仍能保持高重建质量,例如在 256 个 token 下的重建误差仅为 0.39。

  • 灵活的压缩率:用户可以根据需求调整 token 数量,以平衡生成质量和计算效率。

UniTok应用领域

  • 视觉生成任务:如图像和视频重建、语言模型驱动的视觉合成。

  • 多模态理解:结合文本和视觉信息,实现更高效的多模态模型训练。

  • 扩散模型:与 DiT 和 Latte 等扩散模型结合,生成高质量的视觉内容。

UniTok技术实现

UniTok 基于 VQVAE(变分量子化自编码器)和 VAE(变分自编码器)技术,通过两阶段训练实现高效的视觉编码。其训练过程包括:

  • 图像单一分辨率训练:在固定分辨率上进行图像训练。

  • 图像-视频联合多分辨率训练:在多个分辨率上进行图像和视频的联合训练。

  • VAE 微调:通过 KL 损失对 VQVAE 模型进行微调,得到 VAE 模型。

UniTok技术实现.jpg

UniTok优势

  • 单一模型和权重:UniTok 通过单一模型和权重处理图像和视频分词,简化了模型管理和部署。

  • 高适应性:支持高分辨率和长视频输入,适应多种应用场景。

  • 兼容性强:与语言模型和扩散模型兼容,实现多样化的视觉生成。

UniTok 通过多码本量化技术,解决了传统分词器在生成和理解任务中的瓶颈,为多模态大语言模型(MLLMs)提供了一个更高效的解决方案。

项目地址:https://foundationvision.github.io/UniTok/

GitHub仓库:https://github.com/FoundationVision/UniTok

收藏

相关文章

最新工具
Radiocast
Radiocast

一个能听到全球广播的在线平台。界面像三维地球,点一下上面的城市或...

易纸
易纸

一个免费的在线稿纸打印工具,支持方格纸、竖线纸、毛笔字帖、作文纸...

装个机ZhuangIt
装个机ZhuangIt

一个手把手教你自己装系统、重装电脑的实用网站,提供从备份到激活的...

PinMe
PinMe

一款简单实用的去中心化部署工具,能降低个人网站和作品展示的技术门...

RoboNeo
RoboNeo

美图公司推出的 AI 视觉工具,能通过文字交流实现修图、设计、视...

JellyMario
JellyMario

一款改自经典的《超级马里奥》的网页游戏。游戏里的角色、敌人和场景...

MyAITeachers AI吾师
MyAITeachers AI吾师

一个面向 8 岁以上学习者的AI学习辅导工具,有多位 AI 老师...

Presenton
Presenton

一个可以本地运行的开源AI PPT生成器,使用OpenAI、Ge...

Eigent AI
Eigent AI

全球首个桌面端多智能体生产力平台,采用多智能体协作架构,通过拆分...

NB Map
NB Map

灰色执照做的免费在线三维地图生成工具。它能根据真实地形数据,做出...