UniTok:字节开源的一个同时用于生成和理解任务的视觉分词器

UniTok是什么?

UniTok 是字节开源的一个同时用于生成和理解任务的视觉分词器,能够高效地将视觉信息转化为 token,适用于多种自回归生成模型和多模态理解模型。它通过创新的视觉分词技术,能够以极低的 token 数量(如 256 个 token)实现高质量的视觉内容生成,例如图像和视频的重建。

UniTok.webp

UniTok 的核心功能

  • 高效视觉编码:UniTok 能够将复杂的视觉信息(如图像和视频)分解为离散的 token,便于模型处理。

  • 多模态支持:它不仅适用于图像,还能处理视频内容,支持连续和离散分词化。

  • 低资源需求:UniTok 在低 token 数量下仍能保持高重建质量,例如在 256 个 token 下的重建误差仅为 0.39。

  • 灵活的压缩率:用户可以根据需求调整 token 数量,以平衡生成质量和计算效率。

UniTok应用领域

  • 视觉生成任务:如图像和视频重建、语言模型驱动的视觉合成。

  • 多模态理解:结合文本和视觉信息,实现更高效的多模态模型训练。

  • 扩散模型:与 DiT 和 Latte 等扩散模型结合,生成高质量的视觉内容。

UniTok技术实现

UniTok 基于 VQVAE(变分量子化自编码器)和 VAE(变分自编码器)技术,通过两阶段训练实现高效的视觉编码。其训练过程包括:

  • 图像单一分辨率训练:在固定分辨率上进行图像训练。

  • 图像-视频联合多分辨率训练:在多个分辨率上进行图像和视频的联合训练。

  • VAE 微调:通过 KL 损失对 VQVAE 模型进行微调,得到 VAE 模型。

UniTok技术实现.jpg

UniTok优势

  • 单一模型和权重:UniTok 通过单一模型和权重处理图像和视频分词,简化了模型管理和部署。

  • 高适应性:支持高分辨率和长视频输入,适应多种应用场景。

  • 兼容性强:与语言模型和扩散模型兼容,实现多样化的视觉生成。

UniTok 通过多码本量化技术,解决了传统分词器在生成和理解任务中的瓶颈,为多模态大语言模型(MLLMs)提供了一个更高效的解决方案。

项目地址:https://foundationvision.github.io/UniTok/

GitHub仓库:https://github.com/FoundationVision/UniTok

收藏

相关文章

最新工具
喵记多APP
喵记多APP

快手推出的边聊天边记录的AI笔记,主要功能包括管理笔记,如剪藏、...

畅图
畅图

一款由摹客推出的AI原生可视化工具,专为个人和团队的创意表达、知...

Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...