首页 > Ai资讯 > Ai产品

UniTok：字节开源的一个同时用于生成和理解任务的视觉分词器

映技派于2025-03-03发布在Ai产品

UniTok是什么？

UniTok 是字节开源的一个同时用于生成和理解任务的视觉分词器，能够高效地将视觉信息转化为 token，适用于多种自回归生成模型和多模态理解模型。它通过创新的视觉分词技术，能够以极低的 token 数量（如 256 个 token）实现高质量的视觉内容生成，例如图像和视频的重建。

UniTok 的核心功能

高效视觉编码：UniTok 能够将复杂的视觉信息（如图像和视频）分解为离散的 token，便于模型处理。
多模态支持：它不仅适用于图像，还能处理视频内容，支持连续和离散分词化。
低资源需求：UniTok 在低 token 数量下仍能保持高重建质量，例如在 256 个 token 下的重建误差仅为 0.39。
灵活的压缩率：用户可以根据需求调整 token 数量，以平衡生成质量和计算效率。

UniTok应用领域

视觉生成任务：如图像和视频重建、语言模型驱动的视觉合成。
多模态理解：结合文本和视觉信息，实现更高效的多模态模型训练。
扩散模型：与 DiT 和 Latte 等扩散模型结合，生成高质量的视觉内容。

UniTok技术实现

UniTok 基于 VQVAE（变分量子化自编码器）和 VAE（变分自编码器）技术，通过两阶段训练实现高效的视觉编码。其训练过程包括：

图像单一分辨率训练：在固定分辨率上进行图像训练。
图像-视频联合多分辨率训练：在多个分辨率上进行图像和视频的联合训练。
VAE 微调：通过 KL 损失对 VQVAE 模型进行微调，得到 VAE 模型。

UniTok技术实现.jpg

UniTok优势

单一模型和权重：UniTok 通过单一模型和权重处理图像和视频分词，简化了模型管理和部署。
高适应性：支持高分辨率和长视频输入，适应多种应用场景。
兼容性强：与语言模型和扩散模型兼容，实现多样化的视觉生成。

UniTok 通过多码本量化技术，解决了传统分词器在生成和理解任务中的瓶颈，为多模态大语言模型（MLLMs）提供了一个更高效的解决方案。

项目地址：https://foundationvision.github.io/UniTok/

GitHub仓库：https://github.com/FoundationVision/UniTok

Microsoft Dragon Copilot:微软发布的语音和文本的混合架构AI医疗助手

Siri Ultra：开源项目，支持联网、多轮对话，支持DeepSeek系列模型

最新工具

Wplace Paint Tool

一款为Wplace游戏玩家设计的像素艺术转换工具，它可以将任何的...

Pixie.haus

一个像素艺术生成工具，能帮你把图片转成像素风格，也能直接生成像素...

全新万能复制

也叫网页万能复制，是一款能帮你解除网页复制限制的工具，可以轻松复...

Awesome-Nano-Banana

JimmyLv创建的GitHub仓库，专门收集和展示Google...

Graphy.App

Graphy.App是一款免费的在线图表制作工具，它可以将杂乱的...

Doodle-Cursor-Maker

小红书网友_koooi_开发的涂鸦光标制作工具，主要功能有画光标...

TypingClub

edclub 开发的免费网页打字学习工具，TypingClub通...

AIOCmaker

一个专注帮游戏玩家、动漫迷、写作者和独立开发者制作原创角色的专业...

ChessWan

中国象棋学习网是一个教象棋、帮人交流棋艺的网站，给不同水平的人提...

Tetranoid.io

一款多人在线游戏，玩法源自经典街机游戏 Arkanoid。游戏做...

用户登录