XVerse:字节跳动推出的多主体图像合成开源工具

XVerse是字节跳动推出的一款多主体图像合成工具,可以实现高精度的多主体图像生成。它通过用户独立且精确地控制多个主体,大大提高复杂场景的生成能力。

XVerse:字节跳动推出的多主体图像合成开源工具

核心功能

  • 多主体控制:XVerse将参考图像转换为文本流调制的偏移量,精确控制每个主体的身份特征,独立调整语义属性(姿势、风格、光照等)。这解决了传统模型在多主体场景中常见的身份混淆和属性纠缠问题,实现了高保真、可编辑的多主体图像合成。

  • 文本流调制增强:通过结合参考图像特征与文本提示特征生成偏移量,并将其注入特定文本标记嵌入,XVerse实现了对每个主体的精确控制,同时保持了生成图像的整体结构,并能精细调整细节。

  • VAE编码图像特征:XVerse引入VAE编码的图像特征作为辅助输入,注入到DiTs的单个块中。这有助于捕捉和再现图像细节信息,避免了直接注入图像特征可能导致的伪影和质量下降。

  • 正则化技术:采用区域保持损失,强制模型在未调制区域保持一致性,区分和保持不同主体的特征。通过文本-图像注意力损失,对齐调制模型和参考T2I分支之间的交叉注意力图,确保模型在调制过程中语义交互的一致性和可编辑性。

XVerse技术原理

  • 文本流调制机制:XVerse将参考图像转换为特定于标记的文本流调制偏移量,添加到模型的文本嵌入中,从而实现对特定主体的精确控制,而不干扰图像潜在变量或特征。

  • VAE编码图像特征模块:为了增强生成图像的细节保留能力,XVerse引入了VAE编码的图像特征模块。该模块作为辅助模块,帮助模型在生成过程中保留更多细节信息,减少伪影和失真。

  • 正则化技术:基于随机保留一侧的调制注入,强制模型在非调制区域保持一致性。正则化主体特定的特征,作为多主体数据集的数据增强策略,提高模型在多主体场景中的区分和保持主体特征的能力。通过计算调制模型和参考T2I分支之间的文本图像交叉注意力图的L2损失,确保调制模型保留与T2I分支一致的注意力模式,保持语义交互的一致性和可编辑性。

XVerse技术原理

应用场景

  • 数字内容创作:XVerse帮助创作者轻松实现对多个主体的精确控制,可用于绘制漫画、创作故事插图、构建复杂虚拟场景等,使作品更生动、丰富、富有想象力。

  • 广告行业:XVerse能够精准控制每个主体的属性,确保广告画面的高保真度和一致性,使广告更引人注目,提升传播效果。

  • 艺术领域:为艺术家提供全新的创作工具,突破传统创作限制,创造独特、富有表现力的艺术作品。

XVerse使用方法

用户需要创建一个包含Python 3.10.16的conda环境,安装依赖项,并下载相关检查点和人脸识别模型。用户界面友好,提供丰富的输入设置选项,包括“检测与分割”功能,可分析上传图像,自动裁剪人脸并生成描述。此外,还提供互动的Gradio演示,用户可以上传图像、输入描述,并实时生成图像,通过调节参数优化效果。

项目地址

项目官网:https://bytedance.github.io/XVerse/

GitHub仓库:https://github.com/bytedance/XVerse

HuggingFace模型库:https://huggingface.co/ByteDance/XVerse

arXiv技术论文:https://arxiv.org/pdf/2506.21416

收藏
最新工具
PlayClassic Games
PlayClassic Games

PlayClassic Games 是一个能让你直接在浏览器里玩...

Modelfy 3D
Modelfy 3D

一个能把2D图片快速变成高质量3D模型的工具,生成的模型最多能有...

DryVocal
DryVocal

一款专业音频处理工具,主要用于从复杂音频中提取和增强人声,特别适...

Yandex Games
Yandex Games

俄罗斯搜索引擎Yandex推出的免费在线游戏网站,聚合了大量风格...

Ace Essay
Ace Essay

一个帮助学生、教育工作者和学术人员优化AI写作的平台,主打学术诚...

The Best Ideas for Kids
The Best Ideas for Kids

Kim创办的儿童手工创意互动平台,为家长、照护者和教师提供亲子活...

CodeWords
CodeWords

一个通过自然语言对话就能创建和执行自动化任务的AI工具。它能简化...

Scrumball
Scrumball

一个网红营销平台,能自动完成找网红到活动追踪的全流程。它有超过1...

LogoSymbol
LogoSymbol

一个提供免费高质量矢量LOGO的网站,有1207多个经过AI优化...

CloneViral AI
CloneViral AI

一个AI视频生成平台,专门帮视频博主做能在YouTube和Tik...