CreatiDesign模型:用于创意平面设计的统一多条件扩散变换器

CreatiDesign 是复旦大学和字节跳动团队合作开发的一款高精度、多模态、可编辑的图形设计生成模型。它能够高精度地生成图形设计,同时处理多种元素,包括主视觉元素、辅助装饰和文本内容,解决了传统方法在多条件输入时的不足。通过精细解耦和独立控制,CreatiDesign 让设计更加可控、一致。

这个模型采用创新的多模态注意力机制,还能自动合成数据,因此在多个评估标准上都超过了现有的顶尖水平。它不仅提高了设计效率,还让用户可以在已有设计的基础上灵活修改,比如添加新元素或调整文本,同时保持整体设计的协调和完整。

CreatiDesign模型:用于创意平面设计的统一多条件扩散变换器.webp

模型架构

CreatiDesign 采用 MM-DiT(多模态扩散变换器)框架,通过简化架构实现了多种不同条件的协同控制。主要特点如下:

  • 多主体图像条件:用户可以输入多个主视觉元素(如产品图、LOGO等),并自由摆放。这些元素经过编码器处理后生成主视觉token,用于后续生成。

  • 语义布局条件:辅助元素或文本的语义描述通过T5文本编码器转换为语义特征token,空间位置信息经傅立叶变换后与语义特征拼接,形成布局token。

  • 全局描述:用户还可以输入整体描述,由T5编码为全局描述token,用于指导整体内容和风格。

  • 多模态注意力机制:在每一层Transformer中,采用多模态注意力(MM-Attention)机制,使不同模态的token深度融合,实现多条件的联合建模和控制。

独立可控性

CreatiDesign 提出了两种专属注意力掩码机制,增强每个条件的独立可控性:

  • 主体注意力掩码(Subject Attention Mask):主体token仅与指定区域内的图像token交互,与布局token、全局描述token及无关区域的图像token完全隔离,确保主体内容高度还原。

  • 布局注意力掩码(Layout Attention Mask):每个布局token仅与指定区域内的图像token交互,防止布局元素之间语义串扰。

数据集

CreatiDesign 构建了包含40万样本的大规模多条件标注数据集,满足实际设计需求。此外,还提出了全自动平面设计数据合成流程,包括主题生成、文本图层渲染和基于前景的图像生成。

应用场景

CreatiDesign 可以生成各种平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。它还支持多轮编辑,用户可以在已有设计结果上灵活插入新文本或主体,或修改文本内容,模型能够精准编辑指定区域,同时保持非编辑区域的内容不变。

优势

相比以往的可控扩散模型,CreatiDesign 在多条件异质信息统一建模、多条件精细解耦与区域独立控制以及大规模高质量数据支持等方面表现出色。它解决了以往模型在处理图形设计时存在的“偏科”或缺乏精准可控性的问题。

项目链接

技术论文:https://arxiv.org/pdf/2505.19114

项目主页:https://huizhang0812.github.io/CreatiDesign/

Github:https://github.com/HuiZhang0812/CreatiDesign

HuggingFace:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset


收藏
最新工具
ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...

美团NoCode
美团NoCode

美团推出的一款对话式AI编程智能体产品,是一款不需要编程背景和经...

易剪媒
易剪媒

免广告、无费用的聚合式Ai媒体批量处理工具,提供视频翻译、万能资...

ResumeToJob
ResumeToJob

一个免费开源的在线简历生成器,用户可以实时编辑简历并一键导出 P...

BrowserAct
BrowserAct

一个基于AI的云浏览器自动化工具,可以从任何网站抓取数据和自动化...

聚观新闻推
聚观新闻推

聚观传媒旗下的一个软文发稿平台,能帮企业做品牌宣传推广,提供很多...