CreatiDesign模型:用于创意平面设计的统一多条件扩散变换器

CreatiDesign 是复旦大学和字节跳动团队合作开发的一款高精度、多模态、可编辑的图形设计生成模型。它能够高精度地生成图形设计,同时处理多种元素,包括主视觉元素、辅助装饰和文本内容,解决了传统方法在多条件输入时的不足。通过精细解耦和独立控制,CreatiDesign 让设计更加可控、一致。

这个模型采用创新的多模态注意力机制,还能自动合成数据,因此在多个评估标准上都超过了现有的顶尖水平。它不仅提高了设计效率,还让用户可以在已有设计的基础上灵活修改,比如添加新元素或调整文本,同时保持整体设计的协调和完整。

CreatiDesign模型:用于创意平面设计的统一多条件扩散变换器.webp

模型架构

CreatiDesign 采用 MM-DiT(多模态扩散变换器)框架,通过简化架构实现了多种不同条件的协同控制。主要特点如下:

  • 多主体图像条件:用户可以输入多个主视觉元素(如产品图、LOGO等),并自由摆放。这些元素经过编码器处理后生成主视觉token,用于后续生成。

  • 语义布局条件:辅助元素或文本的语义描述通过T5文本编码器转换为语义特征token,空间位置信息经傅立叶变换后与语义特征拼接,形成布局token。

  • 全局描述:用户还可以输入整体描述,由T5编码为全局描述token,用于指导整体内容和风格。

  • 多模态注意力机制:在每一层Transformer中,采用多模态注意力(MM-Attention)机制,使不同模态的token深度融合,实现多条件的联合建模和控制。

独立可控性

CreatiDesign 提出了两种专属注意力掩码机制,增强每个条件的独立可控性:

  • 主体注意力掩码(Subject Attention Mask):主体token仅与指定区域内的图像token交互,与布局token、全局描述token及无关区域的图像token完全隔离,确保主体内容高度还原。

  • 布局注意力掩码(Layout Attention Mask):每个布局token仅与指定区域内的图像token交互,防止布局元素之间语义串扰。

数据集

CreatiDesign 构建了包含40万样本的大规模多条件标注数据集,满足实际设计需求。此外,还提出了全自动平面设计数据合成流程,包括主题生成、文本图层渲染和基于前景的图像生成。

应用场景

CreatiDesign 可以生成各种平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。它还支持多轮编辑,用户可以在已有设计结果上灵活插入新文本或主体,或修改文本内容,模型能够精准编辑指定区域,同时保持非编辑区域的内容不变。

优势

相比以往的可控扩散模型,CreatiDesign 在多条件异质信息统一建模、多条件精细解耦与区域独立控制以及大规模高质量数据支持等方面表现出色。它解决了以往模型在处理图形设计时存在的“偏科”或缺乏精准可控性的问题。

项目链接

技术论文:https://arxiv.org/pdf/2505.19114

项目主页:https://huizhang0812.github.io/CreatiDesign/

Github:https://github.com/HuiZhang0812/CreatiDesign

HuggingFace:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset


收藏
最新工具
ZColoring
ZColoring

一个基于AI的在线着色页生成器,能根据用户输入的文字描述快速生成...

Worldvectorlogo
Worldvectorlogo

全球矢量logo素材免费下载网站,收录了全球众多知名品牌和公司的...

Radio.Garden
Radio.Garden

广播花园,一个网络交互式在线广播平台,由荷兰奈梅亨雷德克斯大学开...

IndexTTS
IndexTTS

B站基于XTTS和Tortoise开发的文本转语音模型,具备工业...

AI Word
AI Word

一站式SEO文章工具,支持普通搜索和AI搜索收录,能批量生成SE...

Rubii AI
Rubii AI

是个基于AI技术的二次元角色创作和聊天机器人平台,能让用户创建有...

Traycer
Traycer

一个适用于大型代码库的AI编程助手,能把复杂需求拆成并行文件任务...

Doclingo
Doclingo

TONDA K.K. 开发的文档翻译软件,支持 PDF、Word...

飞搜侠
飞搜侠

一款飞书文档搜索神器,能帮助用户快速找到所需的飞书文档。包括智能...

InstantMind
InstantMind

AI 思维导图生成器和摘要工具,可以将文本、30+种文件格式、Y...