CreatiDesign模型:用于创意平面设计的统一多条件扩散变换器
CreatiDesign 是复旦大学和字节跳动团队合作开发的一款高精度、多模态、可编辑的图形设计生成模型。它能够高精度地生成图形设计,同时处理多种元素,包括主视觉元素、辅助装饰和文本内容,解决了传统方法在多条件输入时的不足。通过精细解耦和独立控制,CreatiDesign 让设计更加可控、一致。
这个模型采用创新的多模态注意力机制,还能自动合成数据,因此在多个评估标准上都超过了现有的顶尖水平。它不仅提高了设计效率,还让用户可以在已有设计的基础上灵活修改,比如添加新元素或调整文本,同时保持整体设计的协调和完整。
模型架构
CreatiDesign 采用 MM-DiT(多模态扩散变换器)框架,通过简化架构实现了多种不同条件的协同控制。主要特点如下:
多主体图像条件:用户可以输入多个主视觉元素(如产品图、LOGO等),并自由摆放。这些元素经过编码器处理后生成主视觉token,用于后续生成。
语义布局条件:辅助元素或文本的语义描述通过T5文本编码器转换为语义特征token,空间位置信息经傅立叶变换后与语义特征拼接,形成布局token。
全局描述:用户还可以输入整体描述,由T5编码为全局描述token,用于指导整体内容和风格。
多模态注意力机制:在每一层Transformer中,采用多模态注意力(MM-Attention)机制,使不同模态的token深度融合,实现多条件的联合建模和控制。
独立可控性
CreatiDesign 提出了两种专属注意力掩码机制,增强每个条件的独立可控性:
主体注意力掩码(Subject Attention Mask):主体token仅与指定区域内的图像token交互,与布局token、全局描述token及无关区域的图像token完全隔离,确保主体内容高度还原。
布局注意力掩码(Layout Attention Mask):每个布局token仅与指定区域内的图像token交互,防止布局元素之间语义串扰。
数据集
CreatiDesign 构建了包含40万样本的大规模多条件标注数据集,满足实际设计需求。此外,还提出了全自动平面设计数据合成流程,包括主题生成、文本图层渲染和基于前景的图像生成。
应用场景
CreatiDesign 可以生成各种平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。它还支持多轮编辑,用户可以在已有设计结果上灵活插入新文本或主体,或修改文本内容,模型能够精准编辑指定区域,同时保持非编辑区域的内容不变。
优势
相比以往的可控扩散模型,CreatiDesign 在多条件异质信息统一建模、多条件精细解耦与区域独立控制以及大规模高质量数据支持等方面表现出色。它解决了以往模型在处理图形设计时存在的“偏科”或缺乏精准可控性的问题。
项目链接
技术论文:https://arxiv.org/pdf/2505.19114
项目主页:https://huizhang0812.github.io/CreatiDesign/
Github:https://github.com/HuiZhang0812/CreatiDesign
HuggingFace:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset