CreatiDesign模型:用于创意平面设计的统一多条件扩散变换器

CreatiDesign 是复旦大学和字节跳动团队合作开发的一款高精度、多模态、可编辑的图形设计生成模型。它能够高精度地生成图形设计,同时处理多种元素,包括主视觉元素、辅助装饰和文本内容,解决了传统方法在多条件输入时的不足。通过精细解耦和独立控制,CreatiDesign 让设计更加可控、一致。

这个模型采用创新的多模态注意力机制,还能自动合成数据,因此在多个评估标准上都超过了现有的顶尖水平。它不仅提高了设计效率,还让用户可以在已有设计的基础上灵活修改,比如添加新元素或调整文本,同时保持整体设计的协调和完整。

CreatiDesign模型:用于创意平面设计的统一多条件扩散变换器.webp

模型架构

CreatiDesign 采用 MM-DiT(多模态扩散变换器)框架,通过简化架构实现了多种不同条件的协同控制。主要特点如下:

  • 多主体图像条件:用户可以输入多个主视觉元素(如产品图、LOGO等),并自由摆放。这些元素经过编码器处理后生成主视觉token,用于后续生成。

  • 语义布局条件:辅助元素或文本的语义描述通过T5文本编码器转换为语义特征token,空间位置信息经傅立叶变换后与语义特征拼接,形成布局token。

  • 全局描述:用户还可以输入整体描述,由T5编码为全局描述token,用于指导整体内容和风格。

  • 多模态注意力机制:在每一层Transformer中,采用多模态注意力(MM-Attention)机制,使不同模态的token深度融合,实现多条件的联合建模和控制。

独立可控性

CreatiDesign 提出了两种专属注意力掩码机制,增强每个条件的独立可控性:

  • 主体注意力掩码(Subject Attention Mask):主体token仅与指定区域内的图像token交互,与布局token、全局描述token及无关区域的图像token完全隔离,确保主体内容高度还原。

  • 布局注意力掩码(Layout Attention Mask):每个布局token仅与指定区域内的图像token交互,防止布局元素之间语义串扰。

数据集

CreatiDesign 构建了包含40万样本的大规模多条件标注数据集,满足实际设计需求。此外,还提出了全自动平面设计数据合成流程,包括主题生成、文本图层渲染和基于前景的图像生成。

应用场景

CreatiDesign 可以生成各种平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。它还支持多轮编辑,用户可以在已有设计结果上灵活插入新文本或主体,或修改文本内容,模型能够精准编辑指定区域,同时保持非编辑区域的内容不变。

优势

相比以往的可控扩散模型,CreatiDesign 在多条件异质信息统一建模、多条件精细解耦与区域独立控制以及大规模高质量数据支持等方面表现出色。它解决了以往模型在处理图形设计时存在的“偏科”或缺乏精准可控性的问题。

项目链接

技术论文:https://arxiv.org/pdf/2505.19114

项目主页:https://huizhang0812.github.io/CreatiDesign/

Github:https://github.com/HuiZhang0812/CreatiDesign

HuggingFace:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset


收藏
最新工具
快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...

MindLuster
MindLuster

中东和北非地区最大的一个免费在线课程平台,和哈佛、斯坦福、麻省理...

ArticleRewriterTool
ArticleRewriterTool

一个免费的在线文章、句子及段落改写工具,用 AI 技术优化内容,...

RetroGames.onl
RetroGames.onl

一个能在线玩复古游戏的游戏平台,直接用浏览器就能免费玩经典游戏机...

Tailornova
Tailornova

一款在线服装设计工具,可以在3D模型上实时预览修改设计,还提供F...

Ubersuggest
Ubersuggest

SEO专家Neil Patel买下后升级的SEO工具,能帮人做关...

比邻AI
比邻AI

一个能跨语言搜索的工具,支持多语言查找和翻译,能自动筛掉假消息和...

BGA
BGA

全称Board Game Arena,全世界最大的桌游平台,和全...

GemDesign
GemDesign

一款AI时代的高保真原型设计工具,能帮用户通过文字或图片快速生成...