首页 > Ai资讯 > Ai产品

CreatiDesign模型：用于创意平面设计的统一多条件扩散变换器

CreatiDesign于2025-06-12发布在Ai产品

CreatiDesign 是复旦大学和字节跳动团队合作开发的一款高精度、多模态、可编辑的图形设计生成模型。它能够高精度地生成图形设计，同时处理多种元素，包括主视觉元素、辅助装饰和文本内容，解决了传统方法在多条件输入时的不足。通过精细解耦和独立控制，CreatiDesign 让设计更加可控、一致。

这个模型采用创新的多模态注意力机制，还能自动合成数据，因此在多个评估标准上都超过了现有的顶尖水平。它不仅提高了设计效率，还让用户可以在已有设计的基础上灵活修改，比如添加新元素或调整文本，同时保持整体设计的协调和完整。

CreatiDesign模型：用于创意平面设计的统一多条件扩散变换器.webp

模型架构

CreatiDesign 采用 MM-DiT（多模态扩散变换器）框架，通过简化架构实现了多种不同条件的协同控制。主要特点如下：

多主体图像条件：用户可以输入多个主视觉元素（如产品图、LOGO等），并自由摆放。这些元素经过编码器处理后生成主视觉token，用于后续生成。
语义布局条件：辅助元素或文本的语义描述通过T5文本编码器转换为语义特征token，空间位置信息经傅立叶变换后与语义特征拼接，形成布局token。
全局描述：用户还可以输入整体描述，由T5编码为全局描述token，用于指导整体内容和风格。
多模态注意力机制：在每一层Transformer中，采用多模态注意力（MM-Attention）机制，使不同模态的token深度融合，实现多条件的联合建模和控制。

CreatiDesign 提出了两种专属注意力掩码机制，增强每个条件的独立可控性：

主体注意力掩码（Subject Attention Mask）：主体token仅与指定区域内的图像token交互，与布局token、全局描述token及无关区域的图像token完全隔离，确保主体内容高度还原。
布局注意力掩码（Layout Attention Mask）：每个布局token仅与指定区域内的图像token交互，防止布局元素之间语义串扰。