首页 > Ai资讯 > Ai产品

PosterCraft：高质量海报生成框架

映技派于2025-06-24发布在Ai产品

PosterCraft 是 2025 年 6 月由香港科技大学（广州）、美团、厦门大学和新加坡国立大学研究团队联合提出的海报生成框架，PosterCraft通过文字精准渲染与美学风格优化，结合区域感知校准和强化学习技术，增强海报的艺术完整性与整体协调性。同时借助视觉 - 语言反馈机制，经多模态修正优化美学效果。

在数据集构建上，PosterCraft 开发了多个高质量数据集，满足不同文本渲染和海报生成需求，为符合人类审美标准的海报创作奠定基础。

PosterCraft：高质量海报生成框架 .io.webp

其核心功能包括：

精确文字渲染：在高质量背景上准确呈现多样化文字，确保文字与背景和谐统一，解决文本渲染保真度不足的问题。
美学风格优化：利用区域感知校准技术，强化海报艺术完整性，保持文字准确性，构建文字与背景的和谐视觉关系。
美学偏好优化：通过强化学习技术，依据整体美学标准优化输出，减少字体渲染缺陷，使模型学习构图平衡、色彩和谐等高阶美学偏好。
视觉 - 语言反馈：借助联合视觉 - 语言调节机制，结合视觉信息与针对性文字建议进行多模态修正，逐步优化海报美学内容与背景协调性。

PosterCraft 的工作流程分为四个阶段：

文本渲染优化：在自建的 Text-Render-2M 数据集（包含 200 万高质量文本渲染示例，支持多实例文本渲染及多样化文本选择）上大规模训练，提升模型文本渲染保真度。
海报风格微调：使用 HQ-Poster-100K 数据集（10 万张高质量海报集合，采用先进过滤技术、多模态评分系统等）和区域感知校准策略微调，使模型学习文本与背景的和谐共存。
美学文本强化学习：采用基于 best-of-n 的 DPO 策略，让模型从多个版本海报的对比中学习构图平衡、色彩和谐等高阶美学偏好。
视觉 - 语言反馈：引入基于 VLM 的多模态反馈，在生成过程中对内容和风格进行迭代精炼与修正，生成后可根据设计建议调整优化。

该框架的技术优势体现在：

统一框架设计：摒弃 “规划 - 生成” 模块化流程，实现文本输入到海报输出的端到端生成，保证视觉连贯性。
自动化数据集构建：为各优化阶段设计专属全自动数据集，解决数据稀缺问题。
级联优化策略：

大规模文本渲染优化：利用高质量数据集专注文本渲染，保证背景渲染能力。
区域感知校准：微调时对文本和非文本区域赋予不同权重，保留文本清晰度并强化艺术风格。
基于偏好的强化学习：通过 “最优 / 最差” 样本对学习，注入人类美学偏好。
多模态反馈循环：推理时引入多模态生成修正建议，融入条件输入迭代优化结果。

测试表明，PosterCraft 在文本渲染准确性、美学质量和布局结构等方面持续超越现有先进方法，与商业系统相比也具竞争力。该模型能处理复杂提示并保持视觉一致性，无论长文本还是短提示都可生成高质量海报。其优势在于从单一提示直接生成海报，无需额外模块或人工调整，为电影海报、活动宣传、产品推广等场景提供快速高效的可扩展解决方案，且不降低美学质量。