PosterCraft:高质量海报生成框架
PosterCraft 是 2025 年 6 月由香港科技大学(广州)、美团、厦门大学和新加坡国立大学研究团队联合提出的海报生成框架,PosterCraft通过文字精准渲染与美学风格优化,结合区域感知校准和强化学习技术,增强海报的艺术完整性与整体协调性。同时借助视觉 - 语言反馈机制,经多模态修正优化美学效果。
在数据集构建上,PosterCraft 开发了多个高质量数据集,满足不同文本渲染和海报生成需求,为符合人类审美标准的海报创作奠定基础。
其核心功能包括:
精确文字渲染:在高质量背景上准确呈现多样化文字,确保文字与背景和谐统一,解决文本渲染保真度不足的问题。
美学风格优化:利用区域感知校准技术,强化海报艺术完整性,保持文字准确性,构建文字与背景的和谐视觉关系。
美学偏好优化:通过强化学习技术,依据整体美学标准优化输出,减少字体渲染缺陷,使模型学习构图平衡、色彩和谐等高阶美学偏好。
视觉 - 语言反馈:借助联合视觉 - 语言调节机制,结合视觉信息与针对性文字建议进行多模态修正,逐步优化海报美学内容与背景协调性。
PosterCraft 的工作流程分为四个阶段:
文本渲染优化:在自建的 Text-Render-2M 数据集(包含 200 万高质量文本渲染示例,支持多实例文本渲染及多样化文本选择)上大规模训练,提升模型文本渲染保真度。
海报风格微调:使用 HQ-Poster-100K 数据集(10 万张高质量海报集合,采用先进过滤技术、多模态评分系统等)和区域感知校准策略微调,使模型学习文本与背景的和谐共存。
美学文本强化学习:采用基于 best-of-n 的 DPO 策略,让模型从多个版本海报的对比中学习构图平衡、色彩和谐等高阶美学偏好。
视觉 - 语言反馈:引入基于 VLM 的多模态反馈,在生成过程中对内容和风格进行迭代精炼与修正,生成后可根据设计建议调整优化。
该框架的技术优势体现在:
统一框架设计:摒弃 “规划 - 生成” 模块化流程,实现文本输入到海报输出的端到端生成,保证视觉连贯性。
自动化数据集构建:为各优化阶段设计专属全自动数据集,解决数据稀缺问题。
级联优化策略:
大规模文本渲染优化:利用高质量数据集专注文本渲染,保证背景渲染能力。
区域感知校准:微调时对文本和非文本区域赋予不同权重,保留文本清晰度并强化艺术风格。
基于偏好的强化学习:通过 “最优 / 最差” 样本对学习,注入人类美学偏好。
多模态反馈循环:推理时引入多模态生成修正建议,融入条件输入迭代优化结果。
测试表明,PosterCraft 在文本渲染准确性、美学质量和布局结构等方面持续超越现有先进方法,与商业系统相比也具竞争力。该模型能处理复杂提示并保持视觉一致性,无论长文本还是短提示都可生成高质量海报。其优势在于从单一提示直接生成海报,无需额外模块或人工调整,为电影海报、活动宣传、产品推广等场景提供快速高效的可扩展解决方案,且不降低美学质量。
相关资源链接:
GitHub:https://github.com/Ephemeral182/PosterCraft
项目官网:https://ephemeral182.github.io/PosterCraft/
Huggingface:https://huggingface.co/PosterCraft
Huggingface demo:https://huggingface.co/spaces/Ephemeral182/PosterCraft
YouTube:https://www.youtube.com/watch?v=92wMU4D7qx0