PosterCraft:高质量海报生成框架

PosterCraft 是 2025 年 6 月由香港科技大学(广州)、美团、厦门大学和新加坡国立大学研究团队联合提出的海报生成框架,PosterCraft通过文字精准渲染与美学风格优化,结合区域感知校准和强化学习技术,增强海报的艺术完整性与整体协调性。同时借助视觉 - 语言反馈机制,经多模态修正优化美学效果。

在数据集构建上,PosterCraft 开发了多个高质量数据集,满足不同文本渲染和海报生成需求,为符合人类审美标准的海报创作奠定基础。

PosterCraft:高质量海报生成框架 .io.webp

其核心功能包括:

  • 精确文字渲染:在高质量背景上准确呈现多样化文字,确保文字与背景和谐统一,解决文本渲染保真度不足的问题。

  • 美学风格优化:利用区域感知校准技术,强化海报艺术完整性,保持文字准确性,构建文字与背景的和谐视觉关系。

  • 美学偏好优化:通过强化学习技术,依据整体美学标准优化输出,减少字体渲染缺陷,使模型学习构图平衡、色彩和谐等高阶美学偏好。

  • 视觉 - 语言反馈:借助联合视觉 - 语言调节机制,结合视觉信息与针对性文字建议进行多模态修正,逐步优化海报美学内容与背景协调性。

PosterCraft 的工作流程分为四个阶段:

  • 文本渲染优化:在自建的 Text-Render-2M 数据集(包含 200 万高质量文本渲染示例,支持多实例文本渲染及多样化文本选择)上大规模训练,提升模型文本渲染保真度。

  • 海报风格微调:使用 HQ-Poster-100K 数据集(10 万张高质量海报集合,采用先进过滤技术、多模态评分系统等)和区域感知校准策略微调,使模型学习文本与背景的和谐共存。

  • 美学文本强化学习:采用基于 best-of-n 的 DPO 策略,让模型从多个版本海报的对比中学习构图平衡、色彩和谐等高阶美学偏好。

  • 视觉 - 语言反馈:引入基于 VLM 的多模态反馈,在生成过程中对内容和风格进行迭代精炼与修正,生成后可根据设计建议调整优化。

该框架的技术优势体现在:

  • 统一框架设计:摒弃 “规划 - 生成” 模块化流程,实现文本输入到海报输出的端到端生成,保证视觉连贯性。

  • 自动化数据集构建:为各优化阶段设计专属全自动数据集,解决数据稀缺问题。

  • 级联优化策略:

  • 大规模文本渲染优化:利用高质量数据集专注文本渲染,保证背景渲染能力。

  • 区域感知校准:微调时对文本和非文本区域赋予不同权重,保留文本清晰度并强化艺术风格。

  • 基于偏好的强化学习:通过 “最优 / 最差” 样本对学习,注入人类美学偏好。

  • 多模态反馈循环:推理时引入多模态生成修正建议,融入条件输入迭代优化结果。

测试表明,PosterCraft 在文本渲染准确性、美学质量和布局结构等方面持续超越现有先进方法,与商业系统相比也具竞争力。该模型能处理复杂提示并保持视觉一致性,无论长文本还是短提示都可生成高质量海报。其优势在于从单一提示直接生成海报,无需额外模块或人工调整,为电影海报、活动宣传、产品推广等场景提供快速高效的可扩展解决方案,且不降低美学质量。

相关资源链接:

GitHub:https://github.com/Ephemeral182/PosterCraft

项目官网:https://ephemeral182.github.io/PosterCraft/

Huggingface:https://huggingface.co/PosterCraft

Huggingface demo:https://huggingface.co/spaces/Ephemeral182/PosterCraft

YouTube:https://www.youtube.com/watch?v=92wMU4D7qx0

收藏
最新工具
GolpoAi
GolpoAi

一款专门做解说视频的 AI 视频生成工具,用自研的视频生成引擎,...

ImaginePro AI
ImaginePro AI

一个用 AI 做图像生成和设计的平台,能把文字和图片变成高质量的...

打字鸭
打字鸭

一个免费的在线打字练习平台,能练字母、拼音、汉字、英文等,还有科...

PanSou
PanSou

高性能的网盘资源搜索 API 服务,支持TG频道搜索和自定义插件...

APPLORE
APPLORE

创意社区 UIBoy 推出的应用logo图标灵感与配色分析平台,...

FastBuildAI
FastBuildAI

一个面向AI开发者,创业者设计的开源AI应用框架,它几分钟就能部...

MindVideo AI
MindVideo AI

一款免费的在线视频生成工具,可以用文字或图片快速生成视频,支持多...

Endex AI
Endex AI

一款专为金融领域打造的智能 Excel 助手,它将 AI 模型嵌...

Bloxd.io
Bloxd.io

免费的在线多人沙盒游戏,灵感来自《我的世界》,有类似的像素风格和...

FmStream
FmStream

一个免费的全球在线电台目录网站,收录了很多国家的各类广播电台,能...