PixelHacker:AI局部重绘,一种基于扩散模型的图像修复工具

PixelHacker是什么?

PixelHacker 是一种基于扩散模型的图像修复工具,专注于在修复过程中保持图像的结构和语义一致性。它通过潜在类别指导的方法,对前景和背景进行标注,并利用这些标注信息来指导修复过程。

PixelHacker:AI局部重绘,一种基于扩散模型的图像修复工具.webp

PixelHacker 的主要特点

  • 强大的复杂结构修复能力:能够准确捕捉和重建图像中的复杂纹理、形状和空间关系。

  • 语义一致性:修复后的图像在颜色、对象特征和逻辑结构上与原始图像高度一致。

  • 数据集与预训练:基于包含 1400 万个图像 - 掩码对的大型数据集进行预训练,并在开源基准上进行微调。

  • 广泛的适用性:在 Places2、CelebA-HQ 和 FFHQ 等数据集上表现出色。

PixelHacker核心技术

  • 潜在类别指导(Latent Categories Guidance, LCG):PixelHacker 通过构建一个包含 1400 万个图像 - 掩码对的大型数据集,并对前景和背景进行标注(前景有 116 个潜在类别,背景有 21 个潜在类别),从而在修复过程中引导模型关注图像的结构和语义信息。

  • 线性注意力机制:模型通过两个固定大小的嵌入向量分别对潜在的前景和背景特征进行编码,并在去噪过程中通过线性注意力机制将这些特征间歇性地注入到模型中。

PixelHacker架构

PixelHacker 基于潜在扩散架构(Latent Diffusion Architecture),通过编码器将输入图像转换到潜在空间,然后在去噪过程中注入前景和背景特征,最后通过解码器重建修复后的图像。

方法与流程

  • 数据集构建:通过标注前景和背景类别,构建了一个大规模的图像 - 掩码对数据集。

  • 特征编码:使用固定大小的嵌入向量分别对前景和背景进行编码。

  • 去噪过程:在扩散模型的去噪过程中,通过线性注意力机制将前景和背景特征注入到模型中,促进结构和语义的多重交互。

  • 预训练与微调:在自建数据集上进行预训练,并在开源基准数据集上进行微调,最终得到 PixelHacker 模型。

PixelHacker:AI局部重绘,一种基于扩散模型的图像修复工具.jpg

PixelHacker应用场景

  • 图像修复:去除广告、填补划痕、修复损坏区域。

  • 图像编辑:背景替换、对象替换,保持整体自然感。

  • 艺术创作:创意生成、风格转换。

  • 文化遗产保护:修复古籍、壁画等文化遗产图像。

  • 医疗图像处理:去除伪影、增强图像细节。

项目链接

项目主页:https://hustvl.github.io/PixelHacker/ 

GitHub 代码:https://github.com/hustvl/PixelHacker 

论文链接:https://arxiv.org/abs/2504.20438


收藏
最新工具
BelinDoc
BelinDoc

一款免费的在线文档翻译工具,不用注册登录。它能翻译 PDF、EP...

Gensmo
Gensmo

一款时尚购物Agent应用,能提供穿搭推荐、虚拟试穿和购物引导等...

发文鸭
发文鸭

一站式发文小助手,专注于自动排版,支持多平台文章发布,让你专注于...

OfferStar AI
OfferStar AI

一款AI时代面试笔试助手,可用于面试和笔试,能搞定秒杀八股文、手...

CarToonGames.io
CarToonGames.io

一个免费的不用下载注册就能玩的在线卡通游戏网站,有很多基于经典动...

WeKnora
WeKnora

WeKnora 是腾讯开源的文档理解与检索框架,基于大语言模型打...

CDKM
CDKM

一个在线文件转换器,用了不少开源项目搭建,比如Ghostscri...

Drawnix
Drawnix

Drawnix 是款基于 Plait 框架的开源免费白板工具,名...

StartMyCar
StartMyCar

一个汽车问题分享和解决的社区平台,可以为车主提供车辆问题相关的交...

风哥AI工作流集合CozeWorkFlows
风哥AI工作流集合CozeWorkFlows

一个开源项目,包含200多个AI工作流,适用于Coze平台,涵盖...