Insert Anything:开源图片编辑框架,可以换脸、换服装等功能

Insert Anything 介绍

Insert Anything 是一个由浙江大学、哈佛大学和南洋理工大学联合提出的统一图像插入框架,可以将参考图像中的对象无缝集成到目标场景中,支持多种实际应用场景,如艺术创作、逼真的脸部交换、电影场景构图、虚拟服装试穿、配饰定制和数字道具更换。

Insert Anything:开源图片编辑框架,可以换脸、换服装等功能.webp

Insert Anything技术原理

1. AnyInsertion 数据集

  • 规模与内容:该框架基于一个包含 12 万个提示-图像对的 AnyInsertion 数据集,涵盖了人物、物体和服装插入等多种任务。

  • 多控制模式:数据集支持两种控制模式,即掩码提示(58K 对)和文本提示(101K 对),为模型提供了丰富的训练样本。

2. Diffusion Transformer (DiT)

  • 多模态注意力机制:Insert Anything 利用 DiT 的多模态注意力机制,支持掩码和文本引导的编辑。该机制通过图像分支和文本分支分别处理视觉输入和文本描述,然后通过多模态注意力融合这些信息。

  • 图像分支:处理参考图像、源图像和掩码,提取视觉特征并与噪声拼接。

  • 文本分支:编码文本描述以提供语义引导。

3. 上下文编辑机制

  • 双联画与三联画提示策略:

  • 掩码提示双联画:左侧为参考图像,右侧为带有掩码的目标图像。

  • 文本提示三联画:左侧为参考图像,中间为源图像,右侧为文本生成的结果。

  • 功能:该机制将参考图像视为上下文信息,通过隐式交互确保插入元素与目标场景的视觉一致性,同时保留其独特特征。

优势

  • 通用性:单一模型能够处理多种插入任务,避免了为每个任务单独训练模型。

  • 灵活性:支持掩码和文本两种控制模式,满足不同用户的编辑需求。

  • 视觉一致性:通过上下文编辑机制,确保插入元素与目标场景自然融合。

Insert Anything应用场景

  • 艺术创作:将艺术元素无缝插入到不同的背景中。

  • 商业广告:将产品图像插入到广告场景中。

  • 流行文化创作:将流行文化元素插入到相关场景中。

项目链接

项目主页:https://song-wensong.github.io/insert-anything/

论文:https://arxiv.org/abs/2504.15009

Github:https://github.com/song-wensong/insert-anything

收藏
最新工具
Vidgo AI
Vidgo AI

一个多合一AI图像、音乐和视频生成器,能将文字、图片等素材变成图...

Vinteo AI
Vinteo AI

一款AI电商产品摄影和可视化产品设计工具,可帮助零售商、制造商等...

PassiveWP
PassiveWP

一款 WordPress 联盟营销插件,让产品研究、推广和跟踪,...

Get笔记网页版
Get笔记网页版

得到团队打造的一款高效笔记应用,可以帮助用户把零散信息转化为系统...

LLM Course
LLM Course

一个关于LLMs课程的集合,包含学习路线图和Colab笔记本,帮...

优考试
优考试

一款在线考试系统,支持在线网络和局域网离线考试,适用于企业、事业...

UseResume AI
UseResume AI

一个简历生成和优化平台,专注于帮助求职者快速创建专业、个性化的简...

NewsNow
NewsNow

一款开源的实时热门新闻聚合平台,能让你快速了解国内外的新闻、科技...

Zion
Zion

一个全栈的零代码开发工具,快速搭建个性化应用!能够帮助用户从应用...

Fellou AI浏览器
Fellou AI浏览器

由中国95后创业者谢扬及其团队推出的全球首个行动型浏览器,它将浏...