MAGREF:字节跳动发布的一款多主体视频生成神器

MAGREF是字节跳动推出的一款多主体视频生成工具,它可以让用户凭借一张参考图像,生成高度一致的视频,无论是单个主体还是多个主体的场景都能搞定。它通过掩码引导和通道拼接机制,解决了传统视频生成中常见的身份混淆和动作不协调问题。MAGREF还能实现人物、物体和背景的多种组合,确保生成视频的身份稳定性和结构一致性。

MAGREF:字节跳动发布的一款多主体视频生成神器.webp

核心功能

  • 多主体一致性生成:只需要一张参考图,就能生成人物或物体高度一致的视频,支持多人同框且不会出现“串脸”的情况。比如,你可以用它生成爱因斯坦骑摩托的视频,或者牛顿挥笔作画的视频。人物的面貌、服饰在每一帧都能保持一致,不会越变越离谱。

  • 多样参考图像处理:它通过掩码引导和通道拼接机制,可以在不增加模型复杂度的情况下,处理多种参考图像。无论是单人表演、多人互动,还是人物与物体、背景共同出现,都能生成稳定、协调的视频。

  • 多模态输入与生成:根据不同的文字提示,它能实现“一图千面”,无论输入的是谁,来自哪个时代,风格是否抽象,它都能精准还原其特征,并根据文字指令生成不同的动作、环境和光影效果。比如,你可以输入一张人像、一张物体图、一张背景图,再加上一段描述,它就能生成一个包含这三类元素的完整视频,人物和物体的互动看起来很自然,场景也毫无违和感。

技术实现

  • 数据处理流程:它采用了三阶段的数据处理流程,来构建高质量、结构清晰的视频训练样本。第一阶段是从原始视频中切分出语义一致的片段,过滤低质量样本,并为每段生成结构化文本;第二阶段是通过标签提取和语义分割识别出视频中的关键物体,并进行后处理以获得精准遮罩;第三阶段是检测并分配视频中人物的身份,筛选高质量的面部图像用于参考图构建,确保训练过程中身份的一致性。

关键机制

  • 区域感知动态遮罩:基于深度学习的注意力机制,让模型具备“动态视觉感知”能力。通过语义分割算法精准识别视频中的关键区域,并根据输入提示实时调整不同主体的掩码权重。这样,即使参考图数量和顺序不同,系统也能保持结构一致、身份不串、关系明确。

  • 像素级通道拼接:在图像生成的底层技术中,它在通道维度(RGB通道 + 特征通道)进行信息融合。通过卷积神经网络提取参考图像的外观特征,并在通道层面与生成场景的特征图拼接,确保人物肤色、发型等细节与参考图高度一致。同时,通过归一化操作平衡不同场景的光照参数,避免主体与背景因明暗差异产生割裂感。它还支持同时输入人物肖像、物体图片、环境照片,通过通道级融合生成逻辑自洽的跨模态场景。

应用场景

  • 影视制作:它能重构影视制作的前期筹备和特效流程。比如在剧本阶段,可以用它生成动态故事板,导演可以实时调整场景色调、角色动作。它还能替代部分绿幕拍摄的需求,比如在历史剧中,输入少数士兵的参考图,就能批量生成符合古代服饰、阵型的群体行军视频。

  • 游戏开发:它能加速游戏内容的迭代和提升沉浸感。可以根据游戏角色建模图,快速生成角色在不同剧情节点的表情、动作视频;还能自动生成NPC在城镇中的日常活动,无需人工逐帧调试动画。

  • 广告营销:它就像个性化内容的“量产引擎”,可以为同一商品生成几百种使用场景视频,满足社交媒体碎片化传播的需求。还可以基于明星肖像生成多版本广告素材,避免真人拍摄的档期限制和版权纠纷。

项目链接

  • 项目主页:https://magref-video.github.io/magref.github.io/

  • Github:https://github.com/MAGREF-Video/MAGREF

  • 论文:https://arxiv.org/pdf/2505.23742

收藏

到头啦!

最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...