MAGREF:字节跳动发布的一款多主体视频生成神器
MAGREF是字节跳动推出的一款多主体视频生成工具,它可以让用户凭借一张参考图像,生成高度一致的视频,无论是单个主体还是多个主体的场景都能搞定。它通过掩码引导和通道拼接机制,解决了传统视频生成中常见的身份混淆和动作不协调问题。MAGREF还能实现人物、物体和背景的多种组合,确保生成视频的身份稳定性和结构一致性。
核心功能
多主体一致性生成:只需要一张参考图,就能生成人物或物体高度一致的视频,支持多人同框且不会出现“串脸”的情况。比如,你可以用它生成爱因斯坦骑摩托的视频,或者牛顿挥笔作画的视频。人物的面貌、服饰在每一帧都能保持一致,不会越变越离谱。
多样参考图像处理:它通过掩码引导和通道拼接机制,可以在不增加模型复杂度的情况下,处理多种参考图像。无论是单人表演、多人互动,还是人物与物体、背景共同出现,都能生成稳定、协调的视频。
多模态输入与生成:根据不同的文字提示,它能实现“一图千面”,无论输入的是谁,来自哪个时代,风格是否抽象,它都能精准还原其特征,并根据文字指令生成不同的动作、环境和光影效果。比如,你可以输入一张人像、一张物体图、一张背景图,再加上一段描述,它就能生成一个包含这三类元素的完整视频,人物和物体的互动看起来很自然,场景也毫无违和感。
技术实现
数据处理流程:它采用了三阶段的数据处理流程,来构建高质量、结构清晰的视频训练样本。第一阶段是从原始视频中切分出语义一致的片段,过滤低质量样本,并为每段生成结构化文本;第二阶段是通过标签提取和语义分割识别出视频中的关键物体,并进行后处理以获得精准遮罩;第三阶段是检测并分配视频中人物的身份,筛选高质量的面部图像用于参考图构建,确保训练过程中身份的一致性。
关键机制
区域感知动态遮罩:基于深度学习的注意力机制,让模型具备“动态视觉感知”能力。通过语义分割算法精准识别视频中的关键区域,并根据输入提示实时调整不同主体的掩码权重。这样,即使参考图数量和顺序不同,系统也能保持结构一致、身份不串、关系明确。
像素级通道拼接:在图像生成的底层技术中,它在通道维度(RGB通道 + 特征通道)进行信息融合。通过卷积神经网络提取参考图像的外观特征,并在通道层面与生成场景的特征图拼接,确保人物肤色、发型等细节与参考图高度一致。同时,通过归一化操作平衡不同场景的光照参数,避免主体与背景因明暗差异产生割裂感。它还支持同时输入人物肖像、物体图片、环境照片,通过通道级融合生成逻辑自洽的跨模态场景。
应用场景
影视制作:它能重构影视制作的前期筹备和特效流程。比如在剧本阶段,可以用它生成动态故事板,导演可以实时调整场景色调、角色动作。它还能替代部分绿幕拍摄的需求,比如在历史剧中,输入少数士兵的参考图,就能批量生成符合古代服饰、阵型的群体行军视频。
游戏开发:它能加速游戏内容的迭代和提升沉浸感。可以根据游戏角色建模图,快速生成角色在不同剧情节点的表情、动作视频;还能自动生成NPC在城镇中的日常活动,无需人工逐帧调试动画。
广告营销:它就像个性化内容的“量产引擎”,可以为同一商品生成几百种使用场景视频,满足社交媒体碎片化传播的需求。还可以基于明星肖像生成多版本广告素材,避免真人拍摄的档期限制和版权纠纷。
项目链接
项目主页:https://magref-video.github.io/magref.github.io/
Github:https://github.com/MAGREF-Video/MAGREF
论文:https://arxiv.org/pdf/2505.23742