Ai应用
Ai资讯
AI生图
AI生视频
FastbuildAI

首页 > Ai资讯 > AI教程

MAGREF：字节跳动发布的一款多主体视频生成神器

MAGREF于2025-06-14发布在AI教程

MAGREF是字节跳动推出的一款多主体视频生成工具，它可以让用户凭借一张参考图像，生成高度一致的视频，无论是单个主体还是多个主体的场景都能搞定。它通过掩码引导和通道拼接机制，解决了传统视频生成中常见的身份混淆和动作不协调问题。MAGREF还能实现人物、物体和背景的多种组合，确保生成视频的身份稳定性和结构一致性。

MAGREF：字节跳动发布的一款多主体视频生成神器.webp

核心功能

多主体一致性生成：只需要一张参考图，就能生成人物或物体高度一致的视频，支持多人同框且不会出现“串脸”的情况。比如，你可以用它生成爱因斯坦骑摩托的视频，或者牛顿挥笔作画的视频。人物的面貌、服饰在每一帧都能保持一致，不会越变越离谱。
多样参考图像处理：它通过掩码引导和通道拼接机制，可以在不增加模型复杂度的情况下，处理多种参考图像。无论是单人表演、多人互动，还是人物与物体、背景共同出现，都能生成稳定、协调的视频。
多模态输入与生成：根据不同的文字提示，它能实现“一图千面”，无论输入的是谁，来自哪个时代，风格是否抽象，它都能精准还原其特征，并根据文字指令生成不同的动作、环境和光影效果。比如，你可以输入一张人像、一张物体图、一张背景图，再加上一段描述，它就能生成一个包含这三类元素的完整视频，人物和物体的互动看起来很自然，场景也毫无违和感。

技术实现

数据处理流程：它采用了三阶段的数据处理流程，来构建高质量、结构清晰的视频训练样本。第一阶段是从原始视频中切分出语义一致的片段，过滤低质量样本，并为每段生成结构化文本；第二阶段是通过标签提取和语义分割识别出视频中的关键物体，并进行后处理以获得精准遮罩；第三阶段是检测并分配视频中人物的身份，筛选高质量的面部图像用于参考图构建，确保训练过程中身份的一致性。

关键机制

区域感知动态遮罩：基于深度学习的注意力机制，让模型具备“动态视觉感知”能力。通过语义分割算法精准识别视频中的关键区域，并根据输入提示实时调整不同主体的掩码权重。这样，即使参考图数量和顺序不同，系统也能保持结构一致、身份不串、关系明确。
像素级通道拼接：在图像生成的底层技术中，它在通道维度（RGB通道 + 特征通道）进行信息融合。通过卷积神经网络提取参考图像的外观特征，并在通道层面与生成场景的特征图拼接，确保人物肤色、发型等细节与参考图高度一致。同时，通过归一化操作平衡不同场景的光照参数，避免主体与背景因明暗差异产生割裂感。它还支持同时输入人物肖像、物体图片、环境照片，通过通道级融合生成逻辑自洽的跨模态场景。

应用场景

影视制作：它能重构影视制作的前期筹备和特效流程。比如在剧本阶段，可以用它生成动态故事板，导演可以实时调整场景色调、角色动作。它还能替代部分绿幕拍摄的需求，比如在历史剧中，输入少数士兵的参考图，就能批量生成符合古代服饰、阵型的群体行军视频。
游戏开发：它能加速游戏内容的迭代和提升沉浸感。可以根据游戏角色建模图，快速生成角色在不同剧情节点的表情、动作视频；还能自动生成NPC在城镇中的日常活动，无需人工逐帧调试动画。
广告营销：它就像个性化内容的“量产引擎”，可以为同一商品生成几百种使用场景视频，满足社交媒体碎片化传播的需求。还可以基于明星肖像生成多版本广告素材，避免真人拍摄的档期限制和版权纠纷。

项目链接

项目主页：https://magref-video.github.io/magref.github.io/
Github：https://github.com/MAGREF-Video/MAGREF
论文：https://arxiv.org/pdf/2505.23742

收藏

如何用用Pika制作毛线猫视频教程

上一篇

如何用用Pika制作毛线猫视频教程

飞影数字人详细教程指南

下一篇

飞影数字人详细教程指南

相关文章

XVerse：字节跳动推出的多主体图像合成开源工具

XVerse：字节跳动推出的多主体图像合成开源工具

2025-07-02

探饭：字节跳动推出的一款AI美食助手，搭载豆包大模型

探饭：字节跳动推出的一款AI美食助手，搭载豆包大模型

2025-06-23

DreamActor-H1：生成人物讲解商品的视频，

DreamActor-H1：生成人物讲解商品的视频，

2025-06-23

ImmerseGen：字节跳动和浙江大学联合开发的3

ImmerseGen：字节跳动和浙江大学联合开发的3

2025-06-21

字节跳动旗下扣子空间推出一键文本生成播客功能

字节跳动旗下扣子空间推出一键文本生成播客功能

2025-05-29

DeerFlow：基于LangChain和LangG

DeerFlow：基于LangChain和LangG

2025-05-10

最新文章

最新工具

GamePix

全球领先的 HTML5 和 WebGL 游戏分发平台。它把各类分...

PixelSquid

Shutterstock推出的专为平面设计师和Photoshop...

Dos.Zone

一个聚合经典DOS游戏的在线游玩平台，游戏种类特别多，有动作、策...

KBHgames

一个老牌免费在线游戏网站，谁都可以在这儿找到想玩的游戏。涵盖动作...

SoundWise AI

一个完全免费的AI音视频转录工具，能在浏览器里直接把音频和视频转...

Armor Games

全球知名免费在线游戏平台与独立游戏发行商，ArmorGames...

Social Auto Upload

Social Auto Upload

社交媒体视频一键多平台发布工具，一站式解决抖音、小红书、视频号...

在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器，适合怀旧玩家和游戏开...

HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站，提供各类品牌和...

Funes.world

一个在线博物馆项目，通过众包方式把世界各地的建筑做成3D模型，F...

人生若只如初见

用户登录