DreamActor-H1:生成人物讲解商品的视频,可用于生成带货视频
DreamActor-H1是字节跳动在2025年6月推出的一款视频生成框架,它基于扩散变换器(DiT)技术,主要面向电商和数字营销领域,可用于生成带货视频。
这个框架可以根据人体和产品图像配对,生成高质量的人与产品演示视频。它在大规模混合数据集上经过多类别增强训练,在保留人与产品的身份信息以及生成符合物理规律的演示动作方面,优于现有方法,适合用于个性化电子商务广告和互动媒体。它借助3D身体网格模板和产品边界框提供精准的运动指导,结合VAE编码的外观指导、结构化文本编码的类别级语义,以及参考注意力、对象注意力等机制,解决了现有框架在身份保留和空间关系理解上的难题。
DreamActor-H1的核心优势:
人 - 物动态对齐:它能自动把手势和商品位置匹配起来。比如在演示“拿起化妆品”时,手指和瓶身的接触点能自然贴合,不会出现穿模或者偏移的情况。而且还支持用3D人体网格模板和产品边界框一起指导,保证动作符合像重力、握持角度这些物理规律。
多维度细节保真:在保持人物身份一致性上,能保留人物的发型、肤色等特征;对于商品,能高度还原,精准呈现材质纹理、Logo标识等细节。
语义增强三维连贯性:结合品类级的文本描述,像“旋转展示口红”,能让微小旋转时的画面更流畅,避免商品抖动或者形变。
技术原理:
数据处理阶段:视觉语言建模(VLM)会对文本指令进行解析,比如“手持手机翻转”。然后通过姿态估计生成人体骨架,结合商品边界框构建空间关系,以此来提取运动特征。
模型架构设计:全局注意力负责控制整体画面的时序连贯性;参考注意力会注入人物或商品参考图的特征;物体注意力专门处理商品的潜在特征,保证细节不丢失。三重注意力机制的扩散变换器(DiT)基于70亿参数的基础模型Seaweed - 7B,通过掩码交叉注意力来融合人与物的信息。
推理优化:它会动态检索预定义的动作模板库,调整物体框的缩放比例,比如小尺寸商品的框体可以放大。
DreamActor-H1的应用场景:
电商直播:可以自动生成虚拟主播手持商品的演示视频,这样能降低直播成本,提高直播效率。
广告营销:能低成本制作多角度的产品使用动画,比如旋转展示鞋款,吸引消费者的注意力。
DreamActor-H1局限性:
商品限制:目前只能支持中小型物品,大型家电等没办法处理。
动作模板依赖:需要预先定义动作,像“拾取桌上物品”,而且要依赖初始人物姿态的匹配。
动态瑕疵:在快速运动时,商品的纹理可能会出现闪烁。
使用DreamActor-H1生成带货视频流程:
素材准备:准备一张人物图和一张产品图。人物图建议选正面半身照,分辨率要大于800 * 800,这样才能保证生成的视频里人物特征清晰。产品图要能清晰展示商品的各个细节,像商标、纹理等。
文本指令输入:根据带货的需求,输入相关的品类级文本描述,例如“手持手机翻转”“展示口红细节”等,给视频生成提供具体的动作和展示要求。
视频生成:把准备好的素材和文本指令输入到DreamActor-H1系统里,系统会基于多阶段协同架构和混合注意力机制来处理。在数据处理阶段,视觉语言建模(VLM)解析文本指令,运动特征提取模块通过姿态估计生成人体骨架并结合商品边界框构建空间关系;在模型架构中,全局注意力、参考注意力和物体注意力协同工作,最后生成高保真的人机交互演示视频。
项目地址如下:
项目主页:https://submit2025-dream.github.io/DreamActor-H1/
技术论文:https://arxiv.org/abs/2506.10568