DreamActor-H1:生成人物讲解商品的视频,可用于生成带货视频

DreamActor-H1是字节跳动在2025年6月推出的一款视频生成框架,它基于扩散变换器(DiT)技术,主要面向电商和数字营销领域,可用于生成带货视频。

这个框架可以根据人体和产品图像配对,生成高质量的人与产品演示视频。它在大规模混合数据集上经过多类别增强训练,在保留人与产品的身份信息以及生成符合物理规律的演示动作方面,优于现有方法,适合用于个性化电子商务广告和互动媒体。它借助3D身体网格模板和产品边界框提供精准的运动指导,结合VAE编码的外观指导、结构化文本编码的类别级语义,以及参考注意力、对象注意力等机制,解决了现有框架在身份保留和空间关系理解上的难题。

DreamActor-H1:生成人物讲解商品的视频,可用于生成带货视频.webp

DreamActor-H1的核心优势:

  • 人 - 物动态对齐:它能自动把手势和商品位置匹配起来。比如在演示“拿起化妆品”时,手指和瓶身的接触点能自然贴合,不会出现穿模或者偏移的情况。而且还支持用3D人体网格模板和产品边界框一起指导,保证动作符合像重力、握持角度这些物理规律。

  • 多维度细节保真:在保持人物身份一致性上,能保留人物的发型、肤色等特征;对于商品,能高度还原,精准呈现材质纹理、Logo标识等细节。

  • 语义增强三维连贯性:结合品类级的文本描述,像“旋转展示口红”,能让微小旋转时的画面更流畅,避免商品抖动或者形变。

技术原理:

  • 数据处理阶段:视觉语言建模(VLM)会对文本指令进行解析,比如“手持手机翻转”。然后通过姿态估计生成人体骨架,结合商品边界框构建空间关系,以此来提取运动特征。

  • 模型架构设计:全局注意力负责控制整体画面的时序连贯性;参考注意力会注入人物或商品参考图的特征;物体注意力专门处理商品的潜在特征,保证细节不丢失。三重注意力机制的扩散变换器(DiT)基于70亿参数的基础模型Seaweed - 7B,通过掩码交叉注意力来融合人与物的信息。

  • 推理优化:它会动态检索预定义的动作模板库,调整物体框的缩放比例,比如小尺寸商品的框体可以放大。

DreamActor-H1的应用场景:

  • 电商直播:可以自动生成虚拟主播手持商品的演示视频,这样能降低直播成本,提高直播效率。

  • 广告营销:能低成本制作多角度的产品使用动画,比如旋转展示鞋款,吸引消费者的注意力。

DreamActor-H1局限性:

  • 商品限制:目前只能支持中小型物品,大型家电等没办法处理。

  • 动作模板依赖:需要预先定义动作,像“拾取桌上物品”,而且要依赖初始人物姿态的匹配。

  • 动态瑕疵:在快速运动时,商品的纹理可能会出现闪烁。

使用DreamActor-H1生成带货视频流程:

  1. 素材准备:准备一张人物图和一张产品图。人物图建议选正面半身照,分辨率要大于800 * 800,这样才能保证生成的视频里人物特征清晰。产品图要能清晰展示商品的各个细节,像商标、纹理等。

  2. 文本指令输入:根据带货的需求,输入相关的品类级文本描述,例如“手持手机翻转”“展示口红细节”等,给视频生成提供具体的动作和展示要求。

  3. 视频生成:把准备好的素材和文本指令输入到DreamActor-H1系统里,系统会基于多阶段协同架构和混合注意力机制来处理。在数据处理阶段,视觉语言建模(VLM)解析文本指令,运动特征提取模块通过姿态估计生成人体骨架并结合商品边界框构建空间关系;在模型架构中,全局注意力、参考注意力和物体注意力协同工作,最后生成高保真的人机交互演示视频。

项目地址如下:

项目主页:https://submit2025-dream.github.io/DreamActor-H1/

技术论文:https://arxiv.org/abs/2506.10568

收藏
最新工具
Wayback Machine
Wayback Machine

一个免费的网页历史存档和查询工具,可以能保存不同时间点的网页内容...

RunningHub
RunningHub

一个基于云端ComfyUI的高可用性平台,提供在线开发工作流、发...

绘蛙AI高清修复
绘蛙AI高清修复

智能修复图片模糊问题,一键拯救渣画质,如何把图片高清修复? 去看...

Unlucid AI
Unlucid AI

一个免费无审查的 AI 工具,提供包括视频博主视频制作、图像生成...

SuperClaude
SuperClaude

SuperClaude 是一个为 Claude Code 量身打...

 WisFile
WisFile

电脑本地运行的免费 AI 工具,专门解决文件命名乱、归类杂、手动...

GreenVideo
GreenVideo

一个无次数限制的视频下载平台,免费、稳定、速度快,支持全球100...

证件星
证件星

一个在线 AI 智能证件照制作工具,小白也能轻松上手,十秒就能做...

id-photo
id-photo

证件照大师,专业的证件照在线处理网站,具有证件照换底色,证件照质...

RealBankNotes
RealBankNotes

一个全球纸币收藏网站。目前有54000张纸币,数量还在增加,就好...