HunyuanVideo-Avatar :腾讯混元推出的语音驱动的数字人模型

HunyuanVideo-Avatar是什么?

HunyuanVideo - Avatar是腾讯混元基于腾讯混元视频大模型(HunyuanVideo)开源的语音数字人模型,通过音频驱动,HunyuanVideo-Avatar 技术能够生成动态人物视频,展现人物的说话、肢体和头部动作及表情,支持多个角色的互动场景。目的在于解决音频驱动人物动画领域的三个难点,生成高动态视频同时保持角色一致性、实现角色与音频的精确情感对齐、支持多角色音频驱动动画。

HunyuanVideo-Avatar :腾讯混元推出的语音驱动的数字人模型.webp

HunyuanVideo - Avatar功能特点

  • 多景别支持:支持头肩、半身与全身景别,用户可根据需求选择合适的拍摄视角。

  • 多风格与多物种场景:支持多风格(如赛博朋克、2D动漫、中国水墨画等)、多物种(包括机器人、动物等)以及双人场景。

  • 高一致性、高动态性视频生成:能根据输入的人物图像和音频,自动理解图片与音频内容,比如人物所在环境、音频所蕴含的情感等,让图中人物自然地说话或唱歌,生成包含自然表情、唇形同步及全身动作的视频,而且保证视频中主体一致性以及视频的整体动态性。

  • 广泛的应用场景:适用于短视频创作、电商与广告等多种应用场景,可以生成人物在不同场景下的说话、对话、表演等片段,快速制作产品介绍视频或多人互动广告,有效降低制作成本。

  • 多角色精准驱动:在多人互动场景中,能精准驱动多个角色,确保唇形、表情和动作与音频同步,互动自然。

HunyuanVideo - Avatar技术创新

  • 角色图像注入模块:基于多模态扩散Transformer(MM - DiT)架构,确保角色一致性与视频动态性,解决了在生成视频时,既保持人物形象的高度一致性,又能让人物动作流畅自然的问题。

  • 音频情感模块(AEM):会从音频和参考图像提取情感信息,生成细腻的表情和动作,使数字人能根据音频情感展现出相应的面部表情。

  • 面部感知音频适配器(FAA):通过人脸掩码技术隔离角色音频,实现多人场景的精准驱动,可独立驱动不同人物的唇形和表情,避免不同人物之间动作互相影响。

HunyuanVideo - Avatar使用方法

你可在腾讯混元官网(https://hunyuan.tencent.com/)的“模型广场 - 混元生视频 - 数字人 - 语音驱动 - HunyuanVideo - Avatar”中体验,目前支持上传不超过14秒的音频进行视频生成。

HunyuanVideo - Avatar使用方法.webp

HunyuanVideo - Avatar应用场景

  • 短视频创作:可快速生成各种场景下的对话、表演等视频片段。

  • 电商广告:用于制作产品介绍视频、多人互动广告等。

  • 虚拟助手或游戏:创建动画头像,提升交互体验。

项目链接

项目主页:https://hunyuanvideo-avatar.github.io

GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

收藏
#ai数字人
最新工具
Manus Slides
Manus Slides

Manu发布的新功能。它可以通过单个提示快速生成结构化的PPT,...

Lemon AI
Lemon AI

一个开源的全栈通用AI Agent,能从需求到成果交付全流程自动...

Video2PPT
Video2PPT

一个开源、免费的可以将任意视频智能转换为精美PPT的工具,它支持...

小云雀APP
小云雀APP

剪映推出的一款视频和图片创作工具,它能通过简单的指令快速生成短视...

匠邦AI
匠邦AI

一款可以提升教师工作效率的AI智能工具。专注为幼儿园,中小学,职...

老师帮
老师帮

专为教师设计的多功能AI教学工作助手,提供教案生成、作业设计、试...

WorkPPT
WorkPPT

一款 AI PPT生成工具,可在几秒内生成不限数量的PPT、网站...

Excelmatic AI
Excelmatic AI

一款 AI 驱动的 Excel 数据分析与可视化工具,支持上传....

幻舟AI
幻舟AI

一个一站式AI影视短片创作平台,能帮你从头到尾搞定短片制作。它有...

SelectYet
SelectYet

一款面向研究人员的文献阅读分析工具,它通过AI技术帮助用户快速对...