HunyuanCustom:腾讯混元推出并开源的全新的多模态定制化视频生成工具

HunyuanCustom是什么?

HunyuanCustom 是腾讯混元推出并开源的基于多模态驱动的定制化视频生成框架,可以生成具有特定主题的视频,同时支持文本、图像、音频和视频等多种输入条件。

HunyuanCustom:腾讯混元推出并开源的全新的多模态定制化视频生成工具.webp

HunyuanCustom模型架构

  • 基于 HunyuanVideo:HunyuanCustom 是在 HunyuanVideo 的基础上构建的,专注于生成与特定主题一致的视频。

  • 多模态融合:引入了基于 LLaVA 的文本-图像融合模块,增强对多模态输入的理解。此外,还设计了针对音频和视频的特定条件注入机制,以实现多模态条件下的视频生成。

HunyuanCustom核心功能

  • 多模态输入生成视频:融合了文本、图像、音频、视频等多模态输入生成视频的能力,具备高度控制力和生成质量。

  • 单主体视频生成:用户只需上传一张包含目标人物或物体的图片,并提供一句文本描述,就能识别出图片中的身份信息,并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。例如上传一张人物照片,输入“他正在遛狗”,即可生成相应视频。

  • 多主体视频生成:用户提供一张人物和一张物体的照片,并输入文字描述,能让这两个主体按要求出现在视频里。比如提供一张人物和一包薯片的照片,输入“一名男子正在游泳池旁边,手里拿着薯片进行展示”,即可生成对应视频。

  • 单主体视频配音:在音频驱动(单主体)模式下,用户可以上传人物图像并配上音频语音,模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果,广泛适用于数字人直播、虚拟客服、教育演示等场景。

  • 视频局部编辑:在视频驱动模式下,支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。

HunyuanCustom技术优势

  • 身份一致性高:通过业内领先的主体一致性建模能力,在单人、非人物体、多主体交互等多种场景,都能保持身份特征在视频全程的一致性与连贯性,人物不会“变脸”,物体不会“漂移”。

  • 可控性强:具有较强的控制信号跟随能力,包括遵循来自文本、参考主体图像和语音等多种模态信号的控制,可较好地生成用户需要对象、场景和动作。

  • 视频生成质量高:得益于腾讯混元视频大模型的强大能力,在人物细节还原、动作流畅性、光影真实度等方面都达到业内领先水平。

HunyuanCustom应用场景

  • 广告场景:可以快捷变换商品背景、模特可以快速换衣服。

  • 电商和客服场景:可以快速低成本制作出生动的数字人商品介绍视频,或者制作特定穿着的数字人客服视频。

  • 影视场景:快速制作短剧和小故事短视频。

  • 教育科普场景:通过音频驱动生成讲解视频。

HunyuanCustom单主体生成能力已经开源并在混元官网上线,用户可以在“模型广场 - 图生视频 - 参考生视频”中体验,其他能力已于5月内陆续对外开源。你可以通过以下链接访问相关信息:

  • 体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=192

  • 项目官网:https://hunyuancustom.github.io/

  • 代码:https://github.com/Tencent/HunyuanCustom

  • 技术报告:https://arxiv.org/pdf/2505.04512

收藏
最新工具
无阶ATOMIX
无阶ATOMIX

一个面向中小企业的无代码开发平台,首次融合AIGC与无代码技术。...

Merliona
Merliona

一个提供可靠的远程自由职业平台,通过专属平台分配优质项目。自由职...

ChopperBot
ChopperBot

一款能用于像虎牙、斗鱼、抖音、BiliBili、TikTok、T...

ColorDrop
ColorDrop

这是一个专为设计师打造的在线调色板工具。网站每天午夜会自动生成新...

FaFaFa.AI
FaFaFa.AI

由欧阳葵和七鹿联合开发的小游戏建站工具。这个FaFaFa.AI不...

Roblox
Roblox

Roblox Corporation开发的全球大型多人在线UGC...

Tight Studio
Tight Studio

一款能快速把屏幕录制的画面做成产品演示的工具,不用会视频剪辑也能...

Audionautix
Audionautix

一个专注于提供免费可商用背景音乐的在线平台,由作曲家 Jason...

Freeimgen
Freeimgen

一款免费AI图片生成工具,基于Flux AI、Google Na...

PicSeal
PicSeal

一个能模仿小米照片风格生成带莱卡水印照片的开源项目,也支持佳能、...