ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频

ChatAnyone 是什么?

ChatAnyone 是一个由阿里巴巴集团通义实验室开发的实时风格化肖像视频生成框架,实现从“会说话的头”到上半身互动的高保真动画生成,支持多样化的面部表情和风格控制。适用于实时视频聊天、虚拟主播、ai 助手等场景。

ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 技术方法

高效分层运动扩散模型(Hierarchical Motion Diffusion Model)

  • 输入:音频信号。

  • 输出:面部和身体的控制信号,考虑显式和隐式的运动信号。

  • 功能:生成多样化的面部表情,并实现头部与身体动作的同步。

  • 细粒度表情控制:支持不同强度的表情变化,以及从参考视频中转移风格化的表情。

混合控制融合生成模型(Hybrid Control Fusion Generative Model)

  • 面部表情生成:结合显式地标和隐式偏移量,生成逼真的面部表情。

  • 手部动作控制:注入显式的手部控制信号,生成更准确和逼真的手部动作。

  • 面部优化模块:增强面部的逼真度,确保生成的肖像视频具有高度的表达性和真实感。

可扩展的实时生成框架

  • 灵活性:支持从头部驱动的动画到包含手势的上半身生成。

  • 实时性:在 4090 GPU 上,以最高 512×768 分辨率、30fps 的速度实时生成上半身肖像视频。

ChatAnyone 实验结果

  • 音频驱动的上半身动画:生成具有高度表达性的上半身数字人视频,支持有手和无手的场景。

  • 音频驱动的头部动画:实现高精度的口型同步,生成自然的头部姿势和丰富的面部表情。

  • 音频驱动的风格化动画:支持生成风格化角色的动画,同时适用于生成富有表现力的唱歌视频。

  • 双主持 AI 播客演示:能够生成双主持播客,支持 AI 驱动的对话。

  • 实时交互演示:在 4090 GPU 上实现 30fps 的实时生成,支持实际的交互式视频聊天应用。

ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 优势

  • 高保真度和自然度:生成的肖像视频具有丰富的表情和自然的上半身动作。

  • 实时性:支持实时交互,适用于视频聊天等应用场景。

  • 风格化控制:可以根据需求调整表情风格,实现个性化的动画生成。

ChatAnyone 的应用场景

虚拟主播与视频会议

  • 虚拟主播用于新闻播报、直播带货。

  • 视频会议中提供虚拟形象,增强互动性。

内容创作与娱乐

  • 动画制作:生成风格化动画角色。

  • 虚拟演唱会:生成虚拟歌手或表演者的实时动画。

  • AI 播客:生成双主持播客的虚拟形象。

教育与培训

  • 在线教育:生成虚拟教师形象。

  • 培训模拟:生成虚拟角色进行互动对话。

客户服务

  • 智能客服:生成虚拟客服形象。

  • 客户互动:提供生动的解答和互动。

营销与广告

  • 虚拟代言人:生成品牌代言人形象。

  • 广告视频:生成互动性强的广告内容。

社交娱乐

  • 匿名聊天:生成虚拟形象保护隐私。

  • 社交平台:生成个性化虚拟形象。

医疗健康

  • 虚拟健康咨询:生成虚拟医生形象。

  • 康复训练:生成虚拟康复教练。

其他

  • 虚拟导游:用于旅游规划和景点介绍。

  • 新闻播报:生成虚拟新闻主播。

ChatAnyone 的应用场景.webp

相关链接

项目地址:https://github.com/HumanAIGC/chat-anyone

论文地址:https://arxiv.org/abs/2506.00920

收藏
最新工具
Custom Cursor
Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...

橙子8设计
橙子8设计

一站式AI电商图片制作平台,专为电商和跨境卖家服务。不用专业设计...

Sandspiel
Sandspiel

一款基于细胞自动机和实时物理的开源像素沙盘游戏,玩家可以在虚拟沙...

印象地图
印象地图

这是个可以帮你记住全国省市位置的测试工具。打开网站就能用,选个模...

Sandtris
Sandtris

一款把经典俄罗斯方块和流沙物理效果结合的休闲游戏。玩家需要利用沙...

Maze Toys
Maze Toys

一个以迷宫游戏为主的网站,提供多种类型的迷宫玩法,包括Mini、...

AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...