ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频

ChatAnyone 是什么?

ChatAnyone 是一个由阿里巴巴集团通义实验室开发的实时风格化肖像视频生成框架,实现从“会说话的头”到上半身互动的高保真动画生成,支持多样化的面部表情和风格控制。适用于实时视频聊天、虚拟主播、ai 助手等场景。

ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 技术方法

高效分层运动扩散模型(Hierarchical Motion Diffusion Model)

  • 输入:音频信号。

  • 输出:面部和身体的控制信号,考虑显式和隐式的运动信号。

  • 功能:生成多样化的面部表情,并实现头部与身体动作的同步。

  • 细粒度表情控制:支持不同强度的表情变化,以及从参考视频中转移风格化的表情。

混合控制融合生成模型(Hybrid Control Fusion Generative Model)

  • 面部表情生成:结合显式地标和隐式偏移量,生成逼真的面部表情。

  • 手部动作控制:注入显式的手部控制信号,生成更准确和逼真的手部动作。

  • 面部优化模块:增强面部的逼真度,确保生成的肖像视频具有高度的表达性和真实感。

可扩展的实时生成框架

  • 灵活性:支持从头部驱动的动画到包含手势的上半身生成。

  • 实时性:在 4090 GPU 上,以最高 512×768 分辨率、30fps 的速度实时生成上半身肖像视频。

ChatAnyone 实验结果

  • 音频驱动的上半身动画:生成具有高度表达性的上半身数字人视频,支持有手和无手的场景。

  • 音频驱动的头部动画:实现高精度的口型同步,生成自然的头部姿势和丰富的面部表情。

  • 音频驱动的风格化动画:支持生成风格化角色的动画,同时适用于生成富有表现力的唱歌视频。

  • 双主持 AI 播客演示:能够生成双主持播客,支持 AI 驱动的对话。

  • 实时交互演示:在 4090 GPU 上实现 30fps 的实时生成,支持实际的交互式视频聊天应用。

ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 优势

  • 高保真度和自然度:生成的肖像视频具有丰富的表情和自然的上半身动作。

  • 实时性:支持实时交互,适用于视频聊天等应用场景。

  • 风格化控制:可以根据需求调整表情风格,实现个性化的动画生成。

ChatAnyone 的应用场景

虚拟主播与视频会议

  • 虚拟主播用于新闻播报、直播带货。

  • 视频会议中提供虚拟形象,增强互动性。

内容创作与娱乐

  • 动画制作:生成风格化动画角色。

  • 虚拟演唱会:生成虚拟歌手或表演者的实时动画。

  • AI 播客:生成双主持播客的虚拟形象。

教育与培训

  • 在线教育:生成虚拟教师形象。

  • 培训模拟:生成虚拟角色进行互动对话。

客户服务

  • 智能客服:生成虚拟客服形象。

  • 客户互动:提供生动的解答和互动。

营销与广告

  • 虚拟代言人:生成品牌代言人形象。

  • 广告视频:生成互动性强的广告内容。

社交娱乐

  • 匿名聊天:生成虚拟形象保护隐私。

  • 社交平台:生成个性化虚拟形象。

医疗健康

  • 虚拟健康咨询:生成虚拟医生形象。

  • 康复训练:生成虚拟康复教练。

其他

  • 虚拟导游:用于旅游规划和景点介绍。

  • 新闻播报:生成虚拟新闻主播。

ChatAnyone 的应用场景.webp

相关链接

项目地址:https://github.com/HumanAIGC/chat-anyone

论文地址:https://arxiv.org/abs/2506.00920

收藏
最新工具
在线DOS游戏
在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器,适合怀旧玩家和游戏开...

HDLOGO
HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站,提供各类品牌和...

Funes.world
Funes.world

一个在线博物馆项目,通过众包方式把世界各地的建筑做成3D模型,F...

PrettyScale
PrettyScale

一个在线面部分析及颜值打分网站,用户通过上传照片或直接用摄像头参...

圆周旅迹
圆周旅迹

一款旅游出行AI智能规划APP,它可以直接从小红书这些平台导入别...

Wonderplan AI
Wonderplan AI

一个免费的AI旅游规划工具,能根据你的喜好、需求生成专属行程,支...

智写流程
智写流程

一个能自动记录网页操作并生成操作指南的工具。它能捕捉鼠标点击、键...

ReactBits
ReactBits

一个免费开源的动画化、可交互React组件库,里面有好多动画化、...

电视眼
电视眼

也叫TV眼,是一个在线网络电视直播网站,提供全国5000+个电视...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自动把 Excel 或 CSV 文件变成带交互功能的仪表盘...