首页 > Ai资讯 > Ai产品

阿里巴巴EMO：一张图片和音频即可生成谈话或唱歌视频

阿里巴巴EMO于2024-02-28发布在Ai产品

阿里巴巴集团智能计算研究院隆重推出EMO：Emote Portrait Alive，一种突破性的 AI，只需图像和音频即可生成富有表现力的人像视频！同时生成视频的长度和你音频长度相匹配，谈话和唱歌视频栩栩如生，支持任意语音、任意语速、任意图像...

与传统方法不同，EMO使用直接的音频到视频方法，绕过了对中间3D模型或面部标志的需求。确保了整个视频的无缝帧转换和一致的身份保留，从而产生了高度表现力和逼真的动画，这意味着更平滑的过渡和更自然的表情。

EMO甚至擅长制作各种风格的歌唱视频！想象一下，只用你最喜欢的艺术家的一张图片来制作音乐视频！

EMO研究论文：https://arxiv.org/pdf/2402.17485.pdf

EMO开源地址：https://humanaigc.github.io/emote-portrait-alive/

EMO主要功能：

1、音频驱动的人像视频生成：利用单张参考图像和音频输入（如说话或唱歌），EMO能够生成具有表情变化和头部动态的虚拟人像视频。这意味着用户可以通过提供一张静态图片和相应的音频文件，来创造出说话或唱歌的动态视频。无论视频中的人物进行怎样的表情变化或头部动作，其基础特征都来源于这张参考图片。

2、表情丰富的动态渲染和头部姿势支持： EMO特别强调在视频中生成自然而富有表情的面部动作，它可以捕捉微妙的面部表情和头部运动，创造出栩栩如生的谈话和唱歌视频，从而生成看起来自然、生动的面部动画，增加了视频的动态性和真实感。

3、支持多种语言和肖像风格：该技术不限于特定语言或音乐风格，能够处理多种语言的音频输入，并且支持多样化的肖像风格，包括历史人物、绘画作品、3D模型和AI生成内容等。

4、快速节奏同步： EMO能够处理快节奏的音频，如快速的歌词或说话，确保虚拟人像的动作与音频节奏保持同步。

5、跨演员表现转换： EMO能够实现不同演员之间的表现转换，使得一位演员的虚拟形象能够模仿另一位演员或声音的特定表演，拓展了角色描绘的多样性和应用场景。

EMO应用场景：

创建即时配音
为电影和视频游戏创建逼真且富有表现力的角色
开发引人入胜的互动教育材料
给虚拟助手一个更像人类的外观和感觉
让视频电话会议更具吸引力和个性化
制作更引人入胜、更令人难忘的营销和广告视频

实验结果表明，EMO不仅能够制作令人信服的口语视频，还能够制作各种风格的歌唱视频，在表现力和真实感方面明显优于现有的最先进的方法。为视频生成设定了新的标准，对于未来来说意义重大。

Promptbase商城新上线Sora和通义万相提示词

AI智能体（AI Agent）是什么？有哪些应用产品

Qwen-Image：阿里云通义千问团队开源的图形海

Qwen-Image：阿里云通义千问团队开源的图形海

2025-08-06

ThinkSound：阿里巴巴通义实验室推出的多模态

ThinkSound：阿里巴巴通义实验室推出的多模态

2025-07-25

阿里Ovis-U1：具备多模态理解、图像生成、图像编

阿里Ovis-U1：具备多模态理解、图像生成、图像编

2025-06-30

Qwen VLo：阿里巴巴推出的多模态统一理解与生成

Qwen VLo：阿里巴巴推出的多模态统一理解与生成

2025-06-28

Mnn3dAvatar：阿里开源的3D数字人框架，直

Mnn3dAvatar：阿里开源的3D数字人框架，直

2025-06-12

VRAG-RL：阿里通义团队推出的一款基于视觉感知R

VRAG-RL：阿里通义团队推出的一款基于视觉感知R

2025-06-03

最新工具

法大大iTerms

法大大推出的一站式法律AI工作台，基于自研法律大模型的AI智能体...

Relume

一个通过AI来优化网站设计与搭建流程的平台，可以快速生成网站地图...

Pomelli

Google开发的AI营销工具，主要服务中小商家。你只需要提供企...

Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT

一个基于大语言模型的开源免费AIPPT生成平台，支持将文档内容自...

AppleWalls

一个免费提供苹果官方内置壁纸下载的网站，包括iPhone、iPa...

Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

森林电台Tree.FM

一个能让你收听世界各地森林声音的网站。通过随机收听功能，你可以沉...

Sweezy Cursors

一个提供免费鼠标光标的网站，支持Chrome浏览器和...

YumCheck

一款能帮用户解析食品包装上的营养成分标签，评估食品是否健康的免费...

用户登录

阿里巴巴EMO：一张图片和音频即可生成谈话或唱歌视频

相关文章

最新文章

最新工具