KeySync:一款唇形同步工具,解决表情泄漏和遮挡问题
KeySync 是什么?
KeySync是一款新推出的唇形同步工具,其核心优势在于解决了表情泄漏和遮挡问题。它能够确保唇部动作不受原始视频中人物表情的影响,即使嘴部被遮挡,也不会影响同步效果。
KeySync能够处理高分辨率视频,并将生成的唇部动作准确地与新音频对齐,有效避免音画不同步的问题。其采用的两阶段框架设计,能够保持良好的时间连贯性,使嘴型变化自然流畅。
此外,KeySync还支持通过调整参数来控制动画的生成过程,例如可以指定遮挡物体的位置,从而实现更灵活的定制化效果。
KeySync 功能特征
高分辨率唇部同步:生成高质量、自然流畅的唇部动作,适配高分辨率视频。
无泄漏处理:避免输入视频中的其他表情干扰唇部动作,确保动作仅与音频匹配。
遮挡处理:通过掩码策略,有效处理面部遮挡问题。
时间一致性:确保唇部动作在时间上连贯,避免不自然的过渡。
跨同步能力:支持不同视频与音频之间的唇部同步。
KeySync 技术原理
KeySync 采用两阶段框架来生成唇部同步视频:
关键帧生成阶段:从输入视频中选取关键帧,并通过扩散模型生成与输入音频相匹配的唇部动作。
插值阶段:在关键帧之间进行插值,生成中间帧,以构建完整的唇部同步视频。
此外,KeySync 设计了一种新颖的掩蔽策略,用于解决表情泄露和面部遮挡问题。该策略通过面部标志点检测确定唇部区域,并扩展掩蔽区域以覆盖下巴和部分脸颊,同时排除遮挡物的影响。
KeySync 应用场景
虚拟现实(VR)和增强现实(AR):生成虚拟角色或增强现实中的唇部动作,增强沉浸感。
视频会议:改善网络延迟下的唇部同步问题,提升远程通信的自然感。
动画制作:快速生成角色唇部动画,提高制作效率。
多语言内容本地化:为不同语言的配音生成匹配的唇部动作,提升本地化效果。
KeySync 使用方法
访问演示页面:打开链接 https://huggingface.co/spaces/toninio19/keysync-demo
上传文件:在页面上找到上传视频和音频文件的区域,分别上传你的视频(.mp4 格式)和音频(.wav 格式)文件。
创建同步视频:上传完成后,点击相应的操作按钮(具体按钮可能根据页面设计而定),系统会开始处理上传的文件,并生成同步视频。
查看结果:处理完成后,你可以在页面上查看生成的同步视频。
项目链接
项目页面:https://antonibigata.github.io/KeySync/
模型仓库:https://huggingface.co/toninio19/keysync
在线演示:https://huggingface.co/spaces/toninio19/keysync-demo
论文链接:https://arxiv.org/abs/2505.00497