MuseSteamer:百度自研的AI视频生成模型
MuseSteamer 是百度在 2025 年 7 月 2 日发布的视频生成模型。它能同时生成画面、音效和台词,是首个实现中文音视频一体化生成的模型,改变了传统 aiGC 视频先画面后配音的模式。百度还同步推出了 AI 视频创作平台 “绘想”。
功能特点:
音视频一体化生成:全球首个实现中文音视频一体化生成的视频模型,能够实现画面与音效、人声台词的协同创作,打破了传统AIGC视频“先画面后配音”的割裂流程。
多模态输入:支持中文文本提示、参考图像等输入方式。
视频生成:可生成长达 10 秒的动态视频,画质出色,能灵活控制场景、动作和镜头感,实现音视一体化。比如生成的古装武侠视频,人物动作、表情自然,运镜专业。
一体化生成:能同步生成画面、音效和台词,声音与画面自然匹配,提升视频的完整性和艺术表现力。
中文语义理解:精准理解中文语义,通过优化数据体系,确保文本指令与视觉元素的语义对齐。
视频描述语言:采用精细化的视频结构化描述语言,涵盖画面细节、主体运动轨迹、风格属性和镜头语言等,保障模型对画面细节的遵循。
技术突破:
亿级中文多模态数据清洗:深度清洗大量中文多模态数据,确保训练数据的高质量。
精细化视频结构化描述语言:提升模型对视频内容的理解和生成能力。
多目标强化学习:优化路径,保证视频动作幅度的同时,保持主体内容的一致性稳定输出。
产品矩阵及适用人群:
Lite 版:720p,生成速度快(30 秒),价格实惠,适合追求性价比的用户。
Turbo 版:720p,擅长生成人物、动漫视频,动作一致性好,运动幅度大,表情自然,适合大部分创作者,已上线绘想平台并开启限时免费公测。
Pro 版:1080p,电影级画质和运镜,表现力强,适合专业创作者和影视生产机构。
有声版:各清晰度均支持一体化生成音效及台词,适合对同期声和画面有高要求的用户。
应用场景:
视频创作:帮助创作者突破创意瓶颈,快速生成高质量视频。
广告制作:为广告视频制作提供高效解决方案,提升吸引力。
教育与培训:生成教育视频和动画,直观解释复杂概念。
个人娱乐:用户上传图片即可生成个性化视频,分享个人故事。