MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统

MM-StoryAgent是什么?

MM-StoryAgent是上海交大和阿里开源的一款ai多模态故事生成系统,采用多智能体范式,能生成沉浸式的有声故事书视频。它融合了文本、图像、音频等多种元素,借助大型语言模型和一些专业工具,自动生成包含文字、图像以及多声道音频(旁白、音效、背景音乐)的故事视频,可用于儿童故事快速创作。

MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统.webp

MM-StoryAgent功能特点

  • 创作高质量故事:依据输入的故事设定,通过多智能体、多阶段的流程创作故事。采用自上而下构思草稿、自下而上生成素材的方式,解决手动干预、场景编排和叙事一致等问题。

  • 生成多模态内容:结合文本、图像、语音、音乐等模态生成沉浸式故事视频。将任务分解后分配给不同的专业“智能体”,如负责故事设计、故事板生成、视频创建等,模拟专业制作流程。

  • 支持定制化工作流:提供可靠且可定制的工作流程,用户能通过配置文件等方式自定义智能体行为,定义自己的专业工具来提升各组件生成质量。

  • 增强角色一致性:生成过程中注重角色和主题的一致性。采用定制化的图像转视频方法和新的故事板生成流程,保证镜头间主体一致。

  • 自动化且灵活:利用大型语言模型和专业工具,能将简单提示自动转换为多模态数字故事,无需参考视频就能生成连贯内容。

  • 便于评估优化:提供故事主题列表和评估标准,方便用户评估生成故事的质量并进行改进。

MM-StoryAgent核心技术

  • 多智能体框架运作机制:通过多阶段写作流程和多智能体协作创作故事,整合视觉、听觉和叙事元素,带来全方位感官体验。

  • 定制图像转视频方法:引入LoRA-BE这种定制的图像转视频方法,增强镜头内时间一致性,提升视频视觉质量。

MM-StoryAgent核心技术.webp

MM-StoryAgent使用方法

  1. 获取源代码:访问MM_StoryAgent的GitHub仓库(见下面链接),下载源代码。

  2. 安装依赖项:按照项目文档说明,安装Python库等必要的软件包。

  3. 配置环境:设置开发环境,确保依赖项正确安装,可能需要配置一些环境变量。

  4. 准备输入数据:准备好故事设定、角色描述、场景信息等数据用于故事创作。

  5. 运行生成过程:使用提供的脚本或命令行工具启动生成流程,可通过指定输入数据和参数定制故事。

  6. 查看评估结果:生成的视频形式的故事输出后,查看并评估质量和效果,按需调整。

  7. 优化迭代:根据评估结果调整输入数据或参数,重新运行生成流程优化故事内容和表现力 。

GitHub仓库:https://github.com/X-PLUG/MM_StoryAgent

收藏
最新工具
达探星
达探星

一款TikTok达人邀约工具,特别适合TikTok小店用来爆单。...

ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...