MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统

MM-StoryAgent是什么?

MM-StoryAgent是上海交大和阿里开源的一款ai多模态故事生成系统,采用多智能体范式,能生成沉浸式的有声故事书视频。它融合了文本、图像、音频等多种元素,借助大型语言模型和一些专业工具,自动生成包含文字、图像以及多声道音频(旁白、音效、背景音乐)的故事视频,可用于儿童故事快速创作。

MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统.webp

MM-StoryAgent功能特点

  • 创作高质量故事:依据输入的故事设定,通过多智能体、多阶段的流程创作故事。采用自上而下构思草稿、自下而上生成素材的方式,解决手动干预、场景编排和叙事一致等问题。

  • 生成多模态内容:结合文本、图像、语音、音乐等模态生成沉浸式故事视频。将任务分解后分配给不同的专业“智能体”,如负责故事设计、故事板生成、视频创建等,模拟专业制作流程。

  • 支持定制化工作流:提供可靠且可定制的工作流程,用户能通过配置文件等方式自定义智能体行为,定义自己的专业工具来提升各组件生成质量。

  • 增强角色一致性:生成过程中注重角色和主题的一致性。采用定制化的图像转视频方法和新的故事板生成流程,保证镜头间主体一致。

  • 自动化且灵活:利用大型语言模型和专业工具,能将简单提示自动转换为多模态数字故事,无需参考视频就能生成连贯内容。

  • 便于评估优化:提供故事主题列表和评估标准,方便用户评估生成故事的质量并进行改进。

MM-StoryAgent核心技术

  • 多智能体框架运作机制:通过多阶段写作流程和多智能体协作创作故事,整合视觉、听觉和叙事元素,带来全方位感官体验。

  • 定制图像转视频方法:引入LoRA-BE这种定制的图像转视频方法,增强镜头内时间一致性,提升视频视觉质量。

MM-StoryAgent核心技术.webp

MM-StoryAgent使用方法

  1. 获取源代码:访问MM_StoryAgent的GitHub仓库(见下面链接),下载源代码。

  2. 安装依赖项:按照项目文档说明,安装Python库等必要的软件包。

  3. 配置环境:设置开发环境,确保依赖项正确安装,可能需要配置一些环境变量。

  4. 准备输入数据:准备好故事设定、角色描述、场景信息等数据用于故事创作。

  5. 运行生成过程:使用提供的脚本或命令行工具启动生成流程,可通过指定输入数据和参数定制故事。

  6. 查看评估结果:生成的视频形式的故事输出后,查看并评估质量和效果,按需调整。

  7. 优化迭代:根据评估结果调整输入数据或参数,重新运行生成流程优化故事内容和表现力 。

GitHub仓库:https://github.com/X-PLUG/MM_StoryAgent

收藏
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...