MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统

MM-StoryAgent是什么?

MM-StoryAgent是上海交大和阿里开源的一款ai多模态故事生成系统,采用多智能体范式,能生成沉浸式的有声故事书视频。它融合了文本、图像、音频等多种元素,借助大型语言模型和一些专业工具,自动生成包含文字、图像以及多声道音频(旁白、音效、背景音乐)的故事视频,可用于儿童故事快速创作。

MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统.webp

MM-StoryAgent功能特点

  • 创作高质量故事:依据输入的故事设定,通过多智能体、多阶段的流程创作故事。采用自上而下构思草稿、自下而上生成素材的方式,解决手动干预、场景编排和叙事一致等问题。

  • 生成多模态内容:结合文本、图像、语音、音乐等模态生成沉浸式故事视频。将任务分解后分配给不同的专业“智能体”,如负责故事设计、故事板生成、视频创建等,模拟专业制作流程。

  • 支持定制化工作流:提供可靠且可定制的工作流程,用户能通过配置文件等方式自定义智能体行为,定义自己的专业工具来提升各组件生成质量。

  • 增强角色一致性:生成过程中注重角色和主题的一致性。采用定制化的图像转视频方法和新的故事板生成流程,保证镜头间主体一致。

  • 自动化且灵活:利用大型语言模型和专业工具,能将简单提示自动转换为多模态数字故事,无需参考视频就能生成连贯内容。

  • 便于评估优化:提供故事主题列表和评估标准,方便用户评估生成故事的质量并进行改进。

MM-StoryAgent核心技术

  • 多智能体框架运作机制:通过多阶段写作流程和多智能体协作创作故事,整合视觉、听觉和叙事元素,带来全方位感官体验。

  • 定制图像转视频方法:引入LoRA-BE这种定制的图像转视频方法,增强镜头内时间一致性,提升视频视觉质量。

MM-StoryAgent核心技术.webp

MM-StoryAgent使用方法

  1. 获取源代码:访问MM_StoryAgent的GitHub仓库(见下面链接),下载源代码。

  2. 安装依赖项:按照项目文档说明,安装Python库等必要的软件包。

  3. 配置环境:设置开发环境,确保依赖项正确安装,可能需要配置一些环境变量。

  4. 准备输入数据:准备好故事设定、角色描述、场景信息等数据用于故事创作。

  5. 运行生成过程:使用提供的脚本或命令行工具启动生成流程,可通过指定输入数据和参数定制故事。

  6. 查看评估结果:生成的视频形式的故事输出后,查看并评估质量和效果,按需调整。

  7. 优化迭代:根据评估结果调整输入数据或参数,重新运行生成流程优化故事内容和表现力 。

GitHub仓库:https://github.com/X-PLUG/MM_StoryAgent

收藏
最新工具
AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...