AniSora:B站开源的动漫视频生成模型

AniSora是什么?

AniSora是哔哩哔哩在2025年5月12日开源的一个ai动画视频生成系统。它能轻松生成各种风格的动漫视频,比如番剧片段、国创动画、漫画改编、VTuber内容、动画PV,还有鬼畜视频。这个系统在保持角色形象和动作流畅性方面做得很不错,可以说是目前最先进的动画视频生成模型。

AniSora:B站开源的动漫视频生成模型.webp

AniSora功能

  • 图像到视频生成:根据单张图片生成连贯的动画视频,适用于从静态画面扩展为动态场景。

  • 帧插值:支持关键帧插值,基于生成中间帧实现平滑过渡,减少动画制作中手工绘制的工作量。

  • 局部图像引导:支持用户指定特定区域进行动画生成。

  • 时空控制:结合时间和空间的控制能力,支持首帧、尾帧、多帧引导等多种方式,实现精准的动画创作。

AniSora模型特点

  • 针对性优化:相比自然视频,动漫视频在风格上更具表现力和抽象性,传统的生成模型往往难以精准复现角色神态、动作节奏以及夸张的镜头语言。AniSora 针对这些特性做了针对性优化,目标是在不牺牲创意表达的前提下,提升视频生成效率。

  • 多样化风格支持:能够一键生成多种风格的视频片段,涵盖系列剧集、中国原创动画、漫画改编、VTuber 内容、动漫 PV 甚至是鬼畜类创作。

  • 低门槛创作:对于有实际制作需求的个人或工作室而言,AniSora 是极具吸引力的创作工具

AniSora核心模块

  • 数据处理流水线:预处理了超过 1000 万对高质量的文本 - 视频数据,为训练提供了坚实基础。

  • 可控生成模型:引入时空掩码模块,支持图生视频、关键帧插值、局部图像引导等功能,能够适配各种创作需求。

  • 评测体系:构建了包含 948 段多样化动画片段的评测数据集,结合双盲人评审和 VBench 评分系统,对人物一致性、动作衔接等维度进行打分。

AniSora技术原理

  • 扩散模型(Diffusion Model):基于扩散模型架构,逐步去除噪声生成高质量的视频内容。

  • 时空掩码模块(Spatiotemporal Mask Module):支持模型在生成过程中对特定时间和空间区域进行控制,例如掩码指定哪些帧或哪些区域需要生成动画,实现局部引导和关键帧插值等功能。

  • 3D 因果变分自编码器(3D Causal VAE):用于对视频的时空特征进行编码和解码,将视频压缩到低维的潜在空间,降低计算复杂度,同时保留关键的时空信息。

  • Transformer 架构:结合 Transformer 的强大建模能力,基于注意力机制捕捉视频中的复杂时空依赖关系,使模型能够处理长序列数据,生成更连贯的视频内容。

  • 监督微调(Supervised Fine-Tuning):在预训练的基础上,用大量的动画视频数据进行监督微调,通过多种策略(如弱到强的训练策略、多任务学习等)提高模型的泛化能力和生成质量。

  • 数据处理流水线:基于场景检测、光学流分析、美学评分等技术,从大量原始动画视频中筛选出高质量的训练数据,确保训练数据的质量和多样性。

开源地址

  • https://github.com/bilibili/Index-anisora/tree/main

  • https://huggingface.co/IndexTeam/Index-anisora

  • https://www.modelscope.cn/organization/bilibili-index

收藏
最新工具
GridType
GridType

一款网格化字体设计工具。它让你生成不同类型的网格,在网格里画字体...

Solitaire Bliss
Solitaire Bliss

一个免费、无限次数的在线单人纸牌游戏网站,主要玩经典单人纸牌游戏...

TalenCat
TalenCat

一家提供在线简历制作工具的公司,主要产品TalenCat CV ...

BoardGameArena
BoardGameArena

简称BGA,是一个专注于在线桌游的平台,它通过将传统的桌面游戏数...

Dogod.io
Dogod.io

一款浏览器多人在线实时对战游戏,主题是“狗狗抡棒子”,画风魔性搞...

Drive Mad
Drive Mad

Martin Magni 开发的热门在线驾驶游戏。玩家需要驾驶车...

Fugue
Fugue

icons8旗下的免版税音乐下载网站,音乐可免费用于非商用场景...

PlayClassic Games
PlayClassic Games

PlayClassic Games 是一个能让你直接在浏览器里玩...

Modelfy 3D
Modelfy 3D

一个能把2D图片快速变成高质量3D模型的工具,生成的模型最多能有...

DryVocal
DryVocal

一款专业音频处理工具,主要用于从复杂音频中提取和增强人声,特别适...