Cobra:开源AI上色模型,用于线稿上色,特别适用于漫画上色。
Cobra 是什么?
Cobra 是一种新型高效的长上下文细粒度 ID 保持框架,用于线稿上色,特别适用于漫画上色。 Cobra 通过整合广泛的上下文参考图像,将黑白线稿转换为彩色插图。Cobra 这个方法可以支持超过 200 张参考图像,同时还可以保持低延迟,并提供灵活的用户控制。
Cobra 方法
核心架构:Cobra 基于 Causal Sparse DiT 架构,利用特别设计的位置编码、因果稀疏注意力和键值缓存(KV-Cache)来有效管理长上下文参考,确保颜色 ID 的一致性。
局部可重复使用的位置编码:确保适当的宽高比和分辨率。
因果稀疏注意力:通过减少参考图像之间的成对计算,降低计算复杂度,同时结合 KV-Cache 提高计算效率。
Cobra 实验结果
定性结果:Cobra 在复杂场景中能够准确保留颜色 ID,并提供高质量的上色结果。
定量比较:与现有的漫画上色方法(如 CLIP-IS、FID、PSNR、SSIM 和 AS 指标)相比,Cobra 在线稿和带阴影的线稿上色方面表现出色。
参考图像数量的影响:随着参考图像数量的增加,Cobra 的性能持续提升。
推理时间效率:因果稀疏注意力(结合 KV-Cache)在不同参考图像数量下表现出更高的效率。
Cobra 应用场景
交互式线稿上色:用户可以通过颜色提示灵活控制上色结果。
线稿上色:适用于简单的线稿。
带阴影的线稿上色:在复杂场景中保持颜色保真度和细节。
线稿视频上色:支持动态内容的上色。
Cobra 常见问题
问:Cobra 与其他线稿上色方法相比,优势主要体现在哪些方面?
答:Cobra 优势体现在定性和定量两方面。定性上,能在复杂场景准确保留颜色 ID,处理带阴影线稿时保持颜色保真度并增强细节;定量上,在 CLIP-IS、FID、PSNR、SSIM、AS 等指标上表现更优,且推理时间效率更高。
问:Cobra 中的因果稀疏 DiT 架构是如何提高计算效率的?
答:因果稀疏 DiT 架构通过减少参考图像间的成对计算,应用单向因果注意力,以及使用 KV 缓存来提高计算效率。减少成对计算降低了计算复杂度,单向因果注意力和 KV 缓存确保在高效计算的同时有效传递关键颜色 ID 信息。
问:参考图像数量对 Cobra 性能有怎样的影响?
答:随着参考图像数量增加,Cobra 的性能呈现持续提升的趋势。如 CLIP-IS 指标从参考图像数量为 4 时的 0.9083 提升到 36 时的 0.9183,FID 指标从 23.18 下降到 20.64 等,PSNR、SSIM、AS 等指标也有相应的提升。
相关链接
项目主页:https://zhuang2002.github.io/Cobra/
Github:https://github.com/Zhuang2002/Cobra
论文:https://arxiv.org/abs/2504.12240