OmniSVG:复旦大学和StepFun联合推出的开源多模态SVG生成模型

OmniSVG是什么?

OmniSVG是由复旦大学和StepFun联合推出的开源多模态SVG生成模型,能够通过文本、图像或角色参考生成高质量矢量图形,于2025年4月9日正式发布。

OmniSVG技术原理

OmniSVG 基于预训练的视觉-语言模型(VLM)Qwen-VL 构建,并创新性地集成了 SVG 标记化器。通过将 SVG 命令和坐标参数化为离散的令牌(tokens),OmniSVG 成功地将矢量图形的结构逻辑与低级几何细节解耦。这种设计不仅提高了训练效率,还将训练速度提升了3倍以上,同时保留了生成复杂 SVG 结构的能力。

OmniSVG技术原理.webp

OmniSVG生成模式

  • 文本生成SVG:用户可以通过自然语言描述生成语义相关的矢量图形,例如输入“坐在樱花树下的卡通猫”。

  • 图像生成SVG:自动将位图(如照片或手绘草图)转换为由路径组成的矢量图形,保留原始图像的视觉特征,同时获得可编辑性。

  • 角色参考SVG:基于现有角色图像生成具有相同角色特征但姿势或场景不同的矢量图形,对动画和游戏角色设计特别有价值。

数据集与评估协议

为了推动 SVG 生成技术的发展,OmniSVG 团队发布了 MMSVG-2M 数据集。这是一个包含200万个丰富注释的 SVG 资源的多模态数据集,涵盖图标、插图和角色三大子集。此外,他们还提出了一个标准化的评估协议 MMSVG-Bench,用于测试条件 SVG 生成任务的性能。

数据集与评估协议.webp

OmniSVG优势

  • 与传统方法相比,OmniSVG 克服了以往 SVG 生成技术的一些核心难题:

  • 传统方法往往生成结构松散、计算成本高昂的结果,或者局限于单色、过于简化的图标。

  • OmniSVG 通过端到端的多模态生成框架,显著提升了生成质量和复杂性,能够生成色彩丰富、细节生动的矢量图形。

OmniSVG应用场景.webp

OmniSVG应用场景

  • 适用于UI/UX设计、动漫角色创作、工业CAD等场景

  • 生成SVG可直接编辑,支持无限放大不失真

项目地址:https://omnisvg.github.io/

代码仓库:https://github.com/OmniSVG/OmniSVG

论文地址:https://arxiv.org/pdf/2504.06263

收藏

相关文章

最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...