StarVector:用于生成可缩放矢量图形的开源多模态视觉模型

StarVector是什么?

StarVector 是一种由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 联合开发的新型开源多模态视觉-语言模型,专门用于生成可缩放矢量图形(SVG)。

StarVector:用于生成可缩放矢量图形的开源多模态视觉模型.webp

StarVector核心功能

  • 图像到 SVG 的转换(Image-to-SVG):能够将图像直接转换为 SVG 代码,实现图像的矢量化。

  • 文本到 SVG 的生成(Text-to-SVG):可以根据文本指令生成相应的 SVG 图形。

StarVector技术特点

  • 多模态架构:StarVector 采用多模态架构,能够同时处理图像和文本信息,将视觉和语言模型无缝集成。

  • 直接操作 SVG 代码空间:与一些中间表示方法不同,StarVector 直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 代码。

  • 大规模数据集训练:StarVector 在包含超过 200 万个 SVG 样本的 SVG-Stack 数据集上进行训练,确保模型能够泛化到各种矢量化任务。

  • 两种规模模型:提供 StarVector-1B(包含 10 亿参数)和 StarVector-8B(包含 80 亿参数)两种模型,以满足不同计算资源和性能需求。

StarVector架构与原理

  • 图像编码器:使用 Vision Transformer(ViT)处理图像,将图像分割成小块并依次处理。

  • LLM 适配器:将图像编码器生成的嵌入向量非线性投影到视觉标记,以便与语言模型集成。

  • Transformer 解码器架构:将视觉标记或文本标记序列映射到 SVG 代码。

StarVector性能表现

在图像到 SVG 和文本到 SVG 的任务中,StarVector 的性能优于现有模型,例如在 SVG-Bench 基准测试中,StarVector-8B 在多个指标上均优于 GPT-4 Vision(2023)和 Potrace 等模型。

在 SVG-Diagrams 数据集的图像矢量化任务中,StarVector-8B 在 DinoScore 和 LPIPS 等指标上表现优异。

StarVector应用场景

  • 设计与创意领域:帮助设计师快速生成 SVG 文件,提高设计效率。

  • 技术绘图与图表生成:能够生成复杂的技术图表和图形,适用于工程、科学等领域。

StarVector相关链接

项目地址:https://starvector.github.io/

StarVector GitHub 仓库:https://github.com/starvector

StarVector 论文:https://arxiv.org/html/2312.11556v3

收藏

相关文章

最新工具
JellyMario
JellyMario

一款改自经典的《超级马里奥》的网页游戏。游戏里的角色、敌人和场景...

MyAITeachers AI吾师
MyAITeachers AI吾师

一个面向 8 岁以上学习者的AI学习辅导工具,有多位 AI 老师...

Presenton
Presenton

一个可以本地运行的开源AI PPT生成器,使用OpenAI、Ge...

Eigent AI
Eigent AI

全球首个桌面端多智能体生产力平台,采用多智能体协作架构,通过拆分...

NB Map
NB Map

灰色执照做的免费在线三维地图生成工具。它能根据真实地形数据,做出...

AI Dungeon
AI Dungeon

一款靠AI运行的文字冒险游戏。玩家可以自己选或创建冒险场景,像幻...

PairDrop
PairDrop

一款开源的跨平台文件传输工具,能通过在其他设备打开它、配对设备或...

Oldswf
Oldswf

专门提供经典Flash小游戏的网站,收录了超过5万多不同类型的游...

AutoClip
AutoClip

一款AI智能视频切片工具,能自动下载B站视频、剪辑精彩片段并生成...

EdClub
EdClub

一个提供高品质课程的学习平台,EdClub主要提供打字学习、词汇...