StarVector:用于生成可缩放矢量图形的开源多模态视觉模型

StarVector是什么?

StarVector 是一种由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 联合开发的新型开源多模态视觉-语言模型,专门用于生成可缩放矢量图形(SVG)。

StarVector:用于生成可缩放矢量图形的开源多模态视觉模型.webp

StarVector核心功能

  • 图像到 SVG 的转换(Image-to-SVG):能够将图像直接转换为 SVG 代码,实现图像的矢量化。

  • 文本到 SVG 的生成(Text-to-SVG):可以根据文本指令生成相应的 SVG 图形。

StarVector技术特点

  • 多模态架构:StarVector 采用多模态架构,能够同时处理图像和文本信息,将视觉和语言模型无缝集成。

  • 直接操作 SVG 代码空间:与一些中间表示方法不同,StarVector 直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 代码。

  • 大规模数据集训练:StarVector 在包含超过 200 万个 SVG 样本的 SVG-Stack 数据集上进行训练,确保模型能够泛化到各种矢量化任务。

  • 两种规模模型:提供 StarVector-1B(包含 10 亿参数)和 StarVector-8B(包含 80 亿参数)两种模型,以满足不同计算资源和性能需求。

StarVector架构与原理

  • 图像编码器:使用 Vision Transformer(ViT)处理图像,将图像分割成小块并依次处理。

  • LLM 适配器:将图像编码器生成的嵌入向量非线性投影到视觉标记,以便与语言模型集成。

  • Transformer 解码器架构:将视觉标记或文本标记序列映射到 SVG 代码。

StarVector性能表现

在图像到 SVG 和文本到 SVG 的任务中,StarVector 的性能优于现有模型,例如在 SVG-Bench 基准测试中,StarVector-8B 在多个指标上均优于 GPT-4 Vision(2023)和 Potrace 等模型。

在 SVG-Diagrams 数据集的图像矢量化任务中,StarVector-8B 在 DinoScore 和 LPIPS 等指标上表现优异。

StarVector应用场景

  • 设计与创意领域:帮助设计师快速生成 SVG 文件,提高设计效率。

  • 技术绘图与图表生成:能够生成复杂的技术图表和图形,适用于工程、科学等领域。

StarVector相关链接

项目地址:https://starvector.github.io/

StarVector GitHub 仓库:https://github.com/starvector

StarVector 论文:https://arxiv.org/html/2312.11556v3

收藏

相关文章

最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...