StarVector:用于生成可缩放矢量图形的开源多模态视觉模型

StarVector是什么?

StarVector 是一种由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 联合开发的新型开源多模态视觉-语言模型,专门用于生成可缩放矢量图形(SVG)。

StarVector:用于生成可缩放矢量图形的开源多模态视觉模型.webp

StarVector核心功能

  • 图像到 SVG 的转换(Image-to-SVG):能够将图像直接转换为 SVG 代码,实现图像的矢量化。

  • 文本到 SVG 的生成(Text-to-SVG):可以根据文本指令生成相应的 SVG 图形。

StarVector技术特点

  • 多模态架构:StarVector 采用多模态架构,能够同时处理图像和文本信息,将视觉和语言模型无缝集成。

  • 直接操作 SVG 代码空间:与一些中间表示方法不同,StarVector 直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 代码。

  • 大规模数据集训练:StarVector 在包含超过 200 万个 SVG 样本的 SVG-Stack 数据集上进行训练,确保模型能够泛化到各种矢量化任务。

  • 两种规模模型:提供 StarVector-1B(包含 10 亿参数)和 StarVector-8B(包含 80 亿参数)两种模型,以满足不同计算资源和性能需求。

StarVector架构与原理

  • 图像编码器:使用 Vision Transformer(ViT)处理图像,将图像分割成小块并依次处理。

  • LLM 适配器:将图像编码器生成的嵌入向量非线性投影到视觉标记,以便与语言模型集成。

  • Transformer 解码器架构:将视觉标记或文本标记序列映射到 SVG 代码。

StarVector性能表现

在图像到 SVG 和文本到 SVG 的任务中,StarVector 的性能优于现有模型,例如在 SVG-Bench 基准测试中,StarVector-8B 在多个指标上均优于 GPT-4 Vision(2023)和 Potrace 等模型。

在 SVG-Diagrams 数据集的图像矢量化任务中,StarVector-8B 在 DinoScore 和 LPIPS 等指标上表现优异。

StarVector应用场景

  • 设计与创意领域:帮助设计师快速生成 SVG 文件,提高设计效率。

  • 技术绘图与图表生成:能够生成复杂的技术图表和图形,适用于工程、科学等领域。

StarVector相关链接

项目地址:https://starvector.github.io/

StarVector GitHub 仓库:https://github.com/starvector

StarVector 论文:https://arxiv.org/html/2312.11556v3

收藏

相关文章

最新工具
AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...