谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型

Gemma 3是什么?

Gemma 3是Google 发布的最新开源模型,超越了 DeepSeek V3 和 o3mini,成为全球第二强开源模型。Gemma 3 具备强大的多模态能力,能够理解文本、图片和短视频,同时还支持超过 140 种语言的预训练,直接支持超过 35 种语言。它配备了 128K 令牌的上下文窗口,能够处理大量信息,并支持函数调用和 ai 代理开发,可实现复杂任务的自动化。Gemma 3 提供四种不同尺寸的模型(1B、4B、12B 和 27B),以满足不同硬件和性能需求,并且能够在手机、电脑等多种设备上高效运行,支持从移动设备到工作站的广泛部署。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3功能特征

  • 多模态能力:支持文本、图像和短视频的混合输入,能够处理复杂的多模态任务。

  • 强大的语言支持:预训练支持超过 140 种语言,直接支持超过 35 种语言。

  • 大上下文窗口:支持 128k 令牌的上下文窗口,能够处理大量信息,例如 30 张高分辨率图像或 1 小时视频。

  • 高性能:在单 GPU 或 TPU 上的表现优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。

  • 优化与量化:提供官方量化版本,减少模型大小和计算需求,同时保持高精度。

  • 安全性:配备 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。

Gemma 3 四种尺寸的模型特点

  • 1B:轻量级,适合在手机或笔记本等资源受限设备上运行。

  • 4B:适合多模态任务,具备更强的图像和文本处理能力。

  • 12B:性能更强,适合复杂图像和视频分析。

  • 27B:最大版本,性能最强,适合高性能计算场景。

Gemma 3应用场景

  • 自然语言处理:用于聊天机器人、智能助手、文本分类、情感分析和机器翻译

  • 图像识别与分析:支持人脸识别、物体检测、图像问答和图像比较。

  • 视频分析:能够处理短视频内容,适用于视频内容分析和生成。

  • 智能客服:结合多模态输入,提供更智能的客户服务。

  • 工业质检:利用图像分析能力检测产品质量问题。

  • 代码生成与编程辅助:支持代码生成和自动代码修复。

Gemma 3使用方法

  1. 快速实验:通过 Google AI Studio 在浏览器中直接使用 Gemma 3,无需设置。

  2. 下载与微调:从 Hugging Face、Ollama 或 Kaggle 下载模型,并使用 Hugging Face Transformers 或其他工具进行微调。

  3. 部署选项:支持多种部署方式,包括 Vertex AI、Cloud Run、Google GenAI API、本地环境以及 NVIDIA GPU。

  4. 开发工具支持:兼容 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3技术

  • 底层架构:基于与 Gemini 相同的技术架构。

  • 训练与优化:采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升性能。

  • 视觉处理:使用动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像。

  • 硬件优化:针对 NVIDIA GPU 和 Google Cloud TPU 进行深度优化,确保高效运行。

Gemma 3相比Gemma 2有哪些改进?

  • 多模态能力:新增对文本、图像和短视频的混合输入支持,可处理图像问答和视频分析等复杂任务。

  • 性能提升:单 GPU 性能更强,推理速度提升 47%。

  • 语言支持:支持超过 140 种语言的预训练,直接支持 35 种语言,语言处理能力增强。

  • 上下文窗口扩展:支持 128k 令牌,可处理更大规模的信息。

  • 视觉处理能力:支持高分辨率图像和视频解析,1 小时视频的关键帧提取时间缩短至 20 秒。

  • 安全性增强:配备 ShieldGemma 2 图像安全分类器,可检测危险内容。

  • 硬件优化:针对 GPU 和 TPU 进行深度优化,支持多种部署选项。

  • 训练与微调:采用强化学习等技术,提供更灵活的微调工具。

详细阅读:https://blog.google/technology/developers/gemma-3/

收藏
最新工具
Animon AI
Animon AI

全球首款专为动漫设计的AI视频生成平台。它的特点是“上传一张插画...

TheStocks.IM
TheStocks.IM

一个综合性设计素材资源与工具聚合平台,汇集了包括 Unsplas...

WeaveSilk
WeaveSilk

一个在线光线艺术绘画工具,直接用鼠标在画布上画图案就能生成对称又...

Aice PS
Aice PS

网页版AI照片编辑器,利用Google aistudio的的先进...

FlightRadar24
FlightRadar24

一个实时航班追踪工具。它把谷歌地图、航空信息,还有 ADS-B、...

VeeSpark
VeeSpark

一个能做AI内容生成的平台,主要帮人通过文字或图片快速做出视频和...

Hitem3D AI
Hitem3D AI

Math Magic公司开发的工具,用他们自研的高精度AI模型S...

Tools.Dverso.io
Tools.Dverso.io

一个带洗衣游戏感的在线抠图工具,是个能去掉图片背景的网站,它的特...

Neural4D
Neural4D

一个专注3D动态场景生成与交互的创新平台,核心是用人工智能技术把...

Emergent.sh
Emergent.sh

一个只需一句话就可生成APP应用的开发平台,覆盖从需求规划到最终...