谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型

Gemma 3是什么?

Gemma 3是Google 发布的最新开源模型,超越了 DeepSeek V3 和 o3mini,成为全球第二强开源模型。Gemma 3 具备强大的多模态能力,能够理解文本、图片和短视频,同时还支持超过 140 种语言的预训练,直接支持超过 35 种语言。它配备了 128K 令牌的上下文窗口,能够处理大量信息,并支持函数调用和 ai 代理开发,可实现复杂任务的自动化。Gemma 3 提供四种不同尺寸的模型(1B、4B、12B 和 27B),以满足不同硬件和性能需求,并且能够在手机、电脑等多种设备上高效运行,支持从移动设备到工作站的广泛部署。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3功能特征

  • 多模态能力:支持文本、图像和短视频的混合输入,能够处理复杂的多模态任务。

  • 强大的语言支持:预训练支持超过 140 种语言,直接支持超过 35 种语言。

  • 大上下文窗口:支持 128k 令牌的上下文窗口,能够处理大量信息,例如 30 张高分辨率图像或 1 小时视频。

  • 高性能:在单 GPU 或 TPU 上的表现优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。

  • 优化与量化:提供官方量化版本,减少模型大小和计算需求,同时保持高精度。

  • 安全性:配备 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。

Gemma 3 四种尺寸的模型特点

  • 1B:轻量级,适合在手机或笔记本等资源受限设备上运行。

  • 4B:适合多模态任务,具备更强的图像和文本处理能力。

  • 12B:性能更强,适合复杂图像和视频分析。

  • 27B:最大版本,性能最强,适合高性能计算场景。

Gemma 3应用场景

  • 自然语言处理:用于聊天机器人、智能助手、文本分类、情感分析和机器翻译

  • 图像识别与分析:支持人脸识别、物体检测、图像问答和图像比较。

  • 视频分析:能够处理短视频内容,适用于视频内容分析和生成。

  • 智能客服:结合多模态输入,提供更智能的客户服务。

  • 工业质检:利用图像分析能力检测产品质量问题。

  • 代码生成与编程辅助:支持代码生成和自动代码修复。

Gemma 3使用方法

  1. 快速实验:通过 Google AI Studio 在浏览器中直接使用 Gemma 3,无需设置。

  2. 下载与微调:从 Hugging Face、Ollama 或 Kaggle 下载模型,并使用 Hugging Face Transformers 或其他工具进行微调。

  3. 部署选项:支持多种部署方式,包括 Vertex AI、Cloud Run、Google GenAI API、本地环境以及 NVIDIA GPU。

  4. 开发工具支持:兼容 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3技术

  • 底层架构:基于与 Gemini 相同的技术架构。

  • 训练与优化:采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升性能。

  • 视觉处理:使用动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像。

  • 硬件优化:针对 NVIDIA GPU 和 Google Cloud TPU 进行深度优化,确保高效运行。

Gemma 3相比Gemma 2有哪些改进?

  • 多模态能力:新增对文本、图像和短视频的混合输入支持,可处理图像问答和视频分析等复杂任务。

  • 性能提升:单 GPU 性能更强,推理速度提升 47%。

  • 语言支持:支持超过 140 种语言的预训练,直接支持 35 种语言,语言处理能力增强。

  • 上下文窗口扩展:支持 128k 令牌,可处理更大规模的信息。

  • 视觉处理能力:支持高分辨率图像和视频解析,1 小时视频的关键帧提取时间缩短至 20 秒。

  • 安全性增强:配备 ShieldGemma 2 图像安全分类器,可检测危险内容。

  • 硬件优化:针对 GPU 和 TPU 进行深度优化,支持多种部署选项。

  • 训练与微调:采用强化学习等技术,提供更灵活的微调工具。

详细阅读:https://blog.google/technology/developers/gemma-3/

收藏
最新工具
Freebeat AI
Freebeat AI

一个可以帮音乐人和内容创作者把音频、文字或图片快速做成爆款音乐视...

DownSub
DownSub

一个免费的在线字幕下载工具,能从 YouTube、Viki、Vi...

GamePix
GamePix

全球领先的 HTML5 和 WebGL 游戏分发平台。它把各类分...

PixelSquid
PixelSquid

Shutterstock推出的专为平面设计师和Photoshop...

Dos.Zone
Dos.Zone

一个聚合经典DOS游戏的在线游玩平台,游戏种类特别多,有动作、策...

KBHgames
KBHgames

一个老牌免费在线游戏网站,谁都可以在这儿找到想玩的游戏。涵盖动作...

SoundWise AI
SoundWise AI

一个完全免费的AI音视频转录工具,能在浏览器里直接把音频和视频转...

Armor Games
Armor Games

全球知名免费在线游戏平台与独立游戏发行商​,ArmorGames...

Social Auto Upload
Social Auto Upload

社交媒体视频一键多平台发布工具​,一站式解决抖音、小红书、视频号...

在线DOS游戏
在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器,适合怀旧玩家和游戏开...