谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型

Gemma 3是什么?

Gemma 3是Google 发布的最新开源模型,超越了 DeepSeek V3 和 o3mini,成为全球第二强开源模型。Gemma 3 具备强大的多模态能力,能够理解文本、图片和短视频,同时还支持超过 140 种语言的预训练,直接支持超过 35 种语言。它配备了 128K 令牌的上下文窗口,能够处理大量信息,并支持函数调用和 ai 代理开发,可实现复杂任务的自动化。Gemma 3 提供四种不同尺寸的模型(1B、4B、12B 和 27B),以满足不同硬件和性能需求,并且能够在手机、电脑等多种设备上高效运行,支持从移动设备到工作站的广泛部署。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3功能特征

  • 多模态能力:支持文本、图像和短视频的混合输入,能够处理复杂的多模态任务。

  • 强大的语言支持:预训练支持超过 140 种语言,直接支持超过 35 种语言。

  • 大上下文窗口:支持 128k 令牌的上下文窗口,能够处理大量信息,例如 30 张高分辨率图像或 1 小时视频。

  • 高性能:在单 GPU 或 TPU 上的表现优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。

  • 优化与量化:提供官方量化版本,减少模型大小和计算需求,同时保持高精度。

  • 安全性:配备 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。

Gemma 3 四种尺寸的模型特点

  • 1B:轻量级,适合在手机或笔记本等资源受限设备上运行。

  • 4B:适合多模态任务,具备更强的图像和文本处理能力。

  • 12B:性能更强,适合复杂图像和视频分析。

  • 27B:最大版本,性能最强,适合高性能计算场景。

Gemma 3应用场景

  • 自然语言处理:用于聊天机器人、智能助手、文本分类、情感分析和机器翻译

  • 图像识别与分析:支持人脸识别、物体检测、图像问答和图像比较。

  • 视频分析:能够处理短视频内容,适用于视频内容分析和生成。

  • 智能客服:结合多模态输入,提供更智能的客户服务。

  • 工业质检:利用图像分析能力检测产品质量问题。

  • 代码生成与编程辅助:支持代码生成和自动代码修复。

Gemma 3使用方法

  1. 快速实验:通过 Google AI Studio 在浏览器中直接使用 Gemma 3,无需设置。

  2. 下载与微调:从 Hugging Face、Ollama 或 Kaggle 下载模型,并使用 Hugging Face Transformers 或其他工具进行微调。

  3. 部署选项:支持多种部署方式,包括 Vertex AI、Cloud Run、Google GenAI API、本地环境以及 NVIDIA GPU。

  4. 开发工具支持:兼容 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3技术

  • 底层架构:基于与 Gemini 相同的技术架构。

  • 训练与优化:采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升性能。

  • 视觉处理:使用动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像。

  • 硬件优化:针对 NVIDIA GPU 和 Google Cloud TPU 进行深度优化,确保高效运行。

Gemma 3相比Gemma 2有哪些改进?

  • 多模态能力:新增对文本、图像和短视频的混合输入支持,可处理图像问答和视频分析等复杂任务。

  • 性能提升:单 GPU 性能更强,推理速度提升 47%。

  • 语言支持:支持超过 140 种语言的预训练,直接支持 35 种语言,语言处理能力增强。

  • 上下文窗口扩展:支持 128k 令牌,可处理更大规模的信息。

  • 视觉处理能力:支持高分辨率图像和视频解析,1 小时视频的关键帧提取时间缩短至 20 秒。

  • 安全性增强:配备 ShieldGemma 2 图像安全分类器,可检测危险内容。

  • 硬件优化:针对 GPU 和 TPU 进行深度优化,支持多种部署选项。

  • 训练与微调:采用强化学习等技术,提供更灵活的微调工具。

详细阅读:https://blog.google/technology/developers/gemma-3/

收藏
最新工具
Davia
Davia

一款开源网页生成工具,目标是提供类似大厂那种“所见即所得”的网页...

达探星
达探星

一款TikTok达人邀约工具,特别适合TikTok小店用来爆单。...

ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...