
Gemma 4 全景深度调研:Gemma 系列完整演进时间线、significant-otter 泄露事件、MoE 架构创新、基准测试飞跃(AIME 89.2%)、史无前例的首日生态覆盖、社区赞誉与批评全记录。
Google Gemma 4 于 2026 年 4 月 2 日正式发布,是 Gemma 系列迄今最大的一次代际跃升。 这一代首次采用 Apache 2.0 开源许可证(此前 Gemma 系列均使用限制性许可),提供 4 个模型尺寸(E2B、E4B、26B MoE、31B Dense),原生支持文本、图像、视频和音频四种模态,上下文窗口最大扩展至 256K tokens。在 AIME 2026 数学基准上,31B 模型从 Gemma 3 的 20.8% 飙升至 89.2%,编程能力(LiveCodeBench)从 29.1% 跃至 80.0%,标志着 Gemma 从"可用"进入了"可与顶级大模型竞争"的新阶段。发布仅 48 小时内 Ollama 拉取量超 20.7 万次,截至 4 月 10 日累计下载量已突破 4 亿次。

理解 Gemma 4 的意义,需要先回溯整个系列的发展脉络。Google 自 2024 年初开始以约半年至一年的节奏迭代 Gemma 系列,每一代都在架构、模态和开放程度上进行显著升级。
Gemma 1(2024 年 2 月 21 日) 是 Google 首个面向开发者的开放权重模型系列,提供 2B 和 7B 两个参数规模,采用与 Gemini 相同的技术基底。两个月后的 4 月 9 日,专注代码生成的 CodeGemma 发布(2B/7B)。
Gemma 2(2024 年 6 月 27 日) 在 Google I/O 2024(5 月 14 日)上预告后正式发布,参数规模扩展至 9B 和 27B,引入分组查询注意力(GQA)和 8 万 token 上下文窗口。7 月 31 日补充了 2B 变体和安全评估模型 ShieldGemma。同年晚些时候,视觉语言模型 PaliGemma 及其升级版 PaliGemma 2 相继发布。
Gemma 3(2025 年 3 月 12 日) 实现了多个关键突破:首次引入多模态能力(文本+图像输入),上下文窗口从 8K 大幅提升至 128K tokens,支持 140+ 种语言,提供 1B、4B、12B、27B 四个尺寸。在 LMArena 上达到 1338 Elo,性能超越许多更大的模型。同年 5 月 22 日的 Google I/O 2025 上,Google 发布了面向边缘设备优化的 Gemma 3n(E2B/E4B),引入了后来在 Gemma 4 中发挥重要作用的 Per-Layer Embeddings(PLE) 技术创新。
| 世代 | 发布日期 | 距上一代间隔 | 关键突破 |
|---|---|---|---|
| Gemma 1 | 2024-02-21 | — | 首个开放权重模型 |
| Gemma 2 | 2024-06-27 | ~4 个月 | 27B 参数、GQA |
| Gemma 3 | 2025-03-12 | ~8.5 个月 | 多模态、128K 上下文 |
| Gemma 3n | 2025-05-22 | ~2 个月(子版本) | 边缘设备优化、PLE |
| Gemma 4 | 2026-04-02 | ~12.5 个月 | Apache 2.0、MoE、256K、音频 |
Gemma 4 的正式发布前约一周,一系列泄露和暗示就已在社区中引发波澜。
2026 年 3 月 28-29 日,LMSYS Chatbot Arena 上出现了一个代号为 "significant-otter" 的匿名模型。当用户追问其身份时,该模型直接回答:"I am Gemma 4, a large language model developed by Google DeepMind." Reddit r/LocalLLaMA 社区用户最先发现了这一泄露,注意到该模型响应速度快、通过了基线能力测试,且并非推理专用模型。泄露信息还暗示存在 2B、4B Dense 变体和一个 120B/15B-active 的 MoE 模型(该大模型至今尚未正式发布)。这一事件被 barnacle.ai、KuCoin 新闻、多个 AI 简报和 Reddit 讨论广泛报道。
3 月底至 4 月初,Hugging Face 上 Google 的 "Gemma models family" 合集出现了更新——这与 Gemma 2 和 Gemma 3 发布前的模式完全一致,被社区模型观察者标记为即将发布的信号。
4 月 2 日凌晨(发布前数小时),Google DeepMind CEO Demis Hassabis 在 X 上发布了四颗钻石 emoji(💎💎💎💎),随后 Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 仅发了一个单词帖子:"Gemma." 这两条帖子被社区广泛解读为发布倒计时信号,引发了一波热烈的预发布讨论。
Gemma 4 是一个基于 Transformer 的模型家族,源自 Gemini 3 的研究成果,采用混合注意力机制(交替使用局部滑动窗口注意力和全局全上下文注意力),并引入了多项前沿架构创新。
模型规格总览:
| 模型 | 架构 | 总参数 | 有效/活跃参数 | 层数 | 上下文窗口 | 模态 |
|---|---|---|---|---|---|---|
| E2B | Dense + PLE | 5.1B | 2.3B | 35 | 128K | 文本、图像、视频、音频 |
| E4B | Dense + PLE | 8B | 4.5B | 42 | 128K | 文本、图像、视频、音频 |
| 26B A4B | MoE | 25.2B | 3.8B | 30 | 256K | 文本、图像、视频 |
| 31B | Dense | 30.7B | 30.7B | 60 | 256K | 文本、图像、视频 |
其中 26B A4B 是 Gemma 系列首个 MoE(混合专家)模型,每层包含 128 个专家,每 token 激活 8 个专家加 1 个共享专家,实际推理时仅激活约 3.8B 参数,运行速度接近 4B Dense 模型。
核心架构创新包括: Per-Layer Embeddings(PLE)为每个解码器层提供独立的 token 级条件信号,而非将所有信息前置到单一嵌入中;Shared KV Cache 让后 N 层复用前层的键值状态以节省内存;双 RoPE 配置在滑动窗口层使用标准 RoPE、在全局层使用比例 RoPE(p-RoPE)以支持更长上下文;统一键值(Unified Keys and Values)优化长上下文内存。视觉编码器支持可变宽高比和可配置的 token 预算(70 至 1120 tokens/图像),音频编码器(仅 E2B/E4B)基于 USM 风格的 Conformer 架构,支持最长 30 秒音频输入。词表大小为 262K tokens,支持 140+ 种语言(开箱即用 35+ 种),激活函数为 GeGLU,归一化为 RMSNorm。
特色功能方面,Gemma 4 支持可配置的思维模式(通过 <|think|> token 可生成 4000+ token 的内部推理链)、原生函数调用与工具使用、结构化 JSON 输出、原生系统提示(Gemma 系列首次支持 system 角色)、多步规划的 Agent 工作流、目标检测与定位(原生返回 JSON 格式边界框坐标)、文档/PDF 解析、多语言 OCR、图表理解和手写识别等。
Gemma 4 在各项主流基准测试中的表现堪称惊艳,尤其是与 Gemma 3 27B 的对比,几乎每项指标都实现了翻倍甚至更大幅度的提升。以下为官方模型卡片公布的指标(指令微调版本,启用思维模式):
| 基准测试 | 31B | 26B A4B | E4B | E2B | Gemma 3 27B |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | 110 |
| MMMU Pro(视觉) | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| τ2-bench(Agent) | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| Arena AI 文本 Elo | 1452(#3) | 1441(#6) | — | — | 1365 |
其中几项提升尤为突出:数学能力(AIME)从 20.8% 飙升至 89.2%,提升 68.4 个百分点;编程能力(LiveCodeBench)提升 50.9 个百分点;Agent 能力(τ2-bench)提升超 60 个百分点;Codeforces ELO 从 110 跃至 2150,约 20 倍增长。31B 模型在 Arena AI 文本排行榜上位列开放模型第 3 名(美国开放模型第 1 名)。
值得注意的是,官方模型卡片使用的是 MMLU Pro(而非经典 MMLU)和 LiveCodeBench/Codeforces ELO(而非 HumanEval)作为主要评估指标,经典 MMLU 和 HumanEval 分数未在官方材料中报告。一篇第三方比较论文(arXiv 2604.07035,2026 年 4 月 8 日)对 Gemma 4、Phi-4 和 Qwen3 进行了 Dense 与 MoE 推理语言模型的精度-效率权衡分析。截至目前,Google 尚未发布 Gemma 4 的正式技术报告。
Gemma 4 的发布策略在开源模型历史上堪称罕见——几乎所有主流 AI 工具和平台在 4 月 2 日同一天实现了支持,这反映出 Google 在发布前与生态伙伴进行了深度协调。
4 月 2 日首日即上线的平台和工具:
google/gemma-4-* 命名空间下上传全部变体;截至 4 月 10 日,31B 模型下载量达 133 万+,26B 达 105 万+,社区已创建 1,156+ 个 gemma4 标签模型gemma4 命名提供 17 个模型标签,截至 4 月 10 日拉取量达 180 万+4 月 2-3 日跟进上线的第三方 API 服务商: OpenRouter(31B 定价 $0.14/M 输入、$0.40/M 输出 tokens)、Together AI、Fireworks AI、Replicate,以及通过 Hugging Face 推理提供商接入的 Featherless AI、Scaleway、OVHcloud 等。
截至 4 月 10 日仍未支持 Gemma 4 的重要平台: Groq(4 月 3 日社区已提交功能请求但尚未实现)、AWS Bedrock(仅列出 Gemma 3,Gemma 4 需通过 SageMaker 自托管部署)、Azure AI Foundry(同样仅支持 Gemma 3,需手动部署)。
Gemma 4 的社交媒体热度呈现出一条清晰的 "泄露预热 → 发布爆发 → 深度评测" 三阶段曲线。
第一阶段:预热期(3 月 28 日—4 月 1 日)。 "significant-otter" 在 LMSYS Arena 上的泄露首先在 r/LocalLLaMA 引发讨论,随后扩散至 X/Twitter 和 AI 新闻简报。Demis Hassabis 的四颗钻石 emoji 和 Logan Kilpatrick 的单词帖子进一步点燃预期。
第二阶段:爆发期(4 月 2-4 日)。 发布当天,Hacker News 主帖 "Google releases Gemma 4 open models" 获得 1306+ 点赞,多次登上首页。AINews 追踪的 12 个子版块和 544 个 Twitter 账号的活跃度评分达到 3,412 分。48 小时内 Ollama 拉取量超 20.7 万次。llama.cpp 创始人 Georgi Gerganov(@ggerganov) 发布的 Gemma 4 26B A4B Q8_0 在 M2 Ultra 上实时视频处理达到 300 t/s 的演示成为最具病毒传播力的技术展示。
第三阶段:深度评测期(4 月 4-10 日)。 社区转入实际部署和对比测试阶段。r/LocalLLaMA 涌现大量实践贴,包括 "Gemma 4 for 16 GB VRAM" 的量化参数推荐、TurboQuant KV 缓存量化实验、Apple Silicon 上的多模态微调工具(在 HN 获得 152 点赞)等。一个在 M3 Pro 上用 Gemma E2B 实现实时音视频 AI 的演示在 Reddit 和 HN 同时引发关注。
中文社区方面,知乎上多个高热帖子对 Gemma 4 进行了深入讨论。新智元以 "31B 爆杀 20 倍巨头" 为标题进行了报道。一位"大模型话题优秀答主"的测试结论是:31B 质量与 DeepSeek V3.2 相当,仅用 Qwen3.5-27B 65% 的 token 即可达到同等输出质量,但推理稳定性显著低于 Qwen3.5(仅 1/全部测试题在 3 次输出中保持一致,而 Qwen3.5 为 8 个)。此外,Gemma 4 发布 90 分钟即被 Heretic v1.2.0 越狱(KL 散度仅 0.1522,几乎无能力损失)的事件在知乎引发了关于 AI 安全根本局限性的广泛讨论。
社区高度认可的五个方面: Apache 2.0 许可证被普遍视为"最重要的单一变化",消除了困扰 Gemma 1-3 的企业法律摩擦;参数效率令人印象深刻——31B 与 200B+ 模型竞争,26B MoE 仅 3.8B 活跃参数即接近 31B 品质,被称为"可用的最佳智能/参数比";边缘部署能力让 E2B 在 2GB 内存中运行成为可能,"第一次让 VRAM 不足的用户也能在本地运行日常可用的模型";首日生态覆盖的广度前所未有;与 Gemma 3 相比的性能提升被社区评价为"这不是增量改进,这是一个完全不同的模型"。
主要批评集中在以下几点: MoE 推理速度慢于预期——26B A4B 在 RTX 5060 Ti 上仅约 11 t/s,而 Qwen 3.5 35B-A3B 可达 60+ t/s,MoE 路由开销显著;发布初期的微调工具链存在问题——PEFT 无法处理 Gemma4ClippableLinear 层,纯文本数据需要 mm_token_type_ids 等;社区对传闻中更大的 120B MoE 模型未能面世表示失望;音频模态仅限小模型(E2B/E4B)而非 26B/31B 被认为是疏漏;推理稳定性和幻觉问题——一项植物学基准测试中即使启用搜索增强也仅获 2.5/5 分。Redis 创始人 antirez 在 HN 上的批评引发广泛讨论:"以 ELO 分数作为主要基准指标展示是非常误导性的。大型 Dense Gemma 4 模型在大多数基准上似乎并未超过 Qwen 3.5 27B Dense。"
与主要竞品的对比共识: 与 Qwen 3.5 的比较是讨论最多的话题——基准测试上两者接近,Qwen 3.5 在 MMLU Pro(86.1% vs 85.2%)和 GPQA Diamond 上略微领先,Gemma 4 在 AIME 和 Codeforces 上领先,但 Qwen 推理速度更快、Agent 任务更可靠,一位 HN 评论者总结为"Gemma 4 感觉更好,Qwen 3.5 用起来更好"。与 Llama 4 相比,Gemma 4 在许可证开放度(Apache 2.0 vs Llama 的 700M MAU 限制)和部署灵活性(从手机到工作站 vs Llama 仅服务器级)上具有明显优势。与 DeepSeek V3.2 相比,知乎测试者认为 Gemma 4 31B 质量"相当"但参数成本更低。值得注意的是,31B 模型以远少于对手的总参数量,与 Kimi K2.5(744B-A40B)和 GLM-5(1T-A32B)并列为全球顶级开放模型。
Gemma 4 不仅是一次技术升级,更是 Google 开源 AI 策略的根本转向。从限制性许可到 Apache 2.0、从纯文本到四模态、从单一 Dense 架构到 Dense+MoE 双线并进,这些变化的叠加效应让 Gemma 4 成为 2026 年迄今最受关注的开放模型发布事件。真正的创新不在于任何单一架构技术,而在于将 PLE、共享 KV 缓存、p-RoPE、128 小专家 MoE 等已知技术的精妙组合,正如知乎一位技术分析者所言:"每个技巧单独看都不新,但组合起来确实强。"Sebastian Raschka 的分析也印证了这一点——31B 的架构与 Gemma 3 几乎未变,性能飞跃主要来自训练配方和数据的改进。
展望未来,社区仍在等待三件事:传闻中更大的 120B+ MoE 模型是否会发布、微调工具链的稳定性何时改善、以及 AWS Bedrock 和 Azure 等主流云平台的原生集成何时到位。Nathan Lambert 的判断或许最为精准:"Gemma 4 的成败完全取决于易用性……不是基准分数。" 距离发布刚过一周,生态尚在成熟中,但方向已经清晰——Google 终于在开放模型领域找到了自己的节奏。

邮件列表
加入我们的社区
订阅邮件列表,及时获取最新消息和更新