AI发展 2026年05月07日

Google 给 Gemma 4 加了个“草稿模型”：同样质量，推理最高快 3 倍

by BLL

# AI Agent # 开发者生产力

Google 给 Gemma 4 加了个“草稿模型”：同样质量，推理最高快 3 倍

这两天 Google AI 发了一篇挺技术向的博文，讲的是 Gemma 4 的一个新能力：Multi-Token Prediction，简称 MTP。

如果只看标题，可能会觉得这是一个很底层的模型优化。

但我觉得它对开发者挺重要。

因为现在很多人跑本地模型，或者把模型接进自己的产品里，最头疼的不是模型不会回答，而是回答太慢。

用户在聊天框里等，开发者在终端里等，agent 在一步一步规划的时候也在等。模型越大，等得越明显。

所以 Google 这次想解决的，不是“模型再聪明一点”的问题，而是“同样的模型，能不能更快吐字”的问题。

Gemma 4 已经不只是实验模型了

Google 在文章里提到，Gemma 4 发布才几周，下载量已经超过 6000 万。

这个数字说明一件事：Gemma 这条线已经不只是 Google 用来展示技术的 open model，而是真的被开发者拿去跑在工作站、移动设备和云端。

Gemma 4 本身有几个关键词：开放模型、开发者友好、本地和边缘设备可用。

也就是说，它不是只服务大型云推理的模型。它还想进入个人电脑、消费级 GPU、手机、边缘设备这些地方。

那问题就来了。

这些设备的算力和显存带宽，跟数据中心不是一个量级。模型稍微大一点，生成速度就容易卡。

所以 Gemma 4 这次的重点不是堆更大参数，而是提高推理效率。

Google 给 Gemma 4 家族发布了 MTP drafters。按照 Google 的说法，在不降低输出质量和推理逻辑的前提下，速度最高可以提升到 3 倍。

为什么大模型生成会慢？

好，我们先把问题讲简单一点。

大语言模型生成文本，通常是一个 token 一个 token 往外吐。

比如它要生成一句话，不是一次把整句话都写出来，而是先算第一个 token，再根据前面的结果算第二个，再算第三个。这个过程叫 autoregressive generation。

这个方式很稳，但有一个问题：慢。

尤其是在大模型上，每生成一个 token，都要把大量参数从显存搬到计算单元里。很多时候瓶颈不在算力本身，而在内存带宽。

就是说，GPU 不是完全算不过来，而是大量时间花在“搬模型参数”上。

这就会导致一个很尴尬的情况：计算资源没有被充分利用，但用户依然在等。

尤其是消费级硬件，本地跑模型时这个感觉会更明显。

MTP 的思路：先让小模型打草稿，再让大模型判卷

MTP 背后的核心思想是 speculative decoding。

这个词直接翻译叫“推测解码”，但我更愿意把它理解成：先打草稿，再验证。

传统方式是大模型一步一步生成。MTP 的方式是：旁边放一个更轻量的 drafter，也就是草稿模型，让它先猜接下来几个 token。

然后主模型不是完全相信它，而是一次性验证这些候选 token。

如果主模型认可，就直接接受一串 token。这样原来需要一步一步生成的内容，现在可以在一次前向计算里推进好几步。

如果主模型不认可，也不会乱输出。它会给出正确 token，然后 drafter 再从这个新位置继续预测。

这个机制的关键点是：最终拍板的还是主模型。

所以从产品体验上看，用户拿到的质量和推理能力还是 Gemma 4 主模型的质量，只是等待时间变短了。

这个地方很重要。

因为很多加速方案都会让人担心：是不是快了，但答案变差了？

MTP 的卖点就是，速度提升不是靠牺牲主模型质量换来的，而是把原本闲置的计算利用起来。

为什么这对开发者有意义？

Google 在文章里讲了几个场景，我觉得都很实际。

第一是聊天和语音类应用。

这类产品对延迟特别敏感。你和模型说一句话，如果它半天才开始回，整个体验就断了。尤其是语音交互，延迟会被放大很多。

第二是 coding assistant。

写代码时，模型不是只回答一次。它要读文件、规划、改代码、解释错误、再跑下一步。每一步快一点，整个开发节奏就会顺很多。

第三是 agent workflow。

agent 做多步任务时，最怕每一步都慢。单次延迟看起来没什么，但十几步叠在一起，用户就很容易失去耐心。

第四是本地和端侧应用。

比如手机上跑 E2B、E4B 这类边缘模型，生成更快不仅体验更好，还可能省电。因为模型不用长时间占着设备跑。

Gemma 4 MTP 速度提升图

Google 还做了一些底层优化

这次 MTP 不是简单外挂一个小模型。

Google 在文档里讲到，Gemma 4 的 draft model 会共享主模型的 input embedding table，还会利用主模型最后一层的 activations。

换句话说，草稿模型不是完全独立重新算一遍。

它会站在主模型已经算出来的上下文上继续工作，避免重复计算。

另外，Google 还提到 KV cache 共享。

大家如果跑过推理服务，应该知道 KV cache 很关键。它可以避免模型每次生成新 token 时都从头处理全部上下文。MTP drafter 能和目标模型共享这部分信息，本质上就是让草稿阶段更省。

对于 E2B 和 E4B 这类边缘模型，Google 还做了一个 efficient embedder。简单说，就是不要每次都在完整词表上算最终结果，而是先把相似 token 分组，找到最可能的簇，再缩小计算范围。

这些东西听起来都很底层，但落到产品上就是两个字：更快。

有一个细节：MoE 模型并不是所有情况下都一样快

Google 也提到一个挺真实的工程问题。

Gemma 4 26B MoE 在 Apple Silicon 上，如果 batch size 是 1，会遇到一些专家路由上的挑战。

因为 MoE 模型每个 token 可能会激活不同专家。验证多个草稿 token 时，可能需要加载更多专家权重，这会抵消一部分加速收益。

但如果 batch size 提到 4 到 8，本地最高可以看到大约 2.2 倍加速。Nvidia A100 上也有类似现象。

这个信息我觉得很重要。

它说明 MTP 不是一个“所有机器、所有场景都无脑 3 倍”的开关。

真正部署的时候，硬件、模型结构、batch size、推理框架都会影响结果。

所以如果你要拿它进生产，不要只看宣传数字，还是要在自己的负载上跑 benchmark。

怎么开始用？

Google 说，Gemma 4 的 MTP drafters 已经开放，许可证和 Gemma 4 一样，是 Apache 2.0。

模型权重可以从 Hugging Face 和 Kaggle 下载。

推理框架方面，Google 提到可以用：

Hugging Face Transformers
MLX
vLLM
SGLang
Ollama
LiteRT-LM

如果是移动端，也可以直接在 Google AI Edge Gallery 上试 Android 和 iOS 版本。

官方也给了 MTP 文档，可以从这里看具体用法：

Speed-up Gemma 4 with Multi-Token Prediction

如果你只是想感受一下，我建议先从本地开发环境试。

比如你有 Mac，先看 MLX 方向；你有 Nvidia GPU，可以试 vLLM 或者 SGLang；如果只是想快速上手，Ollama 可能是最省事的入口。

我的看法：下一阶段开源模型会拼“可用性”

我觉得这篇文章真正值得看的地方，不只是 MTP 这个技术点。

它背后反映的是一个趋势：开源模型竞争正在从“参数和榜单”走向“真实可用性”。

以前大家看模型，喜欢看分数。

谁数学强，谁代码强，谁上下文长，谁参数更多。

这些当然重要。

但当开发者真的把模型放进产品、工具、agent 工作流里，另一些指标会变得更重要：

首 token 延迟低不低？
tokens per second 够不够？
本地能不能跑顺？
手机上能不能跑？
推理成本能不能压下来？
加速后质量会不会飘？

MTP 这种技术，就是在回答这些问题。

它不是让模型变得更“聪明”，而是让模型更像一个可部署、可交互、可嵌入到产品里的工程组件。

这个方向我很看好。

因为对普通开发者来说，最好的模型不一定是最大、最贵、跑分最高的那个，而是“我现在手头这台机器能跑起来，而且用户等得起”的那个。

Gemma 4 如果能在这个方向持续推进，本地 AI、端侧 AI、离线 coding assistant 这些场景都会更有想象空间。

小结

简单总结一下。

Google 这次给 Gemma 4 发布了 MTP drafters，本质上是通过 speculative decoding，让轻量草稿模型提前预测多个 token，再由主模型并行验证。

这样做的结果是：推理速度最高可提升 3 倍，同时因为最终验证仍由 Gemma 4 主模型完成，所以质量和推理逻辑不需要牺牲。

对开发者来说，这件事的意义很直接：

本地模型更快，agent 工作流更顺，移动端体验更好，产品里的 AI 响应更接近实时。

当然，具体加速效果还是要看硬件、batch size、模型结构和推理框架。

但方向很清楚：大模型接下来不只是比谁更强，也要比谁更快、更省、更容易落到真实产品里。