谷歌为Gemma 4系列AI模型推出MTP起草器,推理速度最高提升3倍
2026-05-27 21:45:27
束芷宁
束芷宁 / 束芷宁
IT之家 5 月 7 日消息,谷歌于 5 月 5 日发布博文,宣布为 Gemma 4 系列 AI 模型,推出多 Token 预测(MTP)起草器,利用推测解码架构,推理速度最高可提升 3 倍
IT之家 5 月 7 日消息,谷歌于 5 月 5 日发布博文,宣布为 Gemma 4 系列 AI 模型,推出多 Token 预测(MTP)起草器,利用推测解码架构,推理速度最高可提升 3 倍。

Gemma 4 作为谷歌目前能力最强的开源模型,在发布仅数周内下载量已突破 6000 万次。此次推出的 MTP 起草器,目的是不降低输出质量或推理逻辑的前提下,突破推理效率的极限。
IT之家援引博文介绍,谷歌表示目前标准大语言模型推理通常受限于内存带宽,导致严重的延迟瓶颈。处理器需耗费大量时间将数十亿参数从显存传输至计算单元,造成了计算资源的利用率不足。
而为了解决这个核心痛点,谷歌为 Gemma 4 系列大模型引入推测解码技术,配对重型目标模型(如 Gemma 4 31B)与轻量级起草器(MTP 模型)。

起草器利用闲置算力,在短时间内预测多个未来 Token,目标模型随后并行验证这些令牌。若预测通过,模型可在单次前向传递中确认整个序列,大幅缩短生成时间。
实测数据显示,在 Apple Silicon 芯片上,当 batch sizes 设置为 4 至 8 时,Gemma 4 26B 模型实现了约 2.2 倍的本地加速。开发者可利用该技术在个人电脑及消费级显卡上流畅运行复杂的离线编程与智能体工作流,同时显著降低边缘设备的能耗。
此次更新主要面向对低延迟要求极高的应用场景,包括聊天机器人、编程助手、自主智能体及移动端应用。开发者能在资源受限的环境中部署先进的语言模型,无需牺牲响应速度或计算精度,进一步拓展 AI 应用的边界。
参考
相关推荐
【伊朗炮艇在霍尔木兹海峡向船只开火 其本国油轮闯关美国封锁】周三,伊朗炮艇在霍尔木兹海峡向两艘船只开火,德黑兰继续牢牢控制这条关键能源通道。与此同时,伊朗自己的两艘超级油轮则试探美国的封锁。负责与航运业联络的英国海事贸易行动办公室在X平台表示,一艘货船和一艘集装箱船在这条水道遭到开火。与此...
【拒绝谈判后,伊朗:收到“一些信号”暗示美国准备解除封锁】在正式拒绝出席22日伊斯兰堡谈判后,伊朗常驻联合国代表透露已收到美方准备解除海上封锁的“信号”:“一旦他们解除封锁,我认为下一轮谈判将在伊斯兰堡举行。”与此同时,以黎第二轮会谈将于23日在美举行,中东多线博弈持续升级。
黄晓明带爸妈逛上海!黄妈牛仔装比耶超活泼,黄爸酷帅像走T台
广东宏远的内线危机:文化与胜利的较量!