尊龙凯时app官方2026最新版下载 120亿参数跑在16G条记本上, 谷歌Gemma 4新成员杀来了

来源:尊龙凯时2026世界杯中国官网 作者: 发布: 浏览:100

机器之机杼剪部

不才载量龙套 1.5 亿次之际,谷歌 Gemma 4 系列模子迎来了新的家眷成员!

今天,谷歌致密推出 Gemma 4 12B,缱绻是把具备智能体智商的多模态智能,径直带到条记本电脑上。

把柄先容,Gemma 4 12B 介于面向旯旮诞生的 E4B 与智商更强的 26B 夹杂巨匠模子(MoE)之间,在更小的内存占用下提供了众多的智商。

另外,Gemma 4 12B 亦然谷歌首个维持原生音频输入的中等边界模子。

谷歌 DeepMind 创举东说念主兼 CEO 哈萨比斯,「为庆祝 Gemma 4 下载量龙套 1.5 亿次这一遑急里程碑,谷歌发布了全新的 Gemma 4 12B 模子!关于这么一个小尺寸模子来说,它的智商相等众多;同期,它也豪阔轻量,只需 16GB 显存,就能在条记本电脑上腹地初始。」

宇宙不错用它构建了多样各类的运用,从用于物理扶直的可衣服机器东说念主手臂,到企业级 AI 安全系统。谷歌也期待看到开导者用这款最新模子创造出更多可能。

这次,Gemma 4 12B 模子具有以下几大特点:

开云kaiyun(中国)体育官网

全新的协调架构:不再使用多模态编码器,视觉和音频输入不错径直干涉 LLM 骨干收集。

更强的推贤慧商:在基准测试中的发达接近谷歌的 26B 模子,好像维持众多的多步推理和智能体职责流。

恰当条记本腹地初始:模子边界豪阔小,只需要 16GB 显存或协调内存即可在腹地初始。

怒放且易于赢得:经受 Apache 2.0 许可证发布,并维持粗鄙的开导者生态。

维持草稿模子加快:Gemma 4 12B 配备了多 Token 臆想(MTP)草稿模子,可用于缩小延长。

当今,用户不错通过 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent App 以及 LiteRT-LM CLI 等渠说念进行试用。

在 GPQA Diamond、BBEH、MMLU Pro、LiveCode Bench、DocVQA、InfoVQA、MMMU Pro 和 MRC v2.8 needle 128k(average)等一系列基准测试中,Gemma 4 12B 的发达接近谷歌更大的 26B MoE 模子,但全体内存占用不到后者的一半。

而况,它的边界豪阔小,尊龙凯时app官方2026最新版下载不错在配备 16GB 内存的破费级条记本电脑上腹地初始,从而把众多的多模态体验和智能体智商带到你的个东说念主诞生上。

有东说念主在一张 RTX 4090 上腹地初始了 Gemma 4 12B 和 Gemma 4 26B-A4B,并给它们吩咐了祛除个任务:在不使用任何库的情况下,用单个文献写出一个自包含的 HTML5 Canvas 动画,并加入确凿物理效力。测试包含三个场景:高尔顿板、两个方块与墙面碰撞,以及恶浊三重摆。输出截止如下:

Gemma 4 26B-A4B:占用 15GB 显存,生成 6.9k tokens,速率 138 tokens/s

Gemma 4 12B:占用 9GB 显存,生成 8.9k tokens,速率 80 tokens/s

同属 Gemma 4 家眷,但 26B-A4B 在三个场景中齐胜出,而且初始速率快了约 1.7 倍,它的活跃参数目只好 4B。不外,12B 的发达也相等接近,同期显存占用确凿只好一半。这也让它成为 16GB 条记本上的理思腹地模子。

另外,Gemma 4 12B 最卓绝的地点在于,它不停视觉和音频输入的表情愈加精简。

传统多模态模子频繁依赖寂然编码器,先把图像和音频调理成模子可交融的暗意,再传递给话语模子。但这些差别式编码器会带来非凡延长,也会加多内存占用。因此,谷歌在检修 Gemma 4 12B 时经受了无编码器架构,让音频和视觉输入好像径直整合进模子。

Gemma 4 12B 原生不停多模态输入的表情如下:

视觉:谷歌用一个轻量级镶嵌模块替代了 Gemma 4 的视觉编码器。这个模块由一次矩阵乘法、位置镶嵌和归一化构成,让 LLM 骨干收集收受视觉不停。

音频:音频不停进一步简化。谷歌实足移除了音频编码器,并将原始音频信号投影到与文本 token 相同的维度空间中。

在 Google AI Edge Eloquent App 中,Gemma 4 12B 不错实足离线完谚语音输入的转录、递次整理和翻译。

尊龙凯时app官方2026最新版下载