从 RTX 到 Spark：NVIDIA 为本地代理式 AI 加速 Gemma 4

来源：互联网时间：2026-04-07 15:07:47

作者：Michael Fukuyama

开放模型正在推动新一轮端侧 AI 浪潮，将创新从云端扩展到日常本地设备。随着这些模型不断进步，其价值愈发取决于能否访问本地实时上下文，从而将有价值的洞察转化为行动。

为顺应这一转变，Google 的 Gemma 4 家族全新引入了一系列小巧、快速且具备多模态能力的模型，能够在各类设备上实现高效本地运行。

Google 与 NVIDIA 合作，针对NVIDIA GPU 优化了Gemma 4 ，在多种系统上实现高效性能。从数据中心部署到 NVIDIA RTX 驱动的 PC 和工作站，再到 NVIDIA DGX Spark 个人 AI 超级计算机以及 NVIDIA Jetson Orin Nano 边缘 AI 模块。

Gemma 4：为 NVIDIA GPU 优化的紧凑型模型

Gemma 4 开放模型家族的最新成员涵盖 E2B、E4B、26B 和 31B 变体，专为从边缘设备到高性能 GPU 的高效部署而设计。

所有配置均采用 Q4_K_M 量化、BS = 1、ISL = 4096 和 OSL = 128，在 NVIDIA GeForce RTX 5090 和 Mac M3 Ultra 台式机上进行测试。Token 生成吞吐量基于 llama.cpp b7789，使用 llama-bench 工具测试。

新一代紧凑型模型支持多种任务，包括：

推理：在复杂问题求解任务中表现强劲。编码：面向开发者工作流的代码生成与调试。智能体：原生支持结构化工具调用（函数调用）。视觉、视频和音频能力：支持物体识别、自动语音识别以及文档或视频智能等丰富的多模态交互。交错式多模态输入：可在单个提示词中以任意顺序混合文本和图像。多语言：开箱即用，支持超过 35 种语言，并在超过 140 种语言上进行预训练。

E2B 和 E4B 模型专为超高效、低延迟的边缘推理而打造，可在包括 Jetson Nano 模块在内的多种设备上以接近零延迟的方式完全离线运行。

26B 和 31B 模型专为高性能推理和以开发者为中心的工作流而设计，非常适合代理式 AI 任务。这些模型以便捷的方式提供经过优化的、业界领先的推理能力，可在 NVIDIA RTX GPU 和 DGX Spark 上高效运行，为开发环境、编码助手和智能体驱动的工作流提供支持。

随着本地代理式 AI 持续升温，OpenClaw 等应用正让 RTX PC、工作站和 DGX Spark 上全天候在线的 AI 助手成为现实。最新的 Gemma 4 模型兼容 OpenClaw，允许用户构建能够通过上下文调用个人文件、应用程序和工作流的本地智能体，以实现任务自动化。查看页面了解如何在 RTX GPU 和 DGX Spark 上免费运行 OpenClaw，或查看 DGX Spark OpenClaw playbook。

查看 Google DeepMind 公告博客，了解 Gemma 4 家族最新成员的更多信息。

开始上手：在 RTX GPU 和 DGX Spark 上运行 Gemma 4

NVIDIA 已与 Ollama 和 llama.cpp 合作，为各个 Gemma 4 模型提供最佳本地部署体验。

要在本地使用 Gemma 4，用户可以下载 Ollama 来运行 Gemma 4 模型，或安装 llama.cpp 并结合 Gemma 4 的 GGUF Hugging Face checkpoint 使用。Unsloth 提供首日支持，通过 Unsloth Studio 提供经过优化和量化的模型，以实现高效的本地微调和部署。现在即可开始在 Unsloth Studio 中运行和微调 Gemma 4。

在 NVIDIA GPU 上运行 Gemma 4 家族等开放模型能够实现最佳性能。NVIDIA Tensor Core 可加速 AI 推理工作负载，从而为本地执行提供更高吞吐量和更低延迟。CUDA 软件栈可确保与主流框架和工具广泛兼容，使新模型从发布首日就能高效运行。

这套组合使得 Gemma 4 等开放模型可在广泛系统上扩展部署，从边缘侧的 Jetson Orin Nano 到 RTX PC、工作站和 DGX Spark，无需深度优化即可覆盖。

查看 NVIDIA 技术博客，了解如何在 NVIDIA GPU 上快速上手 Gemma 4 的更多细节，并进一步了解 NVIDIA 在开放模型方面的工作。

#别错过： NVIDIA RTX AI PC 的最新进展

请查看 RTX AI Garage 博客，了解 NVIDIA GTC 期间发布的一系列关于代理式 AI 的公告，例如面向本地智能体的新开放模型，以及针对 Qwen 3.5 和 Mistral Small 4 的优化。

NVIDIA 最近推出了 NVIDIA NemoClaw，这是一套开源技术栈，可通过提升安全性并支持本地模型来优化 NVIDIA 设备上的 OpenClaw 体验。

?Accomplish.ai 宣布推出 Accomplish FREE，一款免费版的内置模型的开源桌面 AI 智能体。它使用 NVIDIA GPU 在本地运行开放权重模型，同时通过混合路由器在本地 RTX 硬件与云端之间动态平衡工作负载，无需调用 API Key，即可实现快速、私密、零配置的执行体验。

NVIDIA RTX AI PC的相关信息请关注微博、抖音及哔哩哔哩官方账号。

从 RTX 到 Spark：NVIDIA 为本地代理式 AI 加速 Gemma 4

相关阅读

相关下载