首页 > 教程攻略 > ai资讯 >Agent 工程终于有脚手架了， Google开源一个开发agent的工具

Agent 工程终于有脚手架了， Google开源一个开发agent的工具

来源：互联网时间：2026-07-04 13:56:57

Google最近开源了一个叫agents-cli的工具，直接把Agent开发从"能跑"推到了"能上线"的层面。这个工具的核心价值在于：它为AI Agent的开发提供了从创建、测试到部署的全流程工程化支持，解决了开发者长期以来工具链断裂的痛点。

Karpathy前段把一个词讲热了：Agentic Engineering。听着抽象，落到项目里其实就是三件事：需求写清楚、评估反复压、补齐工程活——安全、权限、部署、观测，一个不能少。

过去做Agent，最容易卡在中间。写代码在编辑器，起项目在终端，测试得开浏览器，部署要进云控制台，评估还得再接一套框架。每一步都能做，但每换一个工具，脑子里的上下文就断一截。

agents-cli解决的正是这段断裂。它不提供新的聊天机器人，也不替代Claude Code、Codex或Cursor。它更像一套给coding agent装的工程技能包，告诉它们怎么用Google的ADK、Agent Runtime、Cloud Run、Gemini Enterprise去搭、测、发一个企业级Agent。

GitHub上的定位很直白：这是一套CLI和skills，用来把常见coding assistant变成更懂Google Cloud Agent Platform的开发助手。它支持Antigra vity CLI、Claude Code、Codex，也可以配合其他coding agent。安装后，会给coding agent注入7类技能：

google-agents-cli-workflow
：Agent开发生命周期和代码保留规则。
google-agents-cli-adk-code
：ADK Python API、tools、callbacks、state等写法。
google-agents-cli-scaffold
：创建、增强、升级Agent项目。
google-agents-cli-eval
：评估集、指标、LLM-as-judge、rubric。
google-agents-cli-deploy
：Agent Runtime、Cloud Run、GKE、CI/CD、secrets。
google-agents-cli-publish
：注册到Gemini Enterprise。
google-agents-cli-observability
：Cloud Trace、日志和观测接入。

这个设计的关键不只是"又多一个命令行工具"，而是想将Agent项目从demo拉到可交付状态。能创建项目只是第一步，能测试、能部署、能被组织里的人找到，才算走完。

第一步：安装

只要准备好Python 3.11+、uv和Node.js，跑一句命令就行：

uvx google-agents-cli setup

如果只想装skills，让coding agent接管后面的工作，也可以用：

npx skills add google/agents-cli

装完后，打开你常用的coding agent——比如Claude Code、Codex、Cursor或Antigra vity CLI，让它们按自然语言指令去创建项目。

第二步：让coding agent搭一个RAG Agent

一个可复现的起手式是这样的：

Build a RAG agent that ingests documents, retrieves relevant context,
and answers questions with source citations. Use the ADK agentic_rag
template with Gemini 3.5 Flash.

在Akshay的测试中，Claude Code调用了agents-cli的ADK skills，从agentic_rag模板搭出项目，用Vector Search做datastore，还补了citation相关逻辑——回答必须有引用，retriever返回文档时带source ID。

这一步很关键。很多RAG demo只演示"能答"，企业更关心回答有没有资料依据。引用链如果一开始没设计，后面再补会很麻烦。

第三步：本地先测一轮

项目起来后，直接让coding agent启动ADK Web UI：

Spin up a local dev server so I can test this.

本地测试至少要看两类问题。

第一类是资料里能回答的问题。比如"how to merge two dictionaries?"，Agent应该能检索到对应内容，解释|合并和update()方法，并附上类似[source: 1003]的引用。

第二类是资料里没有的问题。比如"who won the FIFA World Cup in 2022?"，Agent应该承认资料不足，不能凭常识硬答。RAG项目上线前，这类拒答测试比"答得很顺"更有价值。

第四步：上线前做评估

很多Agent项目死在这里：demo能跑，评估没有。Karpathy曾提出一个观察：运行Agent的团队里，做observability的比例高于做evals的比例。可没有evals，日志再多，也很难判断改动有没有把系统弄坏。

可以直接让coding agent生成评估集：

Generate 20 test scenarios for this RAG agent covering correct retrieval,
insufficient context where the agent should say it doesn't know,
multi-hop questions, and citation accuracy. Run the full eval suite and
show me the results.

这20个case可以分成四组：6个正确检索问题、5个资料不足时拒答的问题、5个需要多文档推理的问题、4个citation accuracy问题。Akshay的测试结果中，引用准确率20/20，通过。但eval也抓到一个洞：当问题不在语料里时，Agent有时会补一句通用知识。问题来自instruction里的一行宽松规则，大意是"简单问题可以不用工具直接回答"。删掉这行，拒答行为才会稳定。

这就是eval的价值——分数表只是表面结果，最有用的是提前暴露那些容易被忽略的指令漏洞。

第五步：部署到Agent Runtime

评估过后，让coding agent处理部署：

Deploy this to Agent Runtime in us-central1.

agents-cli会把项目补齐为Agent Runtime可部署的形态，加入入口文件和基础设施配置。根据这次测试，部署到Google Cloud大概花了2到3分钟。Cloud Trace默认接入，这一点对团队协作很实用：Agent出问题时，不能只看聊天记录，还要能回到trace、日志、调用链里定位是哪一步坏了。

第六步：注册到Gemini Enterprise

很多内部Agent做完后，只停留在"某个同事机器上能跑"。别人不知道它存在，也拿不到endpoint、权限和使用方式。这样的Agent很快就会被遗忘。

继续让coding agent执行：

Register this agent to Gemini Enterprise.

注册后，它会出现在Gemini Enterprise app里，组织内有权限的人可以发现和使用。IAM控制访问，企业面板负责观测。到这一步，一个RAG Agent才从个人demo变成团队可用的内部知识助手。

可以怎么用在自己的项目里

如果只是想试水，不用一上来就做复杂Agent。更稳的路径是：

先选一个低风险知识库，比如团队FAQ、产品术语表、内部onboarding文档。
用agents-cli scaffold或setup后的coding agent建一个RAG项目。
写15到30个真实问题，里面故意混入资料不足、歧义、多跳问题。
先跑eval，再改instruction，不要只靠手感调prompt。
本地测过后再部署，部署后补trace、权限、成本监控。
最后再考虑注册到企业入口，让团队成员能找到它。

GitHub README里列出的常用命令值得保存：

agents-cli scaffold 
agents-cli eval generate
agents-cli eval grade
agents-cli deploy
agents-cli publish gemini-enterprise

如果已经有一个ADK项目，也可以用：

agents-cli scaffold enhance

它会帮旧项目补上部署、CI/CD或RAG相关能力。

使用前要先想清楚的地方

agents-cli很适合Google Cloud和ADK体系内的Agent工程。如果团队已经在用Vertex AI、Cloud Run、Gemini Enterprise，它能省掉不少胶水工作。

但它也带来一个前提：部署、观测、企业注册这些能力都和Google Cloud绑定得比较深。个人开发者可以本地玩起来，但真要走上云端和企业入口，还是要处理账号、计费、权限、服务条款和区域合规。

另一个提醒是，不要把"coding agent能自动跑完整流程"理解成可以少做验收。脚手架能加速，eval和权限检查不能省。Agent最危险的地方往往不在答不上来，而在资料不足时答得太顺。

判断标准

如果Agent还停留在玩具demo阶段，agents-cli可能显得有点重。直接用ADK或LangGraph写一个本地原型，反而更快。

但如果已经遇到这些问题，它就值得试：

每个Agent都要重新搭项目结构。
评估集总是上线前才想起来。
部署脚本、权限、Cloud Run配置反复复制。
内部Agent做完后没人知道入口在哪里。
团队希望coding agent不只写代码，还能按工程规范把项目推到可上线状态。

Agent开发接下来的比拼，不会只是模型调用能力。更麻烦的部分在评估、权限、部署、观测、组织分发。Google这次把这些环节塞进一个CLI和一组skills里，方向是对的：让coding agent少当"会写代码的助手"，多承担一点工程交付的脏活。

Agent 工程终于有脚手架了， Google开源一个开发agent的工具

google-agents-cli-workflow

google-agents-cli-adk-code

google-agents-cli-scaffold

google-agents-cli-eval

google-agents-cli-deploy

google-agents-cli-publish

google-agents-cli-observability