告别复杂接入流程:用 AI Agent Skill 驱动云监控可观测接入
先说一个核心判断:在云原生架构和AI应用双双爆发的今天,企业管理的应用类型早已今非昔比。从传统的Ja va微服务,到AI Agent、Golang后端,再到各类AI网关组件,运维团队要面对的是一个日益复杂的“多语言、多框架”生态。而可观测平台的接入配置依然涉及一大堆参数和步骤,坦白说,这事儿对效率的提升并不友好。
阿里云云监控CMS 2.0是阿里云统一的可观测管理平台,整合了应用监控(APM)、前端监控(RUM)、Prometheus服务和告警管理等核心能力。为了让用户在终端环境也能高效完成可观测接入,CMS团队做了两件关键的事:先是推出了aliyun cms2这个CLI工具;然后又把它封装成了alibabacloud-cms-manage Skill——这样一来,用户只需用自然语言描述需求,AI Agent就能自动编排CLI命令,把整个接入流程跑完。
接下来,我们会先看看CMS CLI的具体接入能力,然后重点演示如何通过AI Agent Skill,在K8s场景下实现一句自然语言驱动的自动化接入。

图 1:CMS CLI + AI Agent Skill
CMS CLI 概览
aliyun cms2是阿里云CLI的子命令插件,覆盖了CMS 2.0各个模块的命令行操作。关键是要确保环境就绪:
# 确认 CLI 已安装且版本 >= 3.3.15 $ aliyun version 3.3.20 # 验证 cms2 插件可用 $ aliyun cms2 --help # 配置凭证(如尚未配置) $ aliyun configure
应用接入能力
APM 与 AI 可观测
CMS CLI的APM模块支持多种语言的应用接入。它提供了三种接入方式:ack-onepilot(适用于K8s容器环境)、手动自研探针,以及原生OpenTelemetry。在AI可观测方面,CMS 2.0也为主流AI框架提供了开箱即用的接入体验。
CLI 接入流程
不管接入应用的语言和接入方式是什么,CLI接入都遵循一个清晰的六步骤流程:

图 2:CLI 6 步接入流程图
每个步骤的核心命令如下:
# Step 1: 获取账号 ID
$ aliyun sts get-caller-identity --force -o json
# → AccountId: 1108xxxxxxxxxxxx
# Step 2: 初始化 APM 基础设施(幂等)
$ aliyun cms2 apm configuration create \
--workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
--region cn-hangzhou
# Step 3: 获取接入凭证(LicenseKey、Endpoint 等)
$ aliyun cms2 apm configuration get \
--workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
--region cn-hangzhou -o json
返回示例:
{
"success": true,
"data": {
"entryPointInfo": {
"authToken": "a]***@***************4b70",
"privateDomain": "proj-xtrace-***-cn-hangzhou.cn-hangzhou-intranet.log.aliyuncs.com",
"project": "proj-xtrace-***-cn-hangzhou",
"publicDomain": "proj-xtrace-***-cn-hangzhou.cn-hangzhou.log.aliyuncs.com"
},
"status": "Running",
"workspace": "default-cms-1108xxxxxxxxxxxx-cn-hangzhou"
}
}
# Step 4: 注册应用服务
$ aliyun cms2 apm service create \
--workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
--region cn-hangzhou \
--body '{"serviceName":"my-app","serviceType":"TRACE","attributes":"{"language":"ja va"}"}' \
/dev/null
# → serviceId: a]***@*********************7f1
# Step 5: 获取接入配置模板(以 Ja va OTel 为例)
$ aliyun cms2 integration addon get --addon-name apm-ja va-batch --env-type Client -o json
# Step 6: 验证接入
$ aliyun cms2 apm service list \
--workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
--service-name my-app --region cn-hangzhou
流程虽然清晰,但六步操作、多个参数传递,对不常接触CLI的运维人员来说,门槛依然不低。正是为了解决这个问题,才有了接下来的AI Agent Skill。

图 3:基于 Skill 一句话轻松搞定接入
通过 AI Agent Skill 实现智能化接入
alibabacloud-cms-manage Skill
CMS团队将完整的CLI操作知识封装成了alibabacloud-cms-manage这个Skill,核心思路是把CLI操作流程转化为AI Agent可执行的结构化工作流。用户不需要记住任何命令和参数,要做的,不过是用自然语言描述一下需求。
Skill覆盖了多个模块,安装与使用也都有清晰的文档指引。
工作机制
当用户在Claude Code中描述需求时,AI Agent按一套标准工作流运转:先理解需求,再调用对应命令,最后输出结果。

图 4:Skill 智能接入工作流程图
安全机制:两阶段确认协议
对于可能影响用户集群的操作(比如安装组件、Patch Deployment),Skill严格执行两阶段确认:Agent先给出执行计划,等待用户确认“yes”后,才真正执行操作。而那些只读命令(get、list)和CMS后端资源创建(configuration create)则无需确认,Agent可以直接执行。

图 5:两阶段确认协议
使用效果演示:K8s 容器自动接入
下面是一次完整的交互过程,展示了如何通过Skill完成ACK集群中LangChain应用的自动接入。注意,这里用的是ack-onepilot——它通过DaemonSet在集群节点运行Agent Pod,当Deployment标注指定Label后自动注入探针,整个过程不需要修改应用代码或Dockerfile。
用户:
AI Agent:
检测到容器接入场景,正在获取集群信息...
$ aliyun sts get-caller-identity --force -o json # → AccountId: 1108xxxxxxxxxxxx $ aliyun cs describe-clusters # → clusterId: c8d3f***********, region_id: cn-hangzhou
正在初始化 APM 基础设施并获取凭证...
$ aliyun cms2 apm configuration create \
--workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou
# → 成功
$ aliyun cms2 apm configuration get \
--workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou -o json
# → LicenseKey: a]***@***************4b70
$ aliyun cms2 apm service create \
--workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou \
--body '{"serviceName":"customer-support-agent","serviceType":"TRACE","attributes":"{"language":"python"}"}' \
/dev/null
# → serviceId: a]***@*********************7f1
正在检查 ack-onepilot 组件状态...
$ kubectl get pods -n ack-onepilot # NAME READY STATUS RESTARTS AGE # ack-onepilot-7d8f9 1/1 Running 0 5d
ack-onepilot 已安装且正常运行。正在查找目标 Deployment...
$ kubectl get deployment --all-namespaces | grep customer-support # default customer-support-agent 3/3 3 3 12d
找到目标 Deployment default/customer-support-agent(3 副本)。执行计划 — Patch K8s Deployment。请确认执行(yes / no)。
用户:
AI Agent:
正在执行 Patch...
$ kubectl patch deployment customer-support-agent -n default \
--type=strategic -p '{
"spec":{"template":{"metadata":{"labels":{
"aliyun.com/app-language":"python",
"armsPilotAutoEnable":"on",
"armsPilotCreateAppName":"customer-support-agent",
"armsPilotAppWorkspace":"default-cms-1108xxxxxxxxxxxx-cn-hangzhou"
}}}}}'
# deployment.apps/customer-support-agent patched
正在验证滚动更新...
$ kubectl rollout status deployment/customer-support-agent -n default --timeout=120s # deployment "customer-support-agent" successfully rolled out
接入完成!应用已通过 ack-onepilot 自动注入 Python 探针。2-3分钟后,就能在CMS控制台看到LLM调用耗时、Token使用量、Agent链路等监控数据。
整个过程,用户只提供了一句自然语言描述。AI Agent自动完成了:账号获取、集群信息派生(不用手动提供regionId)、基础设施初始化、凭证获取、服务注册、组件状态检查、Deployment查找,然后通过两阶段确认让用户审核Patch内容后再执行。对比手动操作需要执行的8+条命令,Skill把接入体验从“记命令、查参数、拼JSON”,简化成了一次自然的对话。

图 6:K8s ack-onepilot 自动接入