首页 > 教程攻略 > ai资讯 >告别复杂接入流程:用 AI Agent Skill 驱动云监控可观测接入

告别复杂接入流程:用 AI Agent Skill 驱动云监控可观测接入

来源:互联网 时间:2026-06-11 14:01:15

先说一个核心判断:在云原生架构和AI应用双双爆发的今天,企业管理的应用类型早已今非昔比。从传统的Ja va微服务,到AI Agent、Golang后端,再到各类AI网关组件,运维团队要面对的是一个日益复杂的“多语言、多框架”生态。而可观测平台的接入配置依然涉及一大堆参数和步骤,坦白说,这事儿对效率的提升并不友好。

阿里云云监控CMS 2.0是阿里云统一的可观测管理平台,整合了应用监控(APM)、前端监控(RUM)、Prometheus服务和告警管理等核心能力。为了让用户在终端环境也能高效完成可观测接入,CMS团队做了两件关键的事:先是推出了aliyun cms2这个CLI工具;然后又把它封装成了alibabacloud-cms-manage Skill——这样一来,用户只需用自然语言描述需求,AI Agent就能自动编排CLI命令,把整个接入流程跑完。

接下来,我们会先看看CMS CLI的具体接入能力,然后重点演示如何通过AI Agent Skill,在K8s场景下实现一句自然语言驱动的自动化接入。

图 1:CMS CLI + AI Agent Skill

CMS CLI 概览

aliyun cms2是阿里云CLI的子命令插件,覆盖了CMS 2.0各个模块的命令行操作。关键是要确保环境就绪:

# 确认 CLI 已安装且版本 >= 3.3.15
$ aliyun version
3.3.20

# 验证 cms2 插件可用
$ aliyun cms2 --help

# 配置凭证(如尚未配置)
$ aliyun configure

应用接入能力

APM 与 AI 可观测

CMS CLI的APM模块支持多种语言的应用接入。它提供了三种接入方式:ack-onepilot(适用于K8s容器环境)、手动自研探针,以及原生OpenTelemetry。在AI可观测方面,CMS 2.0也为主流AI框架提供了开箱即用的接入体验。

CLI 接入流程

不管接入应用的语言和接入方式是什么,CLI接入都遵循一个清晰的六步骤流程:

图 2:CLI 6 步接入流程图

每个步骤的核心命令如下:

# Step 1: 获取账号 ID
$ aliyun sts get-caller-identity --force -o json
# → AccountId: 1108xxxxxxxxxxxx

# Step 2: 初始化 APM 基础设施(幂等)
$ aliyun cms2 apm configuration create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --region cn-hangzhou

# Step 3: 获取接入凭证(LicenseKey、Endpoint 等)
$ aliyun cms2 apm configuration get \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --region cn-hangzhou -o json

返回示例:

{
  "success": true,
  "data": {
    "entryPointInfo": {
      "authToken": "a]***@***************4b70",
      "privateDomain": "proj-xtrace-***-cn-hangzhou.cn-hangzhou-intranet.log.aliyuncs.com",
      "project": "proj-xtrace-***-cn-hangzhou",
      "publicDomain": "proj-xtrace-***-cn-hangzhou.cn-hangzhou.log.aliyuncs.com"
    },
    "status": "Running",
    "workspace": "default-cms-1108xxxxxxxxxxxx-cn-hangzhou"
  }
}
# Step 4: 注册应用服务
$ aliyun cms2 apm service create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --region cn-hangzhou \
    --body '{"serviceName":"my-app","serviceType":"TRACE","attributes":"{"language":"ja va"}"}' \
    /dev/null
# → serviceId: a]***@*********************7f1

# Step 5: 获取接入配置模板(以 Ja va OTel 为例)
$ aliyun cms2 integration addon get --addon-name apm-ja va-batch --env-type Client -o json

# Step 6: 验证接入
$ aliyun cms2 apm service list \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --service-name my-app --region cn-hangzhou

流程虽然清晰,但六步操作、多个参数传递,对不常接触CLI的运维人员来说,门槛依然不低。正是为了解决这个问题,才有了接下来的AI Agent Skill。

图 3:基于 Skill 一句话轻松搞定接入

通过 AI Agent Skill 实现智能化接入

alibabacloud-cms-manage Skill

CMS团队将完整的CLI操作知识封装成了alibabacloud-cms-manage这个Skill,核心思路是把CLI操作流程转化为AI Agent可执行的结构化工作流。用户不需要记住任何命令和参数,要做的,不过是用自然语言描述一下需求。

Skill覆盖了多个模块,安装与使用也都有清晰的文档指引。

工作机制

当用户在Claude Code中描述需求时,AI Agent按一套标准工作流运转:先理解需求,再调用对应命令,最后输出结果。

图 4:Skill 智能接入工作流程图

安全机制:两阶段确认协议

对于可能影响用户集群的操作(比如安装组件、Patch Deployment),Skill严格执行两阶段确认:Agent先给出执行计划,等待用户确认“yes”后,才真正执行操作。而那些只读命令(get、list)和CMS后端资源创建(configuration create)则无需确认,Agent可以直接执行。

图 5:两阶段确认协议

使用效果演示:K8s 容器自动接入

下面是一次完整的交互过程,展示了如何通过Skill完成ACK集群中LangChain应用的自动接入。注意,这里用的是ack-onepilot——它通过DaemonSet在集群节点运行Agent Pod,当Deployment标注指定Label后自动注入探针,整个过程不需要修改应用代码或Dockerfile。

用户:

帮我把 ACK 集群里的 LangChain 应用 customer-support-agent 接入 CMS 监控

AI Agent:

检测到容器接入场景,正在获取集群信息...

$ aliyun sts get-caller-identity --force -o json
# → AccountId: 1108xxxxxxxxxxxx
$ aliyun cs describe-clusters
# → clusterId: c8d3f***********, region_id: cn-hangzhou

正在初始化 APM 基础设施并获取凭证...

$ aliyun cms2 apm configuration create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou
# → 成功
$ aliyun cms2 apm configuration get \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou -o json
# → LicenseKey: a]***@***************4b70
$ aliyun cms2 apm service create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou \
    --body '{"serviceName":"customer-support-agent","serviceType":"TRACE","attributes":"{"language":"python"}"}' \
    /dev/null
# → serviceId: a]***@*********************7f1

正在检查 ack-onepilot 组件状态...

$ kubectl get pods -n ack-onepilot
# NAME                      READY   STATUS    RESTARTS   AGE
# ack-onepilot-7d8f9        1/1     Running   0          5d

ack-onepilot 已安装且正常运行。正在查找目标 Deployment...

$ kubectl get deployment --all-namespaces | grep customer-support
# default   customer-support-agent   3/3     3    3    12d

找到目标 Deployment default/customer-support-agent(3 副本)。执行计划 — Patch K8s Deployment。请确认执行(yes / no)。

用户:

yes

AI Agent:

正在执行 Patch...

$ kubectl patch deployment customer-support-agent -n default \
    --type=strategic -p '{
      "spec":{"template":{"metadata":{"labels":{
        "aliyun.com/app-language":"python",
        "armsPilotAutoEnable":"on",
        "armsPilotCreateAppName":"customer-support-agent",
        "armsPilotAppWorkspace":"default-cms-1108xxxxxxxxxxxx-cn-hangzhou"
      }}}}}'
# deployment.apps/customer-support-agent patched

正在验证滚动更新...

$ kubectl rollout status deployment/customer-support-agent -n default --timeout=120s
# deployment "customer-support-agent" successfully rolled out

接入完成!应用已通过 ack-onepilot 自动注入 Python 探针。2-3分钟后,就能在CMS控制台看到LLM调用耗时、Token使用量、Agent链路等监控数据。

整个过程,用户只提供了一句自然语言描述。AI Agent自动完成了:账号获取、集群信息派生(不用手动提供regionId)、基础设施初始化、凭证获取、服务注册、组件状态检查、Deployment查找,然后通过两阶段确认让用户审核Patch内容后再执行。对比手动操作需要执行的8+条命令,Skill把接入体验从“记命令、查参数、拼JSON”,简化成了一次自然的对话。

图 6:K8s ack-onepilot 自动接入

相关下载