AIOps涉及哪些领域和方向?
2016年,Gartner首次提出AIOps这个概念时,用的是“Algorithmic IT Operations”,也就是算法驱动的IT运维。到今天,这个缩写的内涵已经悄然扩展成了“Artificial Intelligence for IT Operations”——人工智能驱动IT运维。技术迭代和行业认知的演变,让这个词的边界不断拓宽。

接下来,从故障发现、故障定位、容量管理、变更控制、预案制定、磁盘故障预测,以及大模型应用这七个关键维度,把这些实践和思考掰开揉碎,逐一解读。
故障发现与AI结合
先说说故障发现这块。它面临的挑战,很多已经超出了人力所能及的范围。概括下来,核心问题有三类。
第一个挑战——监控项本身庞大到令人窒息。服务越复杂,监控指标就越像雪崩一样滚滚而来。拿不同运营商、不同地区的流量数据来说吧,细分下来可能产生几百条数据曲线,每一条都需要量身定制监控策略。靠人工去配置这些规则,不仅任务繁重,经济上也不划算。
第二个挑战,是微小变化检测。尤其那些渐进性下降或者微小波动的场景,肉眼几乎看不出端倪。比如流量曲线缓慢下滑,可能预示着系统某些地方在“悄悄出问题”。这方面,有个典型的场景特别值得提一下:如果今天的总请求量大于昨天,通常大家会觉得正常。但细究一下,假如今天0~12点的请求量高于昨天同期,而12点之后开始缓慢走低,最终低于昨天同期的水平,这种细微的反常,背后很可能就藏着异常。这时候,自动化的监控工具就成了关键,它能帮我们捕捉到那些容易被忽略的异常模式。
第三个挑战是——只看单一指标,很难还原问题的全貌。很多时候,准确诊断需要同时看多个指标的变化。以短视频服务为例,光看播放量或者播放时长,其实很难判断服务是否健康。如果播放量和播放时长一起上涨,基本正常;如果一起下降,也可能只是正常波动。但如果播放量在涨,播放时长却跌了,那大概率就有问题了——比如推荐系统可能出了岔子。
所以,在故障发现这个领域,目前可以归纳出三个主要的研究方向:
单指标异常检测:这是当前最活跃的研究方向之一。AI在识别单指标异常上的效果已经非常显著,无论是工业界还是学术界,都把它当作AIOps的热点话题,发文章的热度一直居高不下。
多指标联合分析:当多个关键性能指标(比如SLA、延迟、系统负载等)同时出现异常时,就需要一个智能决策机制来综合分析它们的相互关系和影响。这种多维度的交叉判断,才能更准确地判定是否真的出了问题、问题出在哪儿。
报警优化:成千上万的监控指标,阈值怎么设?靠人为预测和手工设定,几乎不现实。这里就需要智能算法来辅助,自动预测、自动设定,从源头上减少误报和漏报,提升监控系统的整体效率。
故障定位与AI结合
服务出问题了,定位难在哪儿?最核心的,是成因太复杂。到底是单个服务器或实例的问题,还是网络故障,又或者是其他外部因素?
如果故障只出现在少量机器上,基本可以判断是机器本身的问题,而不是上层服务导致的。如果是同一网段的多台机器同时出问题,多半是网络异常——配置问题或者网络设备故障。如果是同一型号、同一批次的机器集体出问题,那很可能是这批硬件存在共性缺陷。
难点之二,在于调用链路的深度和复杂性。云计算和大数据技术普及之后,分布式和微服务架构让业务系统之间的交互变得极其复杂。一个故障发生,要追踪它的因果关系,难度直线上升,主要体现在两点:一方面,调用层次太深,在多层的服务调用链条里,故障很容易在多个服务和组件之间“传播”;另一方面,故障之间的先后顺序和因果关系怎么确定?是服务A导致了服务B,还是反过来?这个问题堪称运维版的“先有鸡还是先有蛋”,牵涉的服务越多,判断就越烧脑。
难点之三,导致故障的因素太多样。比如流量出现波动,背后可能是促销活动、节假日影响,也可能是内部系统故障。外部事件——像节假日或特殊活动——对流量的冲击经常被遗忘在故障分析之外。同时,也必须在第一时间排查到底是不是内部系统的问题,比如服务故障或性能瓶颈。
因此,在故障定位领域,目前主要探索了三个方向:
多维定位(下钻定位):从不同维度深入分析故障,通过细化问题来收窄定位区间。比如,从特定服务、具体实例、时间窗口一步步下钻,逐步缩小故障范围。
因果关系判断:在复杂系统中,故障常常由一系列事件串联而成。这一方向需要开发智能算法,分析时间序列数据,识别先行指标,判断哪些事件是直接原因,哪些是间接影响或结果。
重复故障定位:针对系统反复出现的故障,重点在于识别其中的模式和规律。通过历史数据,建立预测模型,提前干预,减少重复故障的发生概率和影响。
容量与AI结合
容量管理与AI结合,主要落在这三个关键点:
流量预测:这是容量管理最基础的工作。AI通过时间序列分析、回归模型等机器学习算法,对历史流量数据进行建模,识别流量模式和趋势,预测未来的变化轨迹,包括节假日、促销活动等特殊事件的影响。预测准了,才能提前规划资源,避免流量高峰时出现服务抖动甚至挂掉。
服务资源画像:说白了,就是搞清楚一个服务在不同条件下到底需要多少资源——CPU、内存、存储、网络带宽等。AI可以通过分析服务在不同查询率(QPS)和硬件配置下的表现,构建出资源需求模型。有了这张“画像”,资源分配和优化就更精准了。
扩容决策:根据当前和预测的请求量,决定到底需要多少资源。AI可以实时分析数据,辅助决策者判断何时该加资源、加在哪儿,以及怎么分配最合理。
变更与AI结合
系统上线、变更的过程中,人工检查一直面临两个痛点:一是检查成本太高,二是容易遗漏关键信息。面对密密麻麻的检查项,细微的异常靠眼睛盯几乎不可能,这就限制了变更拦截的精准度。
另一个问题是——上线团队往往只盯着自己负责的服务,而忽略了对上下游服务的影响评估。再加上检查标准不统一,发布工具中的阈值设置不完善,进一步拉低了变更拦截的准确率。
智能检测技术的价值就在这里——它能自动分析服务上线对上下游的潜在影响,全面监测相关指标,还能捕捉那些肉眼根本看不到的微小变化。自动化的全面检查,让变更拦截的精度和效率都上了一个台阶。
预案与AI结合
预案与AI结合,核心要解决的是——怎么快速得到准确有效的决策。工程师在高压环境下做决策,本身就有难度。人工处理故障时,响应慢、判断失误、操作错误,这些情况并不少见。
之前就遇到过一次服务雪崩式的故障,当时现场一片混乱,有人提议重启服务,有人建议切流,还有人主张限流。每个人都有自己的道理,但最终的结果是——决策混乱让故障持续时间无限拉长。那究竟什么样的决策才是最合理的?这时候,AI就有了用武之地。把人工智能和预案管理结合起来,形成一套智能决策流程,既能加快判断速度,又能提升决策质量和效率。
磁盘故障与AI结合
磁盘故障预测,是AIOps应用中比较成熟的场景之一。提前识别和预测磁盘故障,能大幅提升数据的安全性和系统的可靠性,减少因数据丢失或系统中断带来的风险。
具体做法是:利用机器学习和深度学习技术,分析磁盘的各类相关数据,构建预测模型,识别故障的早期迹象,及时把即将出问题的磁盘修复或替换掉。
大模型与运维
大模型给运维领域带来的一个最直观的变化就是——工具终于能“听懂人话”了。AI能够理解人类的自然语言,人类也能看懂AI的输出。这种双向理解,极大地增强了人机协作的效率。
具体来说,大模型让AI能解析运维人员的自然语言指令和查询,更准确地响应需求;同时,AI还可以用人类易读的方式生成报告和解释,帮助运维人员快速掌握系统状态和问题核心。通过自然语言交互,运维人员可以更直观地与AI系统合作,进行故障诊断、数据分析和决策制定。大模型带来的不止是自动化和智能化水平的提升,更是人机协作方式的革命性变化。
小结
这节课我们从故障发现、故障定位、容量预测、风险预案、变更管理、磁盘故障预测,一直聊到大模型应用,逐一拆解了AI与系统可靠性结合的多个关键领域。AI的引入,正在突破传统人工方法的种种局限,解决那些曾经被视作“死结”的难题。后续几节课,我们会深入到每一个领域,具体聊聊AI应用的技术细节和最佳策略。