013.智能运维AIOps

013.智能运维AIOps

几年前看到别人分享过一些AIOps案例,对此产生了兴趣,就入手了此书。回来拖延在这个假期,开始DevOps的专题时,才翻出来花了几个小时读完。不知道大家对这个领域是否有过了解,今天带来《智能运维:从0搭建大规模分布式AIOps系统》的笔记。

智能运维:从0搭建大规模分布式AIOps系统

先解释一下AIOps的概念。2013年,Gartner提出了一个新的概念,ITOA(IT Operations Analyics)中文叫IT运营分析,后面2016年升级为AIOps(Algorithmic IT Operations),这里强调的是算法,非特指人工智能。到了2017年Gartner最后变更为AIOps(Artificial Intelligence for IT Operations),这样现在智能运维的概念才算固定下来。

本书主要介绍微博AIOps的落地经验,先从运维发展史开始介绍,到智能运维基础设施,介绍大数据平台的建设,到后面专门介绍模型算法,最后介绍了智能运维的相关落地架构。

这本书看下来,整体的结构处理得不算好。前面几章像是官方文档,介绍了太多的开源工具,但是又没有深入,如果通过案例来讲这些开源工具比较好。对算法的介绍也处于非常初级的阶段,没有任何论文的东西,都只是简单的介绍一些算法概念,怎么用的,需要什么数据,什么效果,怎么上线的,整个pipeline也没有说清楚。

此书偏向于了解概念,也偏向于方案的选取,没有什么深度的探讨,这也可能是定位问题。

观点

AIOps确实是趋势,但是真正落地还是挺难的。这个是大公司才需要的技能,在云原生大行其道的今天,中小企业没有直接打造智能运维的必要,后面也是各种云厂商的产品竞争。

运维行业的AI落地,我觉得有一些优势。第一,有大量的数据。首先运维行业的数据量是非常大的,每天产生的日志数据,监控的数据非常多,各家的大数据平台每天的处理量都是巨量的。数据的获取,在大公司现在并不算难,难的是数据清洗。

要应用落地的话,需要场景比较垂直,数据量要大,还需要机器学习平台来支撑整个训练过程。

有个数据,有了想法,后面来做想做的事情也简单很多,包括各种数据的挖掘。

这里面除了智能运维外,还可以挖掘到很多其他的东西,比如安全日志挖掘,入侵检测等都属于这上面的应用。

关键是智能运维属于DevOps上的后期应用,后面落地还得先把DevOps做好。

总结

  • 推荐理由: AIOps概念介绍与系统搭建入门,但是不深入。
  • 总体打分: 三星(可读)