InfoQ--博睿数据CTO孟曦东:发挥AIOps价值需在数据质量下功夫

2022-08-05

2016年,Gartner提出了AIOps(智能运维)这一概念,即利用AI技术的新一代IT运维,旨在通过算法进一步解决企业遇到的运维难题。随后,AIOps的概念得到了广泛普及和发展。

当前随着千行百业数字化转型进程加快,AIOps市场发展速度也迈上了新的台阶。2021年7月13日,Gartner在《2021年中国ICT技术成熟度曲线报告》中指出,AIOps的持续发展推动了IT运营管理市场(ITOM)的增长,2020年全球AIOps市场规模在9亿美元至15亿美元之间,2020年至2025年的年复合年增长率约为15%。

在Gartner的《2021年中国ICT技术成熟度曲线报告》中,博睿数据成功入选了AIOps代表厂商。日前,InfoQ采访到了博睿数据创始人兼CTO孟曦东,和他聊了聊当前国内AIOps的实践与发展。

孟曦东,博睿数据创始人兼CTO

1998年8月至2000年3月,任中国航空第303研究所软件工程师;2000年3月至2008年1月,任北京千龙新闻网络传播有限责任公司技术总监;2008年2月至2016年2月,任博睿数据首席技术官;自2016年2月至今,任博睿数据董事、副总经理。  

AI+运维

在过去的数十年间,运维发展经历了数个阶段。从早期的手工运维到标准化运维、自动化运维,再到DevOps、AIOps,追溯整个历程不难发现,运维方式随着技术的不断发展,逐渐迈向智能化。

所谓的AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。

在孟曦东看来,AI是一项通用技术,在很多场景中都可以得到应用。在运维工作中,借助AI技术,现有工作可以得到更好的辅助。在过去,遇到无法解决的技术难题时技术人员通常会求教于他人,在AI的加持下,AI技术会自动匹配知识库,降低学习成本和使用门槛。

此外,AI也能够为运维工作赋能增效。随着互联网快速发展,业务组件越来越复杂,数据体量也呈现爆发式增长态势。面对庞大的数据,单纯依靠人力去分析成本巨大,而借助AI技术,可以把数据的价值挖掘到最大化,同时在工作效率上也能得到极大提升。

“如果你想要更高效、更准确的自动化运维,一定要具备更好的数据决策。而数据决策不能单纯依靠人力去做,要交给机器来做。”

AIOps是一个长期演进的过程

虽然AI技术给运维工作带来的价值显而易见,但需要明确的是,AIOps的实践不是一蹴而就的,而是一个长期演进的过程,需要逐步发展。

当前来看,企业的AIOps实践主要面临以下几大难题:

第一,海量数据的获取。AIOps本就是基于已有的运维数据,并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。企业实现AIOps的前提是建立起全面获取IT数据的能力,这里的数据主要包括但不限于日志、指标和事件等。将这些数据输送给AIOps平台,为AIOps提供数据资产,以进行整合的更高级别的分析和洞察。如果没有这些大数据的支持,AIOps则是无源之水。所以对于企业来说,大数据采集工作至关重要。

第二,打破数据孤岛。一些企业不同域的IT监控工具被部署为孤立的解决方案,虽然能满足IT运营中的特定团队需求,但彼此形成数据孤岛,固有的企业文化和组织架构制约数据融合。对于企业来说,如何打破数据孤岛,建立数据资产的统一管理仓库,是需要进一步思考和解决的问题。

虽然AIOps的概念诞生于2016年,但在国内直到2017、2018年才开始有企业陆续应用、推出商业化产品。“2020年是一个分界点”,孟曦东提到,彼时,国外在AIOps领域已有一些成熟的应用,另根据Gartner预测,到2022年,40%的大中型企业将部署AIOps平台。

“对于国内企业来说,AIOps第一阶段应用是在2020年,在此之前更多是在做准备、培育市场,但还没有成熟的、实际落地的应用案例。2020年以后,我们也看到在真实场景里有落地案例,至于效果好与坏,其实与数据治理程度有关。如果数据质量很好,那么最终的运营效果就会很好。”孟曦东说道。

当前AIOps的主要应用场景有基线预测、异常检测、智能告警、根因分析等,在某些单维度、周期性的场景下,AIOps已在应用上取得一定的效果,但在多维度海量数据场景下,AIOps要想发挥最大的价值,还需要企业多在数据质量上下功夫。

以根因分析为例,如果数据质量不高,那么依靠AIOps做根因定位显然不靠谱。“当前很多企业存在的问题是数据质量不高,这里所谓的质量包含了多种含义,包括数据的丰富度、采集的精度、定义的标准等等。当前很多公司都在做数据治理,目的就是要把数据的质量提升上来。因为和AI结合最紧密的还是数据,如果你的数据出现问题,那你的AI也会出现问题。”

在数据质量之外,孟曦东认为工程能力也是一项非常重要的能力。“如果你有一个很好的算法,并且又具备工程落地的能力,能把它去真正实现产品化,就能够为市场带来商业价值。不过总的来说,数据一定是基础,是发挥AIOps价值的第一步,第一步走好才能走第二步、第三步。”

在AIOps实践方面,博睿数据依托多年APM行业积累,已具备丰富的数据集合。依托IT运维监控能力,利用大数据和机器学习技术持续构建智能运维监控能力,博睿数据先后推出了搭载了AI能力的新一代APM产品Server7.0和统一智能运维大数据平台Dataview。

2021年,博睿数据在国内首次提出了“服务可达的数据链DNA”技术理念,D代表DEM(数字体验管理),N代表NPM(网络性能管理),A代表APM(应用性能管理),从而打通从代码到用户访问的全过程,进一步释放企业IT运维监控管理所有分支领域DEM、APM、ITIM、NPM和智能运维管理的能力。

“当前在运维领域,AI技术的应用还是刚刚起步,慢慢成熟,我认为未来的3-5年,AI技术会广泛应用到运维场景中。”孟曦东展望道。

AI有了AIOps,运维人员会失业吗?

随着数字化转型脚步加快,当前国内已有不少企业在AIOps领域做一些持续尝试。

Gartner在《2021年中国ICT技术成熟度曲线报告》中具体分析AIOps市场采用率上升的因素时表示,中国企业已经开始采用AIOps平台,与一些传统的监控工具类别进行竞争和替代。例如,在AIOps平台内完成监控IaaS和实现可观察性,尤其是当企业将IT基础设施迁移入云之后。此外,中国企业正在扩大在ITOM的各个方面增加对AIOps的使用,并在DevOps和SRE实践中完善使用场景。

对于运维人员来说,一个普遍关心的问题是:如果企业转型为AIOps,自己是否会失业?

在孟曦东看来,这个问题的答案显然是否定的,至少在可预见的3-5年内不会出现。“可以预见的是,运维岗位会随着技术的进步,岗位职责会发生变化,由基础走向更高级。”

一方面,运维人员需要具备规划顶层设计的能力。AI能够解决的问题通常是把比较简单的、机械的重复性工作变得更高效,节约人力成本,从而让人力能够把时间和精力放在AI覆盖不到的场景上去做统筹设计。比如在金融领域中,运维人员可以制定一些安全制度等等。

另一方面,运维人员需要做一些协调和管理类的工作,并对未来做预测和规划。3年、5年后的AI很可能与现阶段的AI存在翻天覆地的变化,至于未来的AI模型是什么样,需要技术人员提前做出判断。

孟曦东认为,AIOps的核心点在于能够降低运维人员的门槛。过去通常要求运维人员拥有3-5年的知识储备和积累,但在AI的加持下,这一时间能够大幅得到缩减。此外,AIOps也能缩减低附加值的岗位人员,自动化完成这部分工作,降低企业人力成本。

“当一个新技术在推进的时候,就会出现新的岗位,这些新岗位会覆盖掉一些低附加值的岗位。有岗位被覆盖,但也总会有新的岗位出现。”

国产基础软件生态建设是关键

作为国内APM应用性能管理厂商,博睿数据不断将业务概念进行延伸拓展。随着国内大数据、AI等技术快速发展,国内基础软件发展也步入快车道。2019年,博睿数据开始关注国内基础软件领域,当前已对多款国产基础软件做了适配工作。

至于适配初衷,孟曦东坦言一方面基于公司定位做出这个决策,另一方面也希望能通过一个客观度量工具,帮助国产软件真正地去替代国外软件。

“我们的定位是做数据的采集、分析以及消费,并且能够帮助客户达成业务价值,这个链条里面相对比较重要的一个环节就是数据采集,所以我们必须要做好适配工作。此外,任何系统在不同的业务场景下可能都会存在短板,如果仅依靠人的感知很容易产生偏离,因此需要一套客观的度量工具,这样才能知道问题到底出现在哪里。”

对于最重要的国产操作系统之一鸿蒙,博睿数据也已完成适配工作。“我们一直非常关注华为的技术迭代,在他们还没有正式发布鸿蒙之前,我们就已经开始接触了,我们也希望不管是国产的芯片还是操作系统,都能拥有很好的生态土壤。”

在孟曦东看来,过去国产基础软件市场在生态建设方面存在短板,近几年在国家的重视和市场的关注下,越来越多的企业愿意加入到生态建设中去。此外,当前在基础软件领域标准化产品比较少,只有企业在标准化产品上持续投入,才能慢慢打磨成精品。而一旦陷入定制化需求研发中,就会变成按需投入人力,成本巨大。

写在最后:

对于国内AIOps以及基础软件的未来发展,孟曦东表示很有信心。

在他看来,中国市场足够大,数据也足够丰富,而在国家战略和政策的支持下,传统制造业正向智能创造逐步发展,发展的过程中必然会涉及大量数据处理,而这也是AI技术的强项。

新闻动态

立即体验一体化智能可观测性平台

欢迎拨打电话咨询

400-680-8085
微信 微信扫码 在线咨询