5G、AI、物联网、云等新技术的不断叠加,让联接变得无处不在,也让网络当中不断增加大量、种类繁多的新设备,并大幅增加了网络的复杂性。
随着“5G新基建”的加速实施,数字经济发展迎来新动能。不仅推动投资消费的快速增长,还将驱动各行各业的数字化转型升级。随之而来的是网络与业务的高复杂化与高质量的挑战,运维能力的演进成为电信网络能否持续发展效能的关键影响因子。
电信行业一直是网络智能化转型的探索者,此前就一直在利用SDN、NFV和云技术,来提升业务和网络敏捷性,降低运维复杂性和成本。如自动驾驶网络,就是电信用不通过应用多种智能技术从自动化迈向智能化的尝试。
实际上,网络变得越复杂,一方面说明了网络与新兴科技结合愈加紧密,作为新基建的“基石”,网络的价值得以日益凸显;而另一方面,越是复杂的网络,越让传统人力为主导的运维模式捉襟见肘。智能化运维能力的演进,也成为了电信网络能否持续创新的关键。
所谓“欲善新基建,必先利运维”。正是这些行业需求,成就了AIOps智能运维表演的舞台。AIOps已成电信智能化转型的关键
早在2016年之前,Gartner就在其词库就添加了AIOps这一词条,彼时AIOps是AlgorithmicIT Operations的缩写,按照字面理解,AIOps是一种基于算法的运维方式。Gartner还预测,到2020年,AIOps的采用率将会达到50%。
研究机构marketsandmarkets的报告则显示:出全球AIOps市场规模,到2023年将达到110.2亿美元,这个数字显然代表着一个非常大的市场机遇。
正是对AIOps智能运维模式的热望,2018年在国内运维市场也层形成了一股风口效应,在这一年里,传统ITOM/ITSM厂商、新兴APM/NPM厂商、各大云厂商纷纷转战智能运维,市场的热情,进一步推动了AIOps智能运维被用户所认可。
简单地说,AIOps是通过人工智能的方式,对系统运行过程中所产生的数据,运用AI和算法、运筹理论等相关技术,对运维数据进行分析,进一步提升运维效率的新一代运维手段和方法。
它之所以对电信行业有足够的市场价值,则是因为电信网络运维面临的挑战引发的。
数据统计显示,电信网络运维问题发现非常被动,有75%的问题是由用户发现的,而非电信运营商本身;同时,网络故障根因定位更难,日常运维有90%时间都花在了问题定位方面;而各专业运维支撑系统功能也面临开发周期长,闭环流程自动化程度低的技术瓶颈。所以,运营商们期望引入AI智能运维,来实现主动维护和故障自愈。
而从场景化的角度看,网络运维也已成为电信领域最大的AI应用场景。因此,AIOps成为了电信行业运维智能化转型的趋势和共识。预计在未来五年内,电信行业市场的运维系统和平台将加速AI 能力的升级,成为电信领域AI 应用的核心场景,投资占比可以达到60%。
的确,随着互联网业务的高速发展,电信客户在业务场景上丰富多彩,复杂和多变,新业务和新场景也在不断涌现。导致运营商系统里面有大量软硬件模块、日志、监控告警指标也纷繁复杂,无法提前做出预判,也无法快速确定根因,对AIOps的需求就愈发明显。四大价值,读懂华为AIOps使能服务
华为早在2018年就提出了自动驾驶网络的理念。华为希望实现自动、自愈、自优的自治网络,使能电信业务的敏捷创新、极致体验和自动运维,并实现高效的资源和能源的利用。
而华为AIOps 使能服务作为自动驾驶网络AI引擎NAIE的核心能力,基于AI 平台,提供了一系列的电信领域AIOps原子能力以及组合编排能力,使能网络管控析单元、智能运维解决方案等运维系统,最终帮助运营商打破原有的烟囱式建设方式,将各专业运维系统的应用与AI 能力解耦,采用分层的服务化架构对接共享数据中心,集中提供AIOps 能力,适配运维场景应用百花齐放的需求。
总体来看,华为AIOps使能服务的核心竞争力集中四个方面:
首先,AI原子能力解决了AI场景方案可以快速复制的难题,这种能力越丰富,可以解决的场景化问题就越多。
华为就提供了丰富的AIOps原子能力,可以覆盖运维全流程,包括预测、检测,定位、执行。同时,原子能力库支持流量预测,故障预测,KPI 异常检测,日志异常检测,CHR 异常检测,异常关联分析,事件聚合,根因定位等20+原子能力。
其次,组合编排与DevOps能力,可以将AI原子能力快速串联,使得AIOps能力做到不断扩展。
华为通过组合编排功能,让使用者可选择业务场景所需的AIOps原子能力,通过可视化方式完成流程串接,并进行业务泛化参数配置,包括数据接入方式,模型参数,内置电信领域泛化参数,事件通知方式、可视化Dashboard 等配置。同时,这些能力还支持可视化编排或接口调用方式实现。
第三,AI训练和推理,依靠大量有效的数据,而电信网络的数据来源则非常的复杂,甚至包括异构数据,所以满足通用数据源的要求,也是一个重要的考量因素。
华为的解决方案,做到了支持电信领域通用数据源,如KPI 、告警、日志、xDR 等电信领域主流运维数据。同时,支持Kafka,数据库,文件系统,Restful 等电信运维系统的主流数据对接方式。AIOps 使能服务提供通用的数据源对接和标准化数据治理组件,通过配置项快速建立与运维系统的数据源连接,通过SDK将不同的数据类型和格式治理成标准化的AIOps 原子能力输入集,用于模型训练和推理。
第四,在场景组合服务方面,要实现快速的接入运维流程,就要将典型的场景进行预集成。
华为AIOps使能服务作为自动驾驶网络的组成部分,目前已经和AUTIN/NCE/MAE等网络管控析单元、智能运维解决方案等系统的预集成。围绕运维全流程提供预制的典型场景组合应用,通过AI 特性或者服务方式快速接入运维流程。
不难发现,AIOps使能服务,融合了AI的技术优势与华为在电信领域的专业优势,为运维系统的智能化演进提供AIOps平台能力支持,以四大能力集,解决了电信网络在AIOps智能运维上的所有难题。沉入场景化,击破行业痛点
华为之所以总能能成为电信用户的首选,是因为华为总是能够站在用户的视角去看待需求,华为甚至可以引导用户,主动去发现问题,并提前帮用户解决问题。
例如在某地市运营商的运维实践当中,华为帮助其提前5小时发现故障,保障了地市用户业务体验不间断,降低了业务损失。华为还帮助某能源企业实现分钟级故障根因定位和分析,提升网络运维效率4-5倍。
这些看得见的成绩,一方面是华为沉入行业,对用户需求的深刻理解,另一方面则是华为AIOps使能服务,在电信网络的几大关键场景中,已经具备了完善的能力。
如在通信网络中,通过KPI来预测和检测网络问题是最普遍的场景。NAIE融合了电信领域的运维业务特点,提供单指标/多指标检测,异常原因关联分析,模型的自学习调优等关键能力。目前已经用在核心网,无线,数通等不同业务领域。
告警根因定位则是另一个典型的场景,在异常发生后,准确的将多维度的异常,告警等事件进行汇聚和准确定位,过去主要依赖专家经验或者手工分析。而NAIE AIOps通过AI算法,支持多类异常/告警等事件的智能故障定位,自动实现时间,拓扑和故障传播图等维度的事件汇聚和根因定位,大幅提高了运维效率。
除此之外,华为的日志异常检测服务,可实现日志的自动分类和统计规律发掘,实时监控出系统的异常行为和相关日志,可广泛应用在IT及电信网络场景;硬盘异常预测服务,可智能预测短期内(14天)的硬盘故障,以采取规避预防措施,以免对业务产生影响。
总结而言,AIOps就像是电信网络中流淌的“智慧”,既可以加快网络异常问题检测的速度,也可以准确定位故障的位置,并对网络设备亚健康问题进行提前预警,实现了电信网络智能化运维效率的大幅提升。