ZKX's LAB

阳光保险:全链路监控平台

2020-09-01新闻10

项目背景及目标

随着科技进步,众多新的技术、平台、系统逐渐投入使用,各系统向智能、微服务、高可用化转型,系统服务能力及运行效率显著提升,也为业务开展提供了坚实基础,但也带来了新的挑战:

1.面对越来越多的平台、子系统、服务器、数据库等设施,需在异常时具备快速定位、有效诊断能力。

2.需对众多设施统一进行监控及大数据计算,在影响业务使用前智能预警,保证系统稳定运行。

为更好的保证业务可以稳定及快速的开展,提高系统运营效率和质量,自研全链路监控平台:以应用系统为视角,对应用系统有关的设施、中间件、网络、数据库、运行环境等进行闭环、可视化的监控,通过大数据计算进行智能预警,提升系统运营数字化能力。

创新点

本方案可实现多监控数据源的整合。业务系统稳定运营对业务开展至关重要,而业务系统运行又依赖基础设施、应用、中间件、网络、数据库等设施,任何设施出现异常都会直接影响业务系统,进而影响业务开展。

目前常规监控工具能监控到数数据有限,比如只能单独监控基础设施、中间件、网络或者其他应用、数据、容器、大数据、日志等类型,无法通过统一平台实现全面监控,需要有一个监控平台一方面可以复用原有监控,一方面可接入原有监控不支持的监控链路,并且将原来各设施孤岛式的监控数据打通,形成监控数据集市。

1.全链路监控平台可以帮助系统运维人员快速“问诊”并定位问题发生设施,进而快速解决异常,减少业务损失;通过大数据进行智能预警,避免异常发生,避免业务损失。

2.具备监控输出能力,子公司可以快速对接并结合自己的业务特点,有效的提高运维能力。

3.为后续数据湖的形成以及智能化学习提供坚实的数据基础

项目方案和技术实现

全链路监控,采用大数据技术,整合基础架构层、业务应用层和用户端运行数据,实现实时的系统运营全生命周期监控,提供多视角、多维度的可视化展示,既可为公司整体IT运营决策性提供数据支持,又为一线运营人员提供及时的问题定位工具。闭环、可视化管理,提升系统运营数字化能力,极大地提高系统运营效率和质量。

全链路监控分四个部分:

1. 监控数据源:产生并记录监控数据。具备产生、记录监控数据能力的系统、工具、服务、设备统称为监控数据源。本方案主要包括前端监控数据,应用相关监控数据,基础设施相关监控数据,业务流程相关监控数据。

2. 监控数据收集:从各处收集监控数据。数据收集模块根据数据源的特点,通过不同方式将监控的数据源进行收集汇总成统一的格式,发送到大数据平台进行处理计算。

3. 监控数据计算:实时、批处理进行监控数据计算、分析、存储。通过使用阳光云提供的大数据计算能力,将汇总的监控数据进行实时或定时计算、分析、统计,最终将结果持久化到数据库中,供前端数据展示使用。

4. 监控数据展示:对监控数据进行大屏展示,供运维人员实时监控系统健康状态,通过告警推送(包括多告警源接入、告警设置、告警通知等功能),及时提醒运维人员处理系统问题。

项目过程管理

本项目分两个批次,对产品功能进行迭代开发,版本发布后,根据用户在实际使用过程中的痛点逐步迭代完善系统功能。

1、需求分析和概要设计阶段

项目第一批次时间段为2019年4月至2019年5月。期间主要完成需求调研,系统业务功能的分析,产品原型设计,系统架构选型,系统周边接口的概要设计。提交系统需求规格说明书。

项目第二批次时间段为2019年1月至2020年2月。期间主要对一期使用过程中的问题进行收集汇总,形成新的优化需求,同时完成新需求的分析以及页面原型的设计等。

2、系统详细设计阶段

项目第一批次起始时间为2019年05月至2019年05月,项目第二批次起始时间为2020年03月至2020年03月,此阶段主要进行系统架构的设计,技术方案的选型以及系统实现方案的详细设计,包括各组件设计、接口规范、安全性、业务逻辑的设计等。提交了全链路系统详细设计说明书等文档。

3、系统编码、测试和上线准备阶段

项目第一批次起始时间为2019年05月至2020年07月,项目第二批次起始时间为2020年04月至2020年06月,此阶段主要完成全链路系统各功能模块开发的编码、测试以及试点行上线准备工作,提交了全链路监控系统测试报告、上线方案、系统设置等文档。

4、试点行上线阶段

本项目分两个批次次上线。

第一批次:2019年7月,实现通过运维大屏实时监控业务系统的运营情况,主要包括应用和主机运行数据的收集和汇总,以及在科技馆的展示。

第二批次:2020年6月,主要实现监控大屏功能指标完善。扩大监控数据及监控页面使用方式:提供监控数据查询及推送功能,提供监控页面嵌入功能,供各项目组个性化开发使用。完善告警相关功能,包括多告警源接入、告警设置、告警通知等功能。

运营情况

目前系统已完成集团近7000余台服务器指标监控监控,300余个应用系统指标监控,实现累计51个监控指标的展示。用户覆盖阳光集团,阳光财险,阳光人寿以及阳光信保,截止发稿日期实现系统告警近1000余次,及时有效的避免避免异常发生,避免业务损失。对于出现异常的情况,系统提供详细的监控数据,助力运维人员快速定位并解决问题。

项目成效

1、监控大屏一期

实现在科技馆呈现公司整体IT运营情况,主要展示磁盘、内存、CPU应用响应、系统评分Top5。如下图所示:

图1-5 一期大屏

2、监控大屏二期

为项目组成员可以更加准确及时的了解系统的运行情况,提供了业务系统的整体概况和系统关键运行指标的实时数据,实时反映系统运行状态和异常情况,并增加告警管理及告警接口,提升公司IT整体运营能力。主要包含两个部分:

1)系统总览

2)系统监控大屏

经验总结

全链路监控平台可以帮助系统运维人员快速“问诊”并定位问题发生设施,进而快速解决异常,减少业务损失;通过大数据进行智能预警,避免异常发生,避免业务损失。

1.聚合原有各类型数据对接方式和技术,形成了一套完整的多数据源统一汇总加工到输出实时展示的方案,为后续同类型项目提供了多类型、多数据源的大数据量实时计算及展示的解决方案及思路;

2.各设施监控数据统一采集、展示的初步使用已初见成效,为后续数据湖的形成以及智能化学习提供坚实的数据基础。

3.监控数据具备标准化的输出能力,子公司可以快速对接并结合自己的业务特点,有效的提高运维能力。

#行业互联网

qrcode
访问手机版