文 / 江西省农村信用社联合社信息科技部 赖全颖龚玮智 邓毓
整体情况
为提升业务连续性,降低信息科技风险,江西农信开展了“两地三中心”项目建设。该项目是响应监管要求、提升信息系统抗重大风险能力和顺应金融科技发展趋势做出的重大战略部署。本次同城灾备数据中心迁移工作,属于“两地三中心”项目建设的一部分,是在“数据零丢失、网络不中断、业务不停歇、客户无感知”的目标下,将江西农信青山湖同城灾备数据中心整体迁移至临空区新同城灾备数据中心。
本次迁移工作,同城灾备数据中心迁移项目组充分克服了“时间紧、任务重、难度大、业务关联复杂”等实际困难,充分运用了“集中配置信息管理、统一监控平台、敏捷PaaS私有云、自动化批量运维”等运维管理技术手段,有序推进了“需求调研、方案制订、材料编写、业务预停、分批搬迁、业务恢复”等迁移各阶段工作,圆满实现了“数据不丢失、业务不中断”的预期目标,充分检验了江西农信灾备体系的先进性和可用性,全面提升了业务连续性水平,为继续向客户提供更好的服务保障打下了坚实基础。困难及风险
本次迁移工作历经规划、选址、调研、切换、预停、搬迁、恢复等多个阶段,共涉核心及交易类业务系统,同城灾备各类设备700余件,包括小型机、服务器、存储、网络设备等,涵盖面广泛,技术关联复杂、迁移过程艰辛、攻坚困难繁多。主要体现在以下三个方面。
一是双中心业务关联梳理和解耦实施的困难。在生产和同城数据中心基础架构层,一方面同城数据中心的前身为生产数据中心,其作为主中心承载了近十年的业务系统运行,后又通过长达一年的业务系统迁移切换实现了生产和同城灾备数据中心的职能转换。在本次同城数据中心迁移前,依旧有部分网络环境、应用功能、基础设备运行于该中心。另一方面较多重要信息系统实现了应用层面的跨中心双活和数据层面的实时同步,两个数据中心共同承载着信息化服务的使命。因此,如何将分布于双中心运行的信息系统内外部各个网络、应用、系统环节的关联性准确梳理,并实现交易业务“无感知”的平滑切割是本次同城灾备数据中心迁移前的重点。
二是同城数据中心预停范围圈定的困难。为了最大限度地保证在同城灾备设备停止搬迁时,生产交易业务无任何影响,项目组制订了同城数据中心设备停止预演方案,以此来验证生产业务系统在经历了多轮平滑切割、解耦后,已经完全运行于生产数据中心。因此,如何准确无误地确定最简单有效的预停方案和范围是本次同城灾备数据中心迁移前的难点。
三是前期调研线缆摸排的困难。迁移前的设备信息收集与线缆摸排复杂困难,一方面同城灾备机房由于大楼结构限制,布线采用的是下走线方式;另一方面因同城灾备机房运行年限较长,存在设备老旧严重、设备信息不匹配等情况。因此,如何克服这两方面困难,高效缜密地摸排出线缆接入接出和配置情况是本次同城灾备数据中心迁移前的要点。
四是设备迁移过程风险排除的困难。本次迁移过程覆盖了大量的大中型设备,小型机、存储、网络设备物理位置的移动,同样存在诸多风险,包括设备损坏风险。设备在搬迁过程中,需要经历下电、打包,从一个机房的搬迁至另一个机房,设备可能因人为、意外的原因而损坏。数据损失风险。服务器或存储设备搬迁过程,因震动、拔插等因素,造成不可修复的设备故障,引起潜在的数据数据损失风险。业务中断风险。分批次搬迁设备过程中,需要断开设备的电源供应,脱离原有网络运行环境,前一批次的设备搬迁容易造成下一批次尚在运行设备的业务中断。迁移实施过程
1.统一思想,畅通沟通协调机制。数据中心迁移项目涉及面广,参与人员众多,良好的沟通机制是保障项目成功的重要环节。一是成立迁移项目指挥部。由江西农信党委书记、理事长任总指挥,负责迁移工作的决策部署。首席信息官任现场指挥,项目成员由科技部及全体业务部门负责人组成,负责迁移工作的具体落实与协调。二是畅通日常沟通机制。建立了项目例会、不定期协调会议等重要沟通机制,快速有效解决迁移过程中的各项问题。多次召开迁移工作协调会,安排搬迁过程中的技术支持保障。专人对接新同城灾备数据中心机房托管方,完成设备进出、车辆通行、机房环境运行保障等工作。
2.明确目标、合理细化阶段工作。“凡事预则立,不预则废”,数据中心迁移涉及事项繁多,一个完整、合理的迁移计划是必需的。因此,项目组根据现有的同城灾备体系,制订了切割双数据中心关联系统后再实施迁移的总策略,明确了迁移不得影响生产业务的总要求。同时,根据灾备业务的实际情况,详细梳理前提条件,规划了包括需求调研、方案制订、材料报备、业务预停、分批迁移、业务恢复等阶段工作。
3.阶段推进,预备各项前提条件。根据阶段性工作计划,严格制订阶段性目标,分阶段按质按量地完成各项工作。一是需求调研。迁移工作的首要前提是“核实家底”,即全面准确地掌握原同城灾备数据中心所有设备信息、线路布设等情况,但排查工作复杂困难。为了不影响生产业务,项目组结合交换机端信息,通过MAC地址比对等方式,快速、准确地完成调研摸排工作。二是精准确定预停范围。项目组采用多种途径检验预停范围,确保整个过程安全可控,通过对生产交易类存储复制的一致性组进行检索,来确定PowerHA和GPFS的跨中心高可用关联范围,避免漏停误停的发生。三是同城灾备预停实施。预停是迁移工作的关键点,项目组缜密部署了预停方案,通过提前中断双中心间高可用关联以防止波分链路中断后的脑裂现象。通过在同城灾备端各个网络安全分区大二层入口处捕获网络报文来检验同城灾备端是否依然有生产业务流量;通过主动断开波分链路的方式以验证同城灾备端设备不再承载业务服务。
4.分批分次,有序实施搬迁。项目组根据业务用途和设备类型,将搬迁工作分为四个批次进行,搬迁过程总体安全稳定。首先,提前安排时间进行关机、下电、下架和打包工作。其次,充分考虑设备搬迁稳定保障。再者,全程安排人员、备件和技术保障,应对搬迁过程中出现的各类风险隐患。
5.后续跟进,全面业务恢复。设备搬迁至新灾备机房后,项目组有序推进上架、上电工作,并同步着手全面恢复核心及交易类系统的同城灾备能力。其中,核心业务系统作为整个银行IT系统中最重要的系统,全过程仅耗时10余小时就完成搬迁及灾备能力恢复。技术经验亮点
在本次迁移的双中心间关联平滑切割、同城灾备预停和同城灾备能力恢复等多个环节,项目组充分利用了已建的配置信息管理平台、统一监控平台、敏捷PaaS私有云平台、自动化批量运维平台等系统的技术,大幅提升了迁移工作的工作效率,同时也规避了因搬迁同城灾备设备导致生产系统受影响的风险。
一是使用配置信息管理系统对设备的软硬件基础信息进行核查比对。目前江西农信已实现了生产和同城灾备数据中心设备信息数据的全面、准确的管控和采集,将站点、机房、硬件设备、软件配置、计算实例、应用系统等基础配置信息进行统一管理,同时融合了现有软硬件资源架构及关联关系。在调研时期时间紧张的情况下,通过使用配置信息管理系统对设备信息进行核查比对的方式,大大提升了调研的工作效率。
二是通过统一监控平台实时监测生产业务系统状况。同城灾备迁移过程中可能造成生产业务系统受影响的两个关键时点在停机和启机两个阶段。停机阶段容易使正在运行的业务受影响;容易因高可用关联性导致生产端高可用探测心跳异常判断。启机阶段易因突然的高可用关联关系恢复导致资源组的争抢。因此项目组利用了全面的端到端的统一监控平台来监测、巡检生产业务系统的各个维度的指标,包括业务性能、基础性能、网络性能、应用性能等等。停启机前后仔细检查了高可用配置参数,防止脑裂问题的发生。
三是通过敏捷PaaS私有云平台快速部署资源环境。在梳理出同城灾备数据中心尚在运行的双活节点信息后,项目组在生产端采用了敏捷PaaS私有云平台进行快速横向扩展资源环境,防止因同城灾备端的双活节点停止后,生产端性能不足以支撑业务的衍生性问题。
四是通过自动化批量运维平台进行高可用关联停止和恢复。在预停过程中,项目组通过自建的基于开源Ansible软件的自动化批量运维平台,一键式批量停止并恢复了高可用软件服务与操作系统,极大缩短了预停时间和灾备能力恢复时间。整体评价
本次迁移工作强化了工作目标、明确了工作任务、压实了工作责任,凭借对项目过程科学、合理的规划,针对各类突发问题所做的有效应对,充分运用自动化、智能化技术,使得整个迁移项目的实施达到了“快、准、稳”的良好预期效果。本次迁移项目的成功也标志着江西农信“两地三中心”项目中的同城灾备战略顺利落地,为今后江西农信IT建设打下了坚实的基础。