数据中心精细化运维风险管理思路简析
山河边城
2024年05月29日 15:38:02
只看楼主

   近年来,移动技术、云计算、大数据等新技术和气象观测数据、 产品数据的快速发展,对气象数据中心的整体运行能力和服务效率带来了前所未有的挑战。如何合理调配运维保障策略、确保数据安全运行平稳,是全气象行业数据中心面临的重大难题。 风险管理 作为数据中心精细化运维中重要的一环,对稳固运维基础、持续提升运维管理水平、保障业务安全稳定运行,发挥了非常大的作用。

   近年来,移动技术、云计算、大数据等新技术和气象观测数据、 产品数据的快速发展,对气象数据中心的整体运行能力和服务效率带来了前所未有的挑战。如何合理调配运维保障策略、确保数据安全运行平稳,是全气象行业数据中心面临的重大难题。 风险管理 作为数据中心精细化运维中重要的一环,对稳固运维基础、持续提升运维管理水平、保障业务安全稳定运行,发挥了非常大的作用。

1 风险管理
    风险管理是在运行中以考量生产目的与劳动成果之间的不确定性或受到的影响为目标,制定决策,采取适宜的措施,把造成不良影响的可能性减至最小程度的管理过程,提高应对风险的能力,保护资产的安全完整,用最小的成本换取最大的安全保障,对数据中心运维具有重要意义(图1)。
图片
  1.1 风险识别
    风险识别在风险管理里是首要环节。在全面了解各种风险的基础上,分析项目运行内部及外部环境,排查伴随风险的部位、场所、设备、设施或区域,按照对风险的定义和监管内容,对涉及财务、采购、生产、运输、技术、管理、人员、制度保障的多个方面,判断可能会遇到服务中断、信息安全、人员安全、环境安全等风险概率, 设法避免风险而采取最佳手段,做到尽早识别风险,损害降到最低,尽责总结教训,完成风险预案。
  1.2 运行风险分析
    按照人员、物资、运行环境和管理四个层面进行危险源的识别。针对危险源进行风险评估, 从而确定重大特大风险。依据技术、管理、防护和应急处置的顺序组织制定相对完善的风险管控措施手段。
    风险分析能够有效识别风险。风险按照严重程度分为三类:高级风险为无法承受的可能带来严重损失的风险,一旦发生,机房将无法在短时间内恢复到正常状态,会造成严重的损失。中、低级风险也会危害运行安全,但可能只会造成局部异常或形成安全隐患,属于可承受的并且能够控制的运行风险。
    高风险包括但不限于:机房发生火灾、机房大面积漏水、机房空调系统全部失效、核心设备故障停机、机房大面积停电、空调水系统爆管、整套柴发系统故障、核心网络线缆中断、人为破坏事故、人员伤亡、雷击导致供电或网络通讯中断、发生严重电磁干扰等。
    中风险包括但不限于:机房部分设备发生火险、主要机房地面积水、消防系统失控、部分空调系统失效或失控、门禁系统失控、机房照明系统失效、主要设备因故障停机、机房局部区域双路供电异常、单个机房空调系统故障停机、柴油发电机组故障停机、主/ 备网络线缆中断、严重操作失误、管理机构及责任缺失、规章制度不健全、局部设备损毁、发生雷击、鼠害损毁线缆、发生一般电磁干扰等。
    低风险为程度更低、损失或危害更低、概率更小的事故发生场景。
图片
  1.3 风险管理表
    在识别风险后,整理为风险管理表对风险进行后续的管控、跟进、处理以及关闭或者将风险转换为问题处置。详细描述可能发生的风险,根据可能发生的几率判断并定义风险等级,并指派专人负责管理和跟进风险。风险管理的策略主要包括规避、减缓、接收三个策略,由风险负责人对风险进行评估后做策略分类。对已经完成识别的风险要进行定性分析、定量分析和风险排序,制定详细的风险处置方案。如果发生风险要迅速做出反应。应急处置措施包括启动风险处置的报告体系流程、组织负责人力资源调动和现场指挥协调的组织机构和专业人员安排等。风险管理过程中所有的重要操作、相关进展、都要规范详细记录。
  1.4 风险管理计划
    风险管理计划是至关重要的,好的风险管理计划,能够把可能面临的所有风险及问题纳入到遏制风险行动计划中,有助于数据中心的运维管理人员预测和防范更糟糕的风险。创建合理的风险管理计划包括以下几方面:
  (1)各项风险类型要做到详尽说明。数据中心可能会同时面临多种类型的风险,对安全稳定运行是极为不利的。仔细鉴别风险的类型,细致分析风险的不同需求,厘清各种风险的级别。针对各级风险制定长远的计划,在不同时间有序规避不同风险。
  (2)每个人要在风险管控中发挥关键作用,明确每个节点中人员的职责和目标。管理过程中最大的风险来自于人,而把人管理好则是能够将风险最小化并带来最直接效益。通过建立完善规章制度、明确岗位职责分工,强化风险意识,注重岗位知识培训,发挥每个人在风险管控中的关键作用。
  (3)做好第三方公司的评估工作。数据中心可以引入ISO质量管理体系、ITIL流程体系以及M&O运维标准等国际上成熟的管理体系,结合自己的实际情况,采纳适合自己特点的管理方法,强化自身建设,夯实基础,才能在风险管控中应对更多已知和的未知状况。
  (4)应急演练和方案制定的重要性。针对严重的风险事件制定应急预案和应急演练方案,组织风险管控中的所有人员定期进行举行演练,使所有环节中人员都能按照指令执行,迅速准确处理,从演练过程中发现不足和新的处置方法,提高运维人员的专业水平,优化应急处置流程,补充应急预案,在真正遇到风险时能够从容处理。备用电源、消防措施、数据备份、业务恢复都要考虑进去,制定灾难恢复计划,每年追加投资,加强基础设施的购置和运维,逐步提升风险抵御能力。
  (5)噪声风险也要考虑到其中。大部分时候,噪声风险未被重视。但实际情况是,数据机房中的噪音对设备硬盘、制冷设备都会有很大影响,通常噪声超过135 dB 会对电子设备元器件有影响。在风险计划里增加相关风险的处置措施,比如房顶、墙壁采用柔性材料,能够降低噪声分贝,减少声波反射对电子设备产生的影响。
  (6)风险计划中的各方人员联系方式一定要确保是最新的,这样能够在风险来临时及时联系到各方,协调配合处理问题,控制事态升级。
图片
  1.5 风险处置
    风险处置流程:风险处置如何选择要根据风险评估结果并结合实施的成本和预期效益,选择实施开支小但是可以有效降低风险的选项,这些实施后效果不理想再进行改进是需要增加大量成本,所以在设计之初,就要对处置的选项进行合理性判断,以降低风险造成的影响为考虑,成本越低,降低风险效果越好越适宜。
    这里所指的风险处置选项可以进行有效组合,考虑到效益最大化,怎样才能将风险后果降到最低,或者能把残余的风险解决,对风险处置的选项进行两两或多项组合。要明确各个风险处置的实施顺序、时间要求,按照风险登记、成本效益、技术要求等等确定优先级,要对成本和预算直接进行平衡和控制。
    整改是在风险处置中十分常见的能够有效降低风险的方法。风险评估报告中会提出相关整改建议,整改建议是根据风险的等级、处置措施实施的难易程度、风险的时限要求,以及经济因素、人员因素进行综合考虑得出的。
    风险等级高、时间紧迫且易于实施的安全风险,建议立即采取整改措施。
    对于风险等级高、时间紧迫但实施难度大的安全风险,评估组织要求马上制定整改方案,进行开展实施,同时要进行严格的风险监控,制定好相关应急预案。
    对于风险等级中等,时间要求不那么紧迫且不易于实施,评估组织会要求限期整改,制定相关实施方案,实施前要对风险隐患进行监控。
    风险降低:为降低风险的可能性和不好的结果而采取保护措施来降低风险。保护措施可以从威胁源、威胁行为、脆弱性、资产和影响5 个方面来降低风险。比如,采取法律手段遏制犯罪(包括窃取涉密信息,攻击信息系统设施,传播病毒和发送垃圾邮件等);及时修补系统漏洞,关闭无用的服务端口,减少系统的脆弱性;建立网络安全边界防护,保护网络、系统、信息的安全运行;采取容灾备份、应急响应等措施,从而降低安全事件造成的安全风险。
    风险保留:如果风险对数据中心的策略目标不会造成太大影响、并且在可接受的范围之内,那就没有必要实施额外的控制措施,该风险可以被保留。
    风险规避:为了达到预期目标,改变原有的实施计划,采取适宜规避风险的措施,从而降低风险带来的影响。比如项目在方案设计、招标、合同拟定阶段采取规避风险,在实施过程中遇到不可回避风险时,应采取适宜应对措施;再比如,机房基础环境检修时,空调检修应该一台一台轮流检查,保证机房制冷散热,避免同时关闭所有精密空调;检修UPS 时,必须制定检修计划,避开断电及检修时段,造成重大风险损失;按照机房的使用率、容积率,合理调配机房内精密空调的温度、湿度指标,提高空调的运行效率,做到高效和节能。
    风险转移:风险转移的目的是要将可以预见的但发生概率比较低的风险转嫁给除主体外的第三方,包括风险的影响和职责。可以通过购买商业保险、外包设备维修服务等形式,转嫁给保险公司和运维及设备服务商。比如通过购买财产保险,能够将机房资产的风险(机房建筑物风险、火灾风险等)转嫁至保险公司;通过与设备运维公司签订外包合同,可将机房的基础资源设备如机房不间断电源设备、精密空调等设备故障风险转移。
    风险预防:风险预防就是为了防范已经存在的风险,积极制定相应的应急预案,采取有效的应急处置手段,避免风险发生。比如定期开展应急演练,内容包括重大业务故障、网络安全、消防安全等,能够有效提高运维人员对突发事件的应急处置能力。针对机房的高效管理,定期清理僵尸服务器、僵尸业务,制定科学的业务上线、下线审批制度,集约优化数据中心的运行环境。
    风险接受:是指组织管理者决定对风险不采取进一步的处置措施,接受风险的处置计划和残余风险的结果,接受并做出正式记录接受风险的决策及相应的责任。但前提是确定了风险等级,评估了风险的可能性以及破坏程度,分析了采取处理措施的可能性,并进行了成本效益分析,综合考虑下认定某些功能、服务、信息或资产无需进一步的保护。
    风险沟通:风险沟通是在组织管理者和利益相关者之间通过交换或共享风险信息来进行管理风险从而达成一致的活动。风险信息包括但不限于风险的存在、性质、形式、可能性、严重程度、处置措施和可接受程度。
    风险沟通的目的是为风险管理结果提供相关保证,收集各方风险信息,共享风险评估的结论,确定风险处置计划,避免或减少由于决策者和利益相关者之间缺少沟通而造成的后果。
    风险监视:持续有效的监视包括但不限于风险管理范围内的新资产;变化的业务要求;在组织内部和外部活跃的且未被评估的新威胁;新的或增加的脆弱性以及可能性;因风险聚合而可能造成的影响或结果,进而发展为不可接受的风险级别;信息安全事件。
图片
    风险管理方法应用在数据中心运维方面展现了较好的管理效力,制定更加精细的可量化的制度及标准,利用标准化方法可以更加有效帮助量化数据中心的风险,是数据中心精细化管理中的重要内容。


免费打赏

相关推荐

APP内打开