来源:玉工讲技术 数据中心建设完成后将进入运维阶段,该阶段对运维管理建立较全面的认识是梳理好运维管理工作内容的前提。虽然不少书籍有相关方案和建议,但把这些概念和模版应用到实际工作也需要“适配”的过程。 从整体视角,数据中心运维涉及到如图 1 所示的三个方面。 图1 数据中心运维整体视角 本文根据玉工最近几个月的数据中心运维实践、与多个维保单位的交流学习基础上
来源:玉工讲技术
数据中心建设完成后将进入运维阶段,该阶段对运维管理建立较全面的认识是梳理好运维管理工作内容的前提。虽然不少书籍有相关方案和建议,但把这些概念和模版应用到实际工作也需要“适配”的过程。
从整体视角,数据中心运维涉及到如图
1
所示的三个方面。
图1 数据中心运维整体视角
本文根据玉工最近几个月的数据中心运维实践、与多个维保单位的交流学习基础上
对上图中基础设施运维管理模型进行的简要总结
,望各位指正和批评。本文第二篇紧接着通过实际案例讨论运维管理差异化
“适配”过程实现要点。
1、数据中心基础设施运维管理目标
数据中心运维期是从数据中心项目交付使用,直到项目废除的全过程,而运维管理就是为提供符合要求的基础设施系统服务,对与该基础设施服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是基础设施服务有关各项管理工作的总称。因此,此阶段的运维管理,就是用好、管好已建设交付的数据中心,以合规的运维过程,
实现基础设施的可用性、安全性、服务性、经济性
。
从个人的实际经验来看,当数据中心没带大规模业务的时候,经济性尤为重要,因为书上的写或建设者交付时推荐的方案几乎都是基于满负荷带业务的理想场景,但实际往往与理想场景存在较大的差距,因此从经济性角度考虑“花小钱”搞定数据中心运维这个“大事”变得尤为重要。
2、数据中心基础设施运维管理内容
数据中心的运维管理可以分为运维组织架构与人员管理、设备及设施的管理及运维流程、文档及现场的管理,如下图2所示。
图2 数据中心基础设施运维管理模型
其中:运维人员包括数据中心运行值班服务人员(称一线人员)、运维管理人员和技术支持人员(称二线人员)以及第三方支持人员(称三线人员)等;数据中心设备及设施主要有两方面:一是为保障数据中心的IT设备正常运行所必需的电力系统、空调与制冷系统、消防系统、
弱电系统(
综合布线系统及智能化
)
等,
二
是包括管理工具自身的管理:包括基础设施的监控软件、报警系统、工作流程系统、身份认证、安全审计系统和KVM等;
三是
运维流程
管理,
包括服务提供与服务支持管理
、规章制度等
,其中服务提供主要为服务水平管理
(SLA)
、容量管理,服务支持包括事件管理、问题管理、变更管理、配置管理;规章制度:系统操作流程、规章制度、管理办法等。
我们平时所谓的4P文档(AP、SOP、MOP、EOP)也可以归为运维流程、文档、现场管理范畴。4P文档层次模型如下图3所示。
图3 数据中心基础设施运维管理4P文档模型
3、数据中心多元化运维
针对数据中心不同的运维要求,
从经济性考虑可以
提供多元化运维
类型
,可提供远程运维、受理型运维、驻场型运维。
远程运维:7*24小时远程监控值守,定期
远程
巡检,告警及故障实时监控;故障远程排除;大数据分析;远程技术支持等。
受理型运维:定期巡检、预测性维护、预防性维护、故障检测及排除、应急服务、设备部署及调试等。
驻场型运维:现场值守、日常巡检、预防性维护、故障检测及排除、备品备件管理、档案资料管理、标识标签管理等。
4、数据中心专业化运维
以服务为核心,通过专业化的运维,最大
幅度
提高数据中心运行效率,保障和提升数据中心可用性,延长设备使用寿命。
(1)监控值守
安排人员进行监控值守
(一般在总控室值班)
,保障维护工作的及时性,及时掌控设备的数据信息和运行情况。
(2)定期巡检
通过定期巡检,结合动环
系统(或DCIM系统)
对数据中心基础环境所属的设备进行集中检测,按照预设的检测周期采集预定义的各子系统设备的运行状态及工作参数,及时掌控系统设备的数据信息和运行状况,记录历史数据和报警事件
,
保障数据中心内系统的正常、高效运行。
(3)预防性维护
以定期巡检为基础,
形成运维基础数据。通过分析运维基础数据,为
整个
数据中
心运维
提供历史数据进行趋势分析,
进行预防性维护,
及时
更换备品备件,提前将隐患消除。
(4)预测性维护
通过
通过大数据挖掘与大数据分析
等
手段进行数据和信号采集、分析,同时结合设备运行的寿命期统计规律或历史数据,预测可能存在的隐患,提出预测性维护意见
。
图4 数据中心专业化运维要素
5、运维模型“适配”的难点与风险
对于基础设施运维来说,首先需要按照公司人员组织架构建立一支合适的运维团队。
以此为基础
各专业需要全面梳理系统运维
文档和服务
需求,并结合现状制定详细的运维计划和执行标准。
运维团队的建设和人员数量也涉及到数据中心规模和实际场景(服务级别SLA),虽然大家都知道可靠性和安全性非常重要,但考虑到数据中心实际承载业务和经济性之间的平衡点,不得不面临缩减或压缩团队规模和人员配置。
这样团队运维能力和系统运维效果会
受到较大影响。
数据中心的标准运维流程和制度(4P文档)很难照搬到实际场景,也需要结合实际修改完善才能变成一个可执行的流程规范,这些“适配”过程是需要一定专业基础和实践经验为前提的。因此,数据中心运维要做“减法”时,关键点在于我们对运维模型正确认识。同时,数据中心投资的一堆机电设备与设施如果得不到必要的运维保养将会引来诸多潜在安全隐患和寿命周期的损失。举个简单例子,买了50万的车,如果舍不得花钱进行必要的保养,将会大大缩减车辆生命周期。这样的做法近期可能无法证明对错,但往后较长的日子里时间会证明一切。
下一篇文章里,以实际案例为基础,将讨论各大运行商的实际运维团队组建和任务分配例子,进一步总结“适配”过程的重点因素。