北京数据中心的事件分级管理!
针对数据中心的特点,我们定义了四级故障事件,将按照以下的标准对故障事件进行分级:
重大责任事故:超过一级故障限制时间的事件。 一级故障事件:现有的系统停机,或遭到严重攻击行为或安全事件,对数据中心的业务运作有重大影响,持续小于4小时的事件。持续时间超过4小时则升级到重大责任事故。 二级故障事件:现有系统的操作性能严重降低,或由于网络性能失常或安全事件严重影响数据中心业务运作,持续小于8小时的事件。持续时间超过8小时则升级到一级事件。 三级故障事件:系统的操作性能受损,安全事件例如病毒在小范围内发作,但大部分业务运作仍可正常工作,持续小于24小时的事件。持续时间超过24小时则升级到二级事件。 四级故障事件:在服务器、存储设备、安全设备等的功能、安装或配置方面需要信息咨询或技术支持。本级故障事件对数据中心的业务运作几乎无影响,或根本没有影响,持续小于48小时的事件。持续时间超过48小时则升级到三级事件。 我们定义,四级故障事件属于日常运维服务范畴,三级故障事件仍由日常运维服务处理,但需要向应急响应服务人员告知;二级故障事件和一级故障事件属于应急服务项目,故障事件从三级升级到二级时,由运维服务人员及时通知应急响应服务人员启动应急响应服务。各级故障事件的最晚响应时间为:
|
响应时间 |
一级故障事件 |
二级故障事件 |
三级故障事件 |
四级故障事件 |
|
1小时 |
技术服务人员
技术支持专家 |
|
|
|
|
2小时 |
技术支持专家 |
技术服务人员 |
|
|
|
4小时 |
事业部总经理
分管副总经理 |
技术支持专家 |
技术服务人员 |
|
|
12小时 |
总经理 |
事业部总经理
分管副总经理 |
技术支持专家 |
技术服务人员 |