在确保数据中心更大的灵活性时,组织必须维护自己的不间断电源(UPS)以提供电源保护。其维护旨在最大限度地降低风险,并以安全有效的方式保持UPS电源运行。但是,如果执行维护的行为本身就存在风险,那么组织可以采取什么样的响应? #?由于人为错误,英国航空公司的数据中心在2017年夏天失败。人为错误是UPS维护期间出现问题的主要原因。工程师可能按错了开关或以错误的顺序执行程序。
虽然在这些情况下很容易责怪工程师疏忽,但这种错误通常是由于操作程序不规范,识别不良甚至培训措施不足造成的。通过在UPS安装开始时消除这些问题可以避免风险。
如果安装的科华UPS电源系统是由大型并联UPS和复杂开关设备组成的电源系统,则应在设计中添加互锁。这些措施鼓励用户以受控和安全的方式进行切换,但在项目开始时经常被排除在设计之外以节省成本。
全天候设备监控还提供强大的保护,应该成为组织维护系统的一部分。严格的培训也至关重要。
采取简单的措施也可以有所作为。
通过更新基本标签和实时切换图表来避免灾难。建议组织明确记录切换程序。如果现场维护非常重要,维护人员会在实施时相互提醒(两名工程师将在每次操作之前检查执行情况)以防止大多数人为错误。
使用先进技术
任何维修和保养都可能给UPS或开关设备带来风险,因此有必要减少维修次数。通过监测电气部件的热量,可以预先检测出现的大多数问题,包括电气部件的故障。
如果未紧固电气元件的连接点,它将开始升温并最终以某种方式失效。检查每个连接的最有效解决方案是热成像。热成像技术可以识别潜在的问题。
监控设备和功能
24/7设备监控还提供强大的保护功能,应该成为组织维护措施的一部分。严格的培训也是必不可少的,同时确保设备主管能胜任这项工作。
组织的维护人员不应该害怕向维护服务提供商提问。他们负责提供与组织本身及其工程师相关的合格证书,并始终需要检查现场处理。
强有力的维护措施还应确保UPS出现故障时及时有效的响应。服务级别协议必须对应用程序至关重要。如果UPS只能在正常工作时间内访问,则此类维护合同对UPS的24/7响应毫无意义。也就是说,如果数据中心全天候运行并且对业务至关重要,则需要全天候响应。
组织需要指定响应的组成,可能只是电话号码或访问该站点的工程师,需要检查工程师的资格和级别。
对组织当前UPS维护程序的审查将有助于识别并降低组织之前可能没有预料到的关键操作的风险。通过尽职调查,组织可以避免事故。