硬盘出故障、机房被雷劈,企业如何避免云服务故障给自身业务带来损失

2018-08-09 10:48

这个夏天,云服务日子都不太好过!继上次阿里云服务出现技术故障后,腾讯云服务又出了大岔子。7 月 20 日,腾讯云北京三区部分云硬盘 IO 异常。类似的故障在各大云厂商提供的云服务里,可谓是司空见怪,但这次因为一家名叫“前沿数控”的创业公司,这个事件重新发酵,引起了热议。

 

云厂商故障宕机这些年来一直不是什么新闻:

2018 年 6 月 27 日,阿里云故障,起因:运维操作失误触发未知 bug;

2017 年 2 月 28 日,云计算巨头 AWS S3 故障,起因:调试时输入错误指令,意外移除大量服务器导致 S3 不能正常工作;

2017 年 3 月 22 日,微软云服务一个月内出现又一次宕机(上一次是 3 月 7 日);

2015 年 6 月 6 日,QingCloud 广东 1 区全部硬件设备因遭遇雷暴天气引发电力故障,造成 QingCloud 官网及控制台短时无法访问、部署于 GD1 的用户业务暂时不可用。

 

运维失误、硬盘出故障、机房被雷劈、调试输入错误指令,不同的失误会引起不同的 bug,最后同样导致云服务故障,造成大额损失。AWS 的费良宏老师回顾云计算的发展时曾说:“我眼里的云计算,就是十年生聚,十年教训”。

 

故障,一直是云服务命运的双生子,每一次故障的阵痛,都是在倒逼云服务厂商和用户加速成长,只是这一次对于“前沿数控”这家创业公司而言过于疼痛了。

 

头部的云服务“网红”产品,都不能保证百分百好用,以至于用户都在想,是不是仅仅购买一家云服务厂商的服务,都没法保证业务稳定的需求了?

 

甚至有公司,因此想自建机房,但是这样会带来巨大的后期运维成本,大企业还好,对于中小企业尤其是初创企业,更是徒增负担。而且云计算和自建机房相比,很明显云计算更安全,水平也更高。对于很多中小企业,公有云无疑是最好的选择。

但任何公有云都有可能发生宕机或数据丢失的风险,所以一套完整的运维服务计划就显得尤为重要。

 

神州光大的服务即可以助力企业上云,又可以提供安全可靠的本地备份及按需使用的工程师资源,让企业享受上云的便利和低成本的运维服务,防止自身经验不足带来的风险。

 

对于企业而言,IT运维的专业化分工本质上是对IT运维人力资源配置的优化。例如,明确运维事件分级处理流程,明确运维人员的职责、权限、义务和绩效考核标准。事实上许多实践也证明,明确每种运维事件的专业化分工处理流程,可以大大减少IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。

 


服务架构

 

 

神州光大IT运维管理服务实施模型

 

 

集中监控平台

 

基本排障流程

 

 

神州光大致力于帮助企业解决上云难题,提供可靠的灾备方案实施,为客户带来长期的运维价值,为保障数据安全贡献力量。