疫情之下,万物皆可“云”。上班族“云办公”,学生党“云上课”。自全国大中小学校陆续在网上开课,上千万家企业迎来新一波“复工潮”以来,各线上平台跻身“顶流”。但突如其来的流量暴增让各大线上平台上演“连环崩”,系统接连崩溃,加载错误等情况时有发生。
云服务宕机“无一幸免”
2019年,全球有影响力的云服务提供商均发生了“宕机事件”:
谷歌云、aws、微软azure、阿里云、腾讯云等,几乎无一幸免。事实上,近年来云服务宕机事件早已屡见不鲜:
2018年1月8日,谷歌云的自动重启机制失灵,导致网络宕机93分钟;2018年6月27日,阿里云服务出现故障情况,阿里云官网控制台和部分产品功能出现问题;2018年8月5日,前沿数控技术新媒体在使用腾讯云8个月后,公司存储在腾讯云上的数据无可挽回地全部丢失;2018年9月4日,微软云azure数据中心遭雷劈宕机,宕机时间超过24小时;2020年2月25日,微盟腾讯云上服务出现故障问题,主要是由于一位程序员的恶意破坏,导致这家上市公司微盟全部核心数据丢失,业务中断,持续时间达到36小时。
此外著名的宕机事件还有:
2019年芝商所globex平台出现宕机,导致无法正常交易;facebook及旗下多项服务出现技术故障,广告业务直接受到影响;2018年日本软银故障造成约3000万软银用户无法正常通信;腾讯云因硬盘故障导致一家初创公司数据丢失。
这样的事例不胜枚举。
云服务瘫痪的根源
外行看热闹,内行看门道,我们来看看华为云为什么崩了。以华为云来说,随着全国企业的复工复产响,很多经济活动得到了复苏,在各家企业的极高的访问量下,服务器、带宽都拥挤严重,于是就出现了“崩溃”的情况。
另一方面,很多中心化网络为了防止峰值时出现拥挤的问题,不得提供服务器和带宽承载上限,而在闲时是用不到的,这也就一定程度上造成了资源的浪费。
而从行业现状来看,继续提高中心化存储的可靠性已经非常难了,成本将急剧上升,比如用于灾备的“两地三中心”,成本动辄上千万。中心化存储的可靠性已经发展到了天花板阶段,如果需要进一步提高其可靠性,就需要进行去中心化改造。