随着互联网的繁荣,全球范围内各行业服务均开始转向线上。一些关键行业的线上服务深刻影响着各国人民日常生活的正常进行。提供关键服务的信息系统一旦出现宕机,将给社会造成巨大影响。但由于用户基数不断增大、功能需求逐渐多元化,导致各类信息系统功能范围不断扩大,系统架构逐渐复杂,存在大量潜在风险,导致事故频发。2021年,全球发生多起重大宕机事件,涉及全球范围内多个国家的电商、交通、社交媒体、金融等多个领域。我们在此进行了梳理和总结。
2021年2月24日,由于操作失误,美联储运营的数个关键支付系统出现服务中断,持续约4个小时,支撑数百万笔金融交易的美联储系统,包括工资单、退税到银行间转账在内的所有业务都被内部故障所干扰。
2021年2月25日,滴滴出行App出现系统性问题,持续1个小时以上,用户无法使用滴滴出行App进行正常打车、发布行程,司机接到乘客后也无法正常开启订单、结束行程,部分用户乘车价格异常上调。
2021年3月30日,社交媒体平台推特出现系统内部故障,导致用户无法登录访问,持续约2小时。根据宕机监控网站数据,多达1.8万用户报告在访问推特时遇到问题。
2021年5月22至26日,IBM Cloud在短短5天内发生两次严重中断事件,华盛顿特区、大阪、伦敦、达拉斯、悉尼、东京和法兰克福等地云服务均受到影响。其中25日的中断为一级严重问题(Severity One),故障发生5小时后各项服务陆续恢复。
2021年6月8日,内容分发网络(CDN)服务商Fastly因一项“服务配置”的修改触发系统漏洞,最终导致包括Reddit、Amazon、CNN、PayPal、Spotify等在内的大量常用网站在近1小时的时间内无法访问。
2021年7月13日,视频网站哔哩哔哩因部分服务器机房发生故障导致无法访问,期间网页端及服务端均出现无法使用与连接的情况,视频播放、直播等多项业务受到持续超过1个小时的影响。
2021年10月4日,社交网络Facebook及其旗下Messenger、Instagram、WhatsApp等软件出现大规模宕机,全球无法使用超过6个小时,影响约8000万用户。宕机主要原因为DNS服务故障导致用户无法解析Facebook和相关域名并访问服务。
2021年10月13日,微软Azure虚拟机服务发生长达6小时的中断。因服务管理操作期间的调用故障,导致全球范围内的Azure用户对于Windows虚拟机的启动、创建、更新、删除均无法完成。
2021年11月19日,特斯拉App发生全球规模中断,故障原因为配置错误导致网络流量过载最终造成App控制功能失效,用户无法打开车门或启动汽车,整个故障时间长达5小时。
2021年12月,亚马逊云计算服务于当月7日、15日、22日分别发生了三次服务中断,不同程度的影响到了大量依托于亚马逊云计算服务的网站或应用服务。故障原因多数由数据中心及网络连接等相关问题引起,平均经过2~3小时左右恢复。
分布式、微服务架构的普及使得系统更为复杂,这将加大故障引入的概率,并使得系统中潜在的缺陷更难被发现。
系统的规模更为庞大,致使系统宕机所影响的用户数量更多,造成的损失更显著。
近十余年来大数据、云计算、人工智能、元宇宙领域新兴技术迅速发展。各行业的IT系统迭代迅速,以更快地吸纳这些新兴技术,率先占领市场。系统长期运行的稳定性往往会被忽视,欠下技术债。
国际上疫情的持续蔓延使大量的业务转为线上,各线上系统的日活用户都有显著的增长。而传统行业不一定具备足够的技术实力保障线上系统的稳定性。
由于软件系统在本质上来说具备复杂性,其中任何一个环节出现问题都可能造成系统缺陷的引入,稳定性保障工作也必然需要覆盖整个软件生命周期。中国信息通信研究院在2022年1月正式成立分布式系统稳定性实验室,梳理相关方法论,目前已经完成《分布式数据产品稳定性测试方法》,《分布式系统稳定性保障能力分级要求》等技术标准,完成《混沌工程实践指南》等研究报告,建立了业界首个稳定性评测体系。未来仍会依托分布式系统稳定性实验室开展稳定性相关标准制定和评测工作,举办相关领域的会议和技术沙龙,协同成员单位一起推动IT产业平稳健康地发展。欢迎广大业内同仁交流讨论。
来源丨公众号:分布式系统稳定性实验室(ID:gh_51fc84f80c21)