您现在的位置是:主页 > 品牌 > 腾讯 >
腾讯云发布4月8日故障报告:云API异常影响1957名用户,持续时间接近87分钟
发布时间:2024年04月14日 09:33:37 腾讯 人已围观
简介4月8日,腾讯云发生广泛服务故障,导致大量用户无法登录控制台。针对这一情况,腾讯云于近日发布了故障复盘和情况说明,经过定位发现故障原因,回应了用户关切。...
新标360快讯4月14日消息,近期有大量用户反映,腾讯云服务出现故障,无法登录腾讯云控制台等问题。
今天,腾讯云公布了对4月8日故障的复盘和情况说明。
经过故障排查后发现,客户无法登录控制台的原因是云API出现异常,这对一些依赖云API的公有云服务造成了影响。
由于云API的异常,导致了多项服务的无法使用,包括云函数、文字识别、微服务平台、音频内容安全、验证码等功能。
官方指出,此次故障持续了近87分钟,期间共接到1957个客户的报障请求。
故障的根源在于云API服务新版本的向前兼容性不佳及配置数据的灰度机制不够完善。
此次API升级期间,由于新版本的接口协议发生了变化,后台在推出新版本后无法正确处理旧版本前端发送的数据,导致生成错误的配置数据,再加上灰度机制的缺失,这些异常数据快速传播到全网,最终引起了API服务的整体异常。
腾讯云表示,在故障发生后,按照标准回滚方案同时回滚服务后台和配置数据到旧版本,并重启API后台服务,但由于承载API服务的容器平台也依赖API才能调度工作,出现了循环依赖,致使服务无法自动启动。
最终是通过运维团队的手动启动才使API服务成功重启,完成了整个故障的恢复。
问题复盘
处理过程如下:
1. 15:23,监测到故障,立即开始恢复服务并进行原因排查;
2. 15:47,发现回滚版本未能完全恢复服务,继续定位问题;
3. 15:57,确定故障原因是配置数据错误,迅速设计修复方案;
4. 16:02,对所有区域进行数据修复,API服务逐步恢复;
5. 16:05,观察到除了上海以外的区域API服务已恢复,进一步分析上海的恢复问题;
6. 16:25,发现上海的技术组件存在API循环依赖,决定将流量调度到其他地区以恢复服务;
7. 16:45,观察到上海地区恢复,此时API和依赖API的PaaS服务完全恢复,但控制台流量猛增,已按九倍容量进行扩容;
8. 16:50,请求流量逐步恢复至正常水平,业务运行稳定,控制台服务完全恢复;
9. 17:45,持续观察一小时后未发现问题,处理过程结束。
改进措施
针对此次故障的总结,最根本的问题在于版本变更过程中缺乏有效的沙箱验证和应急演练,暴露出变更管理的不足。接下来将迅速从以下几个方面进行改进和完善,以降低故障影响范围及时长。
第一,提升系统韧性
1、定期开展预定变更策略模拟演练,确保在真实故障发生时能够快速切换到恢复模式,最大化减少服务中断时间。