本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 品牌 > 腾讯 >

腾讯云遭索赔1100万,原因系两次操作失误!

发布时间:2018年08月07日 23:49:35 腾讯 人已围观

简介近日,腾讯云客户北京清博数控科技有限公司的“前沿数控”平台发生操作系统云盘故障,导致文件系统元数据损坏。针对这一事件,腾讯提出了总金额为136,469元的“赔偿+补偿”方案。...

近日,北京清博数控科技有限公司旗下的“前沿数控”平台在使用腾讯云时,其操作系统云盘发生了故障,致使文件系统元数据出现损坏。

腾讯方面提出了136,469元的“赔偿+补偿”方案,然而前沿数控则要求索赔高达11,016,000元,腾讯认为这个金额过于高昂,因此两者未能达成一致。

目前,腾讯云发布了一份技术分析报告,针对客户“前沿数控”数据完整性受损事件表示诚挚的歉意,同时详细说明了故障的成因和未来的应对措施。

经过复盘,腾讯云发现此次故障源于磁盘静默错误引起的单副本数据问题,以及数据迁移过程中发生的两次不规范操作,这最终导致了云盘的三副本安全机制失效,客户的数据完整性受到损害。

当日上午11:57,腾讯云的运维团队接到仓库I使用率过高的警报,并着手准备进行扩容和搬迁。

在14:05,运维人员决定从仓库I挑选云盘搬迁至新仓库II,为了加快这一过程,他们手动禁用了数据校验。

在20:27,搬迁完成后,运维团队将客户云盘的访问切换至仓库II,同时为释放仓库I的空间,发起了数据回收操作。

20:30时,监测系统发现仓库II中的部分云盘发生了IO异常。

腾讯解释,数据迁移过程中包含的违规操作主要有以下两点:

第一,在正常情况下,数据迁移流程会默认开启数据校验,这一措施可以有效识别和规避源端数据异常,确保迁移数据的正确性,而运维人员为了加速迁移,违规关闭了这一校验;

第二,在数据迁移完成后,源仓库数据应至少保留24小时,以便于在迁移过程中出现异常时进行数据恢复,而运维人员为了尽快降低仓库的使用率,违反规定对源仓库进行数据回收。

由于以上错误操作的连锁反应,导致客户的数据完整性受损,并对其正常业务造成了影响,腾讯云对此表示最诚恳的歉意。
 
在改进措施上,腾讯云提出了两项建议:

首先,腾讯云将对所有数据流程进行全面审视,确保涉及数据安全的流程实现自动化闭环,进一步提高常规运维的自动化和流程化,以降低人为干预,同时将全流程的数据安全校验纳入系统开关功能,不允许关闭。

其次,针对物理硬盘的静默数据错误,腾讯云将在当前用户访问路径上增强数据校验的自愈能力,同时优化现有的巡检机制,通过优先巡检主副本数据块,并跳过近期访问过的正确数据块等方式,加快错误发现与数据修复。

此外,腾讯云建议用户启用免费的快照功能,以便定期备份重要数据。

关于索赔和赔偿的问题,腾讯云目前尚未披露进一步进展。

Tags: 腾讯云  腾讯