蚂蚁集团回应旗下语雀崩了:运维升级Bug导致

0 月 25 日消息,语雀蚂蚁集团旗下的在线文档编辑与协同工具,使用了“结构化知识库管理”,形式上类似书籍的目录,该软件于 2022 年 2 月 22 日正式推出 iOS 及 Android 版本。

据多位网友反馈,这款工具在 14:00~15:00 之间出现大规模服务器故障,在线文档和官网目前均无法打开。

在经历了近 10 小时的故障之后,语雀服务现已全部恢复正常,各端语雀都可以正常访问,功能也恢复,目前官方发布了故障完整报告内容,并宣布将向所有用户赠送 6 个月语雀会员。

蚂蚁集团回应旗下语雀崩了:运维升级Bug导致

故障原因及处理过程

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。

为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。

具体过程如下:

14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;

14:15 联系硬件团队尝试将下线机器重新上线;

15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。

15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长

19:00 完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;

21:00 存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

语雀团队声称,“通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的‘可监控,可灰度,可回滚’的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。”

为此,语雀团队制定了如下改进措施:

1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;

2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;

3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug;

4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

语雀团队表示,为了表达歉意,团队将向所有受到故障影响的用户提供如下赔偿方案:

针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。

针对语雀空间用户,由于情况比较复杂,我们会单独制定赔偿方案。请空间管理员留意语雀站内信。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享