2015年5月28日上午11点开始,携程旅行网官方网站突然显示404错误页,App也无法使用,业务彻底中断。
据称是因为乌云网公布了携程的一个漏洞“携程旅游网服务器配置不当可导致官方邮件劫持”,携程修复后当天准备上线发布,但运维自动化系统有问题或者运维操作有问题,导致“发布不上去了,刚发就(根目录包括代码)被(物理)删”,虽然数据库还在,但应用都被删了,业务迟迟无法恢复。
当日下午,携程一度将流量切给了艺龙,但艺龙承受不了而雪崩宕机。
当晚19时许,离宕机过去8个小时后,携程旅行网手机APP首先恢复,但是提交订单仍然不稳定。
当晚22:45,携程服务全面恢复,至此,停服整整12个小时。
当时我提出在Business Continuity Plan(BCP,业务持续计划)之外尽快落实Disaster Recovery Plan(DRP,灾难恢复计划)。
DCP的目标是:
当IDC机房物理无法连接时,可快速异地重建生产系统。
它分为两个层级:
代码和配置的灾难可恢复性;
数据的灾难可恢复性。
时至今日其实通过以下做法间接达到了DCP的目标:
代码和配置的灾难可恢复性:
Docker镜像:Web容器的配置都在Docker容器镜像里;
私有分布式镜像仓库,能够做到在混合云多机房各处都有自动同步的镜像库;
异地双活机制等于说异地备份了Nginx/DNS等服务配置信息;
CloudEngine(我们的研发协作平台)里保存了各种工程在不同环境里的应用属性(也是配置信息);
数据的灾难可恢复性:
异地备份:在iDB(我们的数据库自动化运维平台)的帮助下有数据库自动备份以及备份的可恢复性自动检查,并且做了异地备份;
异地双活机制等于说异地同步了全量数据库。
2019年1月20日凌晨1点到10点,整整9个小时,羊毛党徒们狂欢,从拼多多领取(而不是抢购)100元无门槛优惠券,据信拼多多损失高达数千万元。
据传,这个无门槛优惠券实际上对应于已过期的运营活动,但由于操作失误,导致凌晨又重新上线。
p.s.:
劵的来历:〃在拼多多官方的公告中指出此券为拼多多此前与江苏卫视《非诚勿扰》开展合作时,因节目录制需要特殊生成的优惠券类型,仅供现场嘉宾使用。除此之外,此种类型优惠券,从未在任何时候、以任何方式出现在平台正常的线上促销活动当中,甚至从未有任何线上入口。〃