支付宝经历备灾系统大考验
日期:2023-12-17 02:21:38   来源:云开平台/集团新闻

  “备份越分布式、越充分、越实时则容灾能力越强,但其采购及运营管理成本也是以数量级上升的。不容易,同业估计都真心不会看笑话、说风凉话。”国际支付机构人士表示。

  “多运营商网络通道”是指通过多家运营商数据网络连接。某大行电子银行部人士对财新记者表示,数据传输通常分为两块,一块是机房连接到公用网络再连接到客户的,一块是内部通讯的。目前外界无法判断支付宝的电缆断掉是哪一段。通常而言,这两种数据传输都有线路备份,即通过多家数据运营商连接,无论其中一段中断,可以立刻切换到其他运营商的线路上,所以通常不会因为一条线路断掉而影响对外服务。

  除此以外,银行为防止系统瘫痪,还会采取“多数据中心”的备灾模式。以工行为例,工行有两处数据中心,上海是主中心,北京是备份中心,一两分钟就可以从上海切换到北京,所以不会长时间对外暂停服务;中国银联在京沪两地有三个数据中心,随时自动切换。银联对切换速度要求是2分钟;国际卡组织Visa在全球有四个数据中心,切换速度能快达零秒。

  尽管对系统故障表示理解,但业内人士一致认为2.5小时的故障“不应该这么久”。

  按照支付宝5月27日傍晚发布的解释,5月27日傍晚因市政施工导致杭州市某地光缆被挖断,导致了支付宝一个主要机房被影响,随后全国部分用户没办法使用支付宝。事情发生后第一时间,支付宝工程师紧急将用户请求切换至国内其他机房。但按照常理,一个机房故障,应当立即切到其他机房。原本应当是瞬间完成的工作,却花费2.5小时,这让业内纷纷揣测:支付宝究竟有没有多机房备份?如果有,为什么切换花费这么久?支付宝此次故障是否另有原因?

  在此之前,支付宝一直得益于自己的“异地多活”系统。所谓“异地多活”,是指在不同的地方设置多个数据中心,活备份数据。“异地多活,实际可行性没那么强。涉及到数据存储,基本上出了这种事情没人敢切到异地,因为担心异地数据不一致,只有等网络恢复。”业内人士分析道。

  “以支付宝的能力,不应该线路中断影响这么久。从目前了解到的信息猜测,支付宝容灾备份方案肯定未做到最充分,但网络通信侧运营商肯定也难辞其咎。经此一役,估计支付宝会促进加强异地容灾及多运营商网络通道备份。”另一位业内人士表示。

  关于这次事故的原因,有商业银行专业技术人员认为电缆挖断是假,机房故障是线年前,支付宝就实现了同城但机房故障不影响业务,所以这次光纤故障可能只是借口,运营网络背了黑锅。”也有业内的人表示,因为支付宝会有不同运营商随时切换,不可能挖断一条电缆就系统瘫痪。有很大的可能性是因为系统被攻击或宕机。“归根结底是支付宝过于自信,没有建立迅速恢复的应急处置机制,应该采取技术人员现场排查、现场研究、现场决策的方式。”

  5月27日晚23点,支付宝对切换速度缓慢给出了官方解释。支付宝表示,“我们作为一个金融系统,对切换中数据与资金安全性的要求极高,因此切换速度上没做到更快。后面我们会不断的提高切换速度。但是,这并不意味着我们对这次恢复时间是满意的。”展望未来,支付宝表示,光缆被挖断可能并不能完全杜绝,但对于支付宝而言,会继续推进技术的升级改造,继续完善异地多活的系统架构。“未来,即使又出现光缆被挖断等意外情况,咱们进行异地切换时,也尽量做到让用户最小感知甚至无感知。”支付宝表示。(财新网 记者 李小晓 张宇哲)财新记者屈运栩对此文亦有贡献