编者:从上午11点到夜间11点完全恢复,整个故障时间持续整整12个小时,运维的反思、互联网的反思!
昨日上午11:09,携程官方网站及APP大面积瘫痪,无法正常使用。直到昨日晚间23:29,携程官方网站及APP恢复正常。对此,携程向凤凰科技发来声明,称经技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。

携程在声明中说,携程后台是一个由SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统以及上千个Web Service组成,而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子 系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。因此才花费了十二个多小时才恢复正常。
携程称,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损。
对于该员工后续如何处理,携程方面暂未表态。
以下为携程的简要原因说明:
1、事件发生原因
经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。
2、为什么恢复时间那么长
一 般来说,类似携程这样的大型网站承载着繁多业务,其后台是一个由SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统 以及上千个Web Service组成,而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。
发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。
这种验证性的操作需要携程的工程师及运维人员通力合作,尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与Web Service功能的正常运行。
携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及App。
3、如何杜绝此类事件的再次发生?
携程在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。
稿源:凤凰网科技
引用来自“黄亿华”的评论
上千台服务器的代码,几百G肯定是有的,还要包括编译、打包时间等等…SOA也不是什么都好…引用来自“美丽不打折”的评论
你开玩笑吗?几百G的代码?你确定是代码?几百G的概念是什么概念?整个金盾工程+蓝盾工程所有的代码+脚本+存储过程,算下来也不会超过10G,我不相信携程网比上面两个工程还要大引用来自“Dingoog”的评论
难道把携程所有服务器的代码都删除了?一台服务器的话也不会那么久啊引用来自“懒懒想睡觉”的评论
携程是asp.net。引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“Modelica云”的评论
赞你。成功的网站,运维要占40%的功劳。引用来自“梁金堂”的评论
感觉真的是某些代码被删了,昨晚恢复访问的时候,很不稳定!也不像从备份恢复的,很像临时码上去的!引用来自“聽雨人”的评论
拿版本库的代码出来根本不需要码代码…也不需要12个小时引用来自“苍松”的评论
对外公布的理由都是编的引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“Modelica云”的评论
赞你。成功的网站,运维要占40%的功劳。引用来自“梁金堂”的评论
感觉真的是某些代码被删了,昨晚恢复访问的时候,很不稳定!也不像从备份恢复的,很像临时码上去的!引用来自“聽雨人”的评论
拿版本库的代码出来根本不需要码代码…也不需要12个小时引用来自“JacarriChan”的评论
肯定执行了rm -rf / ~/引用来自“兔小懒”的评论
windows 能这样?引用来自“BJming”的评论
个人看法,只能说大牛开发的程序往往被猪头运维着,猪头维着维着就出事故了,然后应为是猪头,所以没办法在第一时间修好,老板怒了,临时雇了一大批大牛,总算请到了可以解决问题的大牛,所以就出现了12小时后修好,不然修三天三夜还修不好呢引用来自“化境”的评论
其实不然,逻辑一开始就错了;理由是大牛不可能让他架构的牛逼程序让windows系统来承载,因原很简单嘛!因为做这样的系统使用windows 和牛逼到没人爱的.net就好比用捆仙索把自己的双脚捆住。引用来自“BJming”的评论
好像你反驳的地方有不对,客户决定了需求,打个比方,量你JSP编程天下有敌没几个,可客户的原始系统是用ASP,而后又衍生了一大批基于那套ASP的相关业务应用,给你单子,你会用JSP做吗,兄弟呀,因为是大牛,不畏惧这种要求,所以客户要ASP版的也能给弄好。。。引用来自“牵黄”的评论
背黑锅我来,送死你去!!引用来自“Xtay”的评论
孟获,哈哈引用来自“BJming”的评论
个人看法,只能说大牛开发的程序往往被猪头运维着,猪头维着维着就出事故了,然后应为是猪头,所以没办法在第一时间修好,老板怒了,临时雇了一大批大牛,总算请到了可以解决问题的大牛,所以就出现了12小时后修好,不然修三天三夜还修不好呢引用来自“化境”的评论
其实不然,逻辑一开始就错了;理由是大牛不可能让他架构的牛逼程序让windows系统来承载,因原很简单嘛!因为做这样的系统使用windows 和牛逼到没人爱的.net就好比用捆仙索把自己的双脚捆住。引用来自“BJming”的评论
个人看法,只能说大牛开发的程序往往被猪头运维着,猪头维着维着就出事故了,然后应为是猪头,所以没办法在第一时间修好,老板怒了,临时雇了一大批大牛,总算请到了可以解决问题的大牛,所以就出现了12小时后修好,不然修三天三夜还修不好呢引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“_higkoo_”的评论
说得太对了引用来自“坏孩子”的评论
这样就更加感受不到运维的存在了引用来自“牵黄”的评论
背黑锅我来,送死你去!!引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“jay_”的评论
支付宝(感觉不像公布的那样是被挖掘机搞的)、携程 貌似昨天还有知乎,最近互联网界不太平啊引用来自“惺惺惜惺惺”的评论
知乎用的是阿里云,所以支付宝访问不了,知乎也就挂了- - 我们公司的后台也是阿里云- - 所以一下子就知道问题了引用来自“JacarriChan”的评论
肯定执行了rm -rf / ~/引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“JacarriChan”的评论
肯定执行了rm -rf / ~/看来携程的开发是直接在生产服务器上调试,所以全删除了没有最新的
程序员又接触不到生产机器,只要保证交付的代码没问题就可以了。
线上服务器挂掉,那是运维的事。
引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。即便有这样一个机器,应该每个应用的权限在不同人手里,误操作应该也只能删一个系统的集群下的文件。其它系统怎么也被删了?
难道携程里边有某个人有整个公司所有系统服务器的权限?然后这个人还偏偏就全部都误操作了?
引用来自“Dingoog”的评论
难道把携程所有服务器的代码都删除了?一台服务器的话也不会那么久啊引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“JacarriChan”的评论
肯定执行了rm -rf / ~/引用来自“jay_”的评论
支付宝(感觉不像公布的那样是被挖掘机搞的)、携程 貌似昨天还有知乎,最近互联网界不太平啊引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。引用来自“_higkoo_”的评论
说得太对了引用来自“运维技术”的评论
从事了3年多运维,从初级到高级运维,谈谈我的一些运维感受,在平时根本很难有人会关注到运维,就算你平时做得再好,你也只能默默的蛰伏,在别人眼里也许运维就是一管理服务器的网工,怎么样把运维的价值体现出来,就是平时这些关键的事情,自动化部署,安全,运维规范等等很多方面可以着手。运维需要一种自我肯定的价值去推动自己的成长。屌丝的逆袭就是寂寞的孤芳自赏。