携程解释瘫痪原因:员工错误操作 删除执行代码

oschina
 oschina
发布于 2015年05月29日
收藏 27

编者:从上午11点到夜间11点完全恢复,整个故障时间持续整整12个小时,运维的反思、互联网的反思!

昨日上午11:09,携程官方网站及APP大面积瘫痪,无法正常使用。直到昨日晚间23:29,携程官方网站及APP恢复正常。对此,携程向凤凰科技发来声明,称经技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。

携程在声明中说,携程后台是一个由SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统以及上千个Web Service组成,而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子 系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。因此才花费了十二个多小时才恢复正常。

携程称,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损。

对于该员工后续如何处理,携程方面暂未表态。

以下为携程的简要原因说明:

1、事件发生原因

经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。

2、为什么恢复时间那么长

一 般来说,类似携程这样的大型网站承载着繁多业务,其后台是一个由SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统 以及上千个Web Service组成,而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。

发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。

这种验证性的操作需要携程的工程师及运维人员通力合作,尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与Web Service功能的正常运行。

携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及App。

3、如何杜绝此类事件的再次发生?

携程在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。

稿源:凤凰网科技

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:携程解释瘫痪原因:员工错误操作 删除执行代码
加载中

最新评论(135

雁南飞丶
雁南飞丶
误删代码那个哥,你还好吗?
若水191
若水191
服务器都上千,子服务也能上千,敢不敢编的再大一点,
JacarriChan
JacarriChan

引用来自“JacarriChan”的评论

肯定执行了rm -rf / ~/

引用来自“妈她亲我”的评论

敢不敢有点文化?携程特么用的是windows服务器

引用来自“JacarriChan”的评论

通过下面这个地址中可以看到携程的server不限于Windows:携程旅行网在SOA架构方面的探索
http://www.infoq.com/cn/presentations/ly-ctrip-on-soa

引用来自“夏夜微凉”的评论

辣么多服务节点,同时执行同一个命令?也不隔离几台做个预演?
估计做同步了:在分发服务器上执行,然后同步到了别的机器。。比如rsync
豆浆王子
豆浆王子
技术人员误删除。这理由太牵强了吧,这程序员不可能弱智到要删除公司代码吧。不管你们信不信反正我不信。。。
打怪兽的汪
打怪兽的汪

引用来自“JacarriChan”的评论

肯定执行了rm -rf / ~/

引用来自“妈她亲我”的评论

敢不敢有点文化?携程特么用的是windows服务器

引用来自“JacarriChan”的评论

通过下面这个地址中可以看到携程的server不限于Windows:携程旅行网在SOA架构方面的探索
http://www.infoq.com/cn/presentations/ly-ctrip-on-soa
辣么多服务节点,同时执行同一个命令?也不隔离几台做个预演?
黄亿华
黄亿华

引用来自“黄亿华”的评论

上千台服务器的代码,几百G肯定是有的,还要包括编译、打包时间等等…SOA也不是什么都好…

引用来自“美丽不打折”的评论

你开玩笑吗?几百G的代码?你确定是代码?几百G的概念是什么概念?整个金盾工程+蓝盾工程所有的代码+脚本+存储过程,算下来也不会超过10G,我不相信携程网比上面两个工程还要大
是代码,不过我说的是打包好的代码。Java的开源项目你知道的,随便一个都是几十万行代码,引多了自然很大了。
jim19770812
jim19770812

引用来自“Dingoog”的评论

难道把携程所有服务器的代码都删除了?一台服务器的话也不会那么久啊
可能有自动同步机制,主服务器文件删掉了,若干的从服务器执行同步就挂掉了
恍恍惚惚
恍恍惚惚

引用来自“懒懒想睡觉”的评论

携程是asp.net。
net肯定是前端,后台肯定是c C++写的。
美丽不打折
美丽不打折

引用来自“黄亿华”的评论

上千台服务器的代码,几百G肯定是有的,还要包括编译、打包时间等等…SOA也不是什么都好…
你开玩笑吗?几百G的代码?你确定是代码?几百G的概念是什么概念?整个金盾工程+蓝盾工程所有的代码+脚本+存储过程,算下来也不会超过10G,我不相信携程网比上面两个工程还要大
小k宝贝
小k宝贝
肯定用的java,程序编译特别费时啊
返回顶部
顶部