一台tomcat服务器,应对峰值200人的压力,为何会卡。

XhuiFly 发布于 2017/03/14 18:19
阅读 1K+
收藏 1

 

公司有多台服务器,为ERP服务的有一台数据库服务器,一台应用服务器。

这台应用服务器是IBM的,具体型号忘了,性能还不错

CPU:Intel Xeon E5-4603 v2*2

内存:64G

操作系统:CENTOS 6.5

应用服务器是2014年年底另一个同事部署的,只有一个tomcat,在公司内外不到200人的访问下,居然频繁挂掉,使用TOP命令看,java CPU占用率经常卡在99.9%。kill掉重新启动tomcat就好了,但是每隔半个月甚至几天就得重启一次。
我复制一个tomcat出来,在这台服务器上运行两个tomcat,除了端口号一模一样,区分不同的部门使用,发现其中一个tomcat工作时间很长(TIME+的值较高),这次运行了一个月多一点,又开始出现卡顿。
我觉得应该从应用下手,tomcat是ERP厂家提供的,他们其他的客户没有爆出这样的问题,远程沟通效果不佳,我是负责实施的,没有这方面的技术,经过几次沟通他们建议采用搭建负载均衡服务器来解决,也提供了一个之前搭建负载均衡的文档过来。但是我觉得应用的问题不解决,即使搭建再多的服务器也没用。
问问大家,这样配置的服务器,承载不了200人的压力么?还是因为长时间有些资源没有释放导致的(刚重启的前几天速度很快),如果我要研究一下应该从哪个方向入手呢?
谢谢。

加载中
4
eechen
eechen

Java开发者的安全性有待提高呀,居然用root超级用户跑Tomcat服务进程.可以用start-stop-daemon指定用户运行守护进程.

话说Java服务器都这么吃内存的么?居然占用了18个GB.

还有,我查了,E5-4603 v2是一个4核心的CPU,你的服务器有2个CPU,那总的核心数就是8个.这时,top命令在Tasks进程模式下(你的截图就是这个模式),一个任务(进程)利用全部CPU资源时,%CPU应该显示为800%.很多人用惯了Windows,想当然的认为任务的CPU使用率最大值是100%.在Linux上,一个包含多线程的任务进程,CPU使用率超过100%就表示使用超过1个核心,比如我在Ubuntu桌面上使用的Firefox浏览器,其就是一个典型的多线程应用.

我的笔记本处理器是双核4线程的i5-3230M,CPU满载时最大显示400%.

如果你把top命令从Tasks任务进程模式切换到Threads线程模式,则任一线程的%CPU都不能超过100%,比如:
top -H -p `pidof firefox` (参数-H表示使用Threads线程模式观测) 可见:


所以你可以在这个Threads线程模式下看看到底是那个Java线程占用了1个CPU核心,对于C程序(如Nginx/PHP-FPM)一般都是用sudo strace -p PID来跟踪系统调用来发掘问题,对Java程序,也可以用strace看看,不过Java不是还有像jstat这种专门的东西么?

eechen
eechen
还有top里的TIME+列也很有意义,表示该任务(进程或线程)启动后使用的总的 CPU 时间.比如1:23.45代表1分钟23.45秒.
金玉良妍
金玉良妍
你这是地图炮了
eechen
eechen
我的截图里,top里面还有一个P列,这个可以在top里按f进去设置把它调出来,表示的是程序最后使用的CPU核心编号(Last Used Cpu),我的处理器核心只有4个,所以P的取值只能是:0, 1, 2, 3
0
李庆忠

找个晚上,自己压压看~~可以用 JMeter gattling,慢慢增加人数,同时观察 CPU

李庆忠
回复 @XhuiFly : 你是说 JS 卡吗? 那你都知道原因了,直接 review JS 代码啊
skatkd
skatkd
回复 @XhuiFly : 外包的业务每人关心性能的,之前遇到过,主要是调数据库的问题
XhuiFly
XhuiFly
登录的人再多的不会卡,就是部分操作比如选择商品后有大量的js代码做检验,这个工具能跟踪出来么?
0
浪子_仗剑走天涯
浪子_仗剑走天涯

查一下应用代码吧

0
kakai
kakai

外包都是草草了事,负责的外包企业少之又少

0
大賢者
大賢者

呵呵了,死循环可以99%  空跑看看

XhuiFly
XhuiFly
应该不是死循环,同样的操作重启后就没问题。
0
0
Hylun
Hylun

如果不想花太多时间查问题,在不影响使用的前提下,跑一个crontab定时任务,每天晚上自动重启一次吧。

XhuiFly
XhuiFly
我倒是做了一个重启的脚本,就是怕这玩意哪天突然启不了怎么办…担心稳定性
0
mauersu
mauersu

hashmap死循环?

0
雨翔河
雨翔河

你看下数据库那台机器怎么样,如果数据库那台机器正常的话,那就是你的应用代码写的有问题,看下是不是什么线程在搞事情,jstack pid号。

0
f
freezingsky

这种现象,问题基本都是在应用层代码上。

返回顶部
顶部