MySQL 百万级高并发网站实战攻略

阿酷 发布于 2012/04/07 10:53
阅读 10K+
收藏 36

在一开始接触PHP接触MYSQL的时候就听不少人说:“MySQL就跑跑一天几十万IP的小站还可以,要是几百万IP就不行了”,原话不记得了, 大体 就是这个意思。一直也没有好的机会去验证这个说法,一是从没有接手过这么大流量的网站,二是平时工作也比较忙,懒得去管这些,反正现在用不着,抱着这个想 法把这个问题一直留到了最近,才把这个问题搞明白。
就在前几天公司旗下一网站(由于这是公司的商业内容我就不说是那个网站了)以下简称A站,这A站在年后流量猛增从一天的七八十万猛跑到了好几百万的IP,一天下来接近一千万的PV让整个服务器在高压下超负荷的工作着,时不时的服务就出现宕机。

最首先反映出情况的是数据统计,一天下来一个数据也没有统计上,原来是MySQL停止工作了。

本文就围绕这个问题来讲讲我们公司几个技术人员的解决方案。

1. MySQL服务器集群

由于是小公司在资金和成本上都有所限制,而且在技术上也没有几个技术员接触过,所以这个方法自然就让大伙否决了。

这里说说我个人的理解!做集群不但添加资费的开销,而且在技术上也有很大的挑战,对于我们公司目前的情况是不大现实的。集群无非就是把一台服务器的压力转接到两台或是多台服务器上,我是这么理解的,也许我理解有误,还请大家指教。

2. 分而治之

这个方法和集群差不多,不过是把统计的代码放在不同的服务器上跑,由于公司有不少配置低的服务器跑几万到几十万IP还是没有问题的,我们可以把几百万流量分成十来个几十万的量分而统计。

优点:充分的利用了现在的资源,解决了目前的问题。

缺点:这样的方法不是长久之计,迟早还是会出问题的。而且在统计数据的时候比较麻烦。

3. 统计代码的修改

由于之前采用的是在插入数据之前加以判断,这个IP是否存在,来路等的处理,无形中增加了服务器的压力,所以大伙把统计代码改成来一个就插入数据库,不管三七二十一等以后在处理。

这个方法基本上把当天的数据保留下来了,可是在处理的时候由于数据量的庞大,来来回回还是把服务器跑死了,而且在插入的时候由于当时设计数据结构的时候留有的索引,也大大的消耗了不少的服务器资源。

那么把索引去掉到最后处理的时候又是老慢的,得不偿失。

4. 统计方式的修改

最后这一个方法,效果非常的明显。那是什么方法呢!

这里就主要介绍这个方法:

A、 保留原用的数据结构不变,并把所有的数据按一定的结构存入文件

结构:可以是xml,json,也可以是你自己想的任何有规律的数据排放。

例如:

1 221.2.70.52,httpwww.baidu.com,windowxprn

2 221.2.70.52,httpwww.baidu.com,windowxprn

写入文件fopen,fwriteno 这里介绍一个非常好用的技巧,也许大家都知道,但是像我这样的菜鸟大概都不知道,那就是用error_log,这不是写错误日志的吗对就是他,非常方便。

格式:

error_log(“内容”, 3, ”date.dat”);

这里我就不说他的具体用了,不明白的朋友可以查一下手册。

B、数据文件的命名

为什么这里要讲文件的命名呢如果就一味的把数据的写入文件不作任何的处理那么他和直接插入数据库有多大的区别呢那么我们所作的一切都是无用功了。

首先是在时间的利用上date(‘YmdH’)得到的值是如:2008121112这有什么好入,这样一来这个数据就是一个小时一个文件必免了文件过大,而且不用去判断自动生成。

IP的应用:由于在很多数据上都是一个IP操作的,所以把相同IP的数据放在一个文件里在后面的处理就非常方便处理。请看后面的介绍,这里我们取IP成三位为文件名字的一部分。

C、数据的导入处理

通过以上两位的操作当天的数据会一个不少的保留下来,接下来怎么处理其实并不是很重要了。但是这里还是讲讲我的想法。

入库前处理:

前面讲到把IP三位相同的放一个文件就是为了入库前到它们进行处理,首先可以用最笨的方法把数据拆成N个数据。在进行重复数据的删除。

如果一个IP浏览多页那么PV在这里就可以得到统计,并把访问的页面进行处理,组成新的数据。

导入方法:

这里要介绍一下数据的导入方法

$sql=”LOAD DATA INFILE ’”.$file.”‘ INTO TABLE `test` FIELDS TERMINATED BY ’,‘ LINES TERMINATED BY ’rn’(`time` , `md5`)”;

就这一个语句,在导入几十万数据的时候可以说是十分快速的,用法我这里也不过多介绍了,大家有不明白的可以查手册,所以说解决数据库的瓶颈的办法不定要加设备,也不一定要换数据库,只要换一个思路就能解决不少问题。

 

原文链接

 

 

加载中
0
大德
大德
好久前的了吧
0
__zero__
__zero__
这跟标题就不沾边,方法都不实用,不通用
cntoby
cntoby
+1
0
阿酷
阿酷

引用来自“Debi”的答案

好久前的了吧
技术分享和新闻不一样,很久以前的东西也是值得拿出来分享的啊 
0
大德
大德

引用来自“阿酷”的答案

引用来自“Debi”的答案

好久前的了吧
技术分享和新闻不一样,很久以前的东西也是值得拿出来分享的啊 
还是很感谢楼主的
0
天天天
天天天
sqlserver 2008
0
tansheng_163
tansheng_163
Mysql 做Log?? 看看Hadoop Hbase,hive把
Raynor1
Raynor1
@jerome2000 : 好吧。我错的。
j
jerome2000
@俞慧涛 : 我觉的楼主说的是不合适,提一些合适的建议也是可以的,再说了Hadoop这些东西现在还是很深奥吗,真没必要认为别人来炫耀的?确实用MySQL做log的现在不多了。特别是流量大的网站。你有什么好的想法也可以说呀。本来就是来分享的,没必要这样的。我们公司也准备用Hadoop了,Oracle的Mysql集群性能不好,费用又高。
tansheng_163
tansheng_163
@俞慧涛 据我所知这些东西都是免费的,机器配置也好多了,我们公司也是从MySQL转过去的一下省了100万
Raynor1
Raynor1
真烦。弄得来全天真就你会这几样技术一样的。和你说了要看成本。还要看他们公司成员的配置。
0
xyz555
xyz555
的确文章内容与标题不符,标题党吧。看不出楼主的措施可以对付百万高并发的。初略计算了一下,按每天100w,访问,而这100w集中在8小时内。那么,100w / (3600 × 8)大概就是每秒35个访问量而已。如果不是视频网站而是普通网站,这样的并发量现在再差的服务器也应该不成问题吧。如果有问题,那就要好好优化一下你的网站设计了。
Raynor1
Raynor1
其实他想解决的还是MYSQL大并发大容易存储的问题上。数据到了一定的数据后MYSQL插入的效率很低, 楼主的这一篇文章也有一点老了。貌似在哪里看一过。
0
紫外线
紫外线
对原作表示深深的佩服和敬仰,不是敬仰什么,是仰慕那吹的功夫
0
雷志伟
雷志伟
说实话, 感觉跟 MySQL 没有多少关系.
返回顶部
顶部