mysql上亿数据,多个结构相同的表如何做快速查询并对指定字段去重后统计总数

Kwin 发布于 2014/04/17 22:36
阅读 2K+
收藏 1

mysql中有三张相同结构的表,每张表数据在5千万以上,需要做两个工作:
1将三张表中字段term按照";"拆分成多行;
2,统计三张表中不同term出现的次数;
第一个操作不知道怎么处理,第二个操作不知道怎么快速处理,各位大侠们,求救啊·························
加载中
0
Brin想写程序
Brin想写程序

引用来自“huaye2007”的评论


为什么一看到记忆条数据就要用hadhoop。都是神马想法。

精良减少表链接。能在单个表内先出里掉的就先处理掉


因为他的表设计,连第一范式都不符合(如果一个关系模式R的所有属性都是不可分的基本数据项,则R∈1NF。第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值)。 你看的那term一列啥情况。。


所以都不是关系数据库。。拿不是关系数据的数据在关系数据库处理,还不如放在hadoop里面呢。
0
jxpxwh
jxpxwh

你这种情况。先导出来。交给hadoop-hive处理最好了。自动化处理掉。

K
Kwin
........没有弄过hadoop,这两天也没法学啊····就没有其他方法了么
0
红星xx
红星xx

你这是 什么工具看的。

0
wharf_zhang
wharf_zhang
导出后用sed处理?
0
朱宏青
朱宏青

第一个反应就是用hadoop做这种大数据量的统计 简直是hadoop第一泛式

直接啃的话估计就只能边查边统计了 估计会很慢...千万记得崩溃的时候把记录的行数跟统计的信息写到文件里 下次继续..

0
江安河的鱼
江安河的鱼
用slor或者elasticsearch对term建索引、分词。然后就能对每个分号分词后的词进行统计了。
0
星爷
星爷

为什么一看到记忆条数据就要用hadhoop。都是神马想法。

精良减少表链接。能在单个表内先出里掉的就先处理掉

0
喜欢自在
喜欢自在

你这个表设计有问题

返回顶部
顶部