【面试题】大数据如何全局排序

西夏一品堂 发布于 2015/05/24 21:42
阅读 1K+
收藏 2
文件f.txt中包含有20万行信息,每一行都有一个由8位数字组成的唯一ID,现在要求将这些信息按照ID从大到小排序后

,在存回f.txt,请用代码实现整个过程

要求,不要用其他的框架,纯用代码。请问,如何实现


求思路

加载中
0
Feng_Yu
Feng_Yu
sort一句话搞定
0
修改登录密码
修改登录密码
哦  原来这就是大数据
0
Altman
Altman
shell可以么。。。。
0
紫川录
紫川录
1*******
3*******
4*******
1*******
5*******

4******

大数据 只是将一份大的数据分开来处理,相同的 key 排列到一起

第一位 1 到9    9个数字,分开来处理

0
中山野鬼
中山野鬼

引用来自“eel”的评论

哦  原来这就是大数据
我擦,20万呢。还不够大。。。哈哈。
0
中山野鬼
中山野鬼

引用来自“紫川录”的评论

1*******
3*******
4*******
1*******
5*******

4******

大数据 只是将一份大的数据分开来处理,相同的 key 排列到一起

第一位 1 到9    9个数字,分开来处理

分拣后,可以考虑多进程或多线程并发计算。再依次写出。哈。其实每个进程中,还要考虑,再次分块排序。毕竟写磁盘比较慢,排序后一段时,前一段忙IO。不过这个和多进程没有关系。每个进程在文件中的目标写区域提前框定好,并发各忙各的,至于不同进程同时写IO,就交给操作系统、磁盘驱动自己折腾了。互不影响。哈。
中山野鬼
中山野鬼
@张亦俊 哈,hadoop和这个毛关系没有。
张亦俊
张亦俊
回复 @紫川录 : Hadoop一定是慢到爆炸的,明明简单外排序就搞定的事,非得搞些个没用的……
不日小鸡
回复 @紫川录 : 看题目没有,不要用框架
中山野鬼
中山野鬼
回复 @OSC首席键客 : 主板上的“内存”没什么差异,那么片内的内存,对于你切块排序的块大小还是影响很大的。特别是玩多进程时。哈。
OSC首席键客
OSC首席键客
回复 @中山野鬼 : 这固定数据占的内存还会根据硬件变?
下一页
0
tinyhare
tinyhare
编程珠玑中的第一个示例吧,好多解法,最快的是位图法?你去下载本《编程珠玑》电子书看看
MK先生
MK先生
回复 @一只小桃子 : 我早上刚刚看过这书第一章,明天早上把它精通了!
一只小桃子
一只小桃子
你看过这本书吗?
0
开源中国驻京办主任
开源中国驻京办主任
shell中不是一行命令的事吗?
西夏一品堂
西夏一品堂
求代码
0
尼古丁诱惑的男人
尼古丁诱惑的男人
哦?大数据。。20W。。。还不用框架。也不用任何jar。是这样理解嘛。。
0
s
sdasfd34
目的是考排序算法,什么归并排序
返回顶部
顶部