5
回答
求高性能csv文件存取解决方案
【腾讯云】学生服务器套餐10元/月 >>>   

需求描述:类似数据仓库项目,大量csv文件每个小文件(<10M),但是文件数量非常多,所以总数据量很大(TB级)需要快速存取文件并可以读取其中的内容,这些csv文件是从其它数据源抽取过来的,因为怕性能差所以不想存到库里

     请问各位大侠,有啥合适的解决方案没有?多谢

<无标签>
举报
小生
发帖于5年前 5回/247阅
共有5个答案 最后回答: 5年前
这样不能说什么优化吧,要么就根据行为进行优化,比如一段时间内 某几个文件的访问量最大,数据读写最频繁,那就在一段时间内不重复的打开这个文件,文件打开后缓存起来。可以参考操作系统里面的内存置换算法LRU,,我也没头绪了。

TB级很多么?

我们光文件就有10亿多个,每个文件大小在300M到2G之间

做存储升级的时候,通过光纤拷贝到新的存储系统,花了大约三个月时间

--- 共有 1 条评论 ---
小生请问您的系统是如何实现快速存取历史数据的?谢谢 5年前 回复

ssd是啥?对不起我是新手,

多谢明月兄的回答:可能我上面描述地有点儿乱,我重新说:

其实就是有大量csv文件,每个文件的文件名都不同,而且还是按照日期分别存放到不同的目录,而且是不断有新目录和新csv文件进来,

问题如何快速访问已经存在的csv文件中的内容,不需要更新只要取到数据就行,自己写程序倒是可以访问,如果有比较成熟的解决方案或开源框架就比较好了,

 

opal 兄:你们是如何快速访问历史数据的?
放到HDFS中,读取用MAP/REDUCE做,非常适合。
--- 共有 3 条评论 ---
小生回复 @PaulWong : 非常感谢 5年前 回复
PaulWong官方那个WORDCOUNT那个例子就是最简单的了。 主要过程: 搭建HADOOP在本机的伪分布式环境,需要LINUX系统 跑通WORDCOUNT例子 搭建本机的开发环境,主要是WINDOWS,写一个MAP/REDUCE JOB,通过ECLIPSE分派到远程HADOOP中运行 5年前 回复
小生感谢PaulWong,我查了查资料,大概看懂意思,不过还是搞不出东西来, 请问您有更详细的资料或java语言的demo吗?非常感谢 5年前 回复
顶部