请问用hadoop怎么来实现搜索引擎(不和lucene或者nutch啊这些一起全部自己完成)

浅浅僾 发布于 2013/01/11 11:13
阅读 575
收藏 0

我的思路是 

单机:

1抓取网页

2MR分词,倒排建立索引 然后索引存入Hbase

3页面输入查询

4页面输入查询的内容分词

5把查询内容分词处理的几个关键字分别查询hbase中的索引,然后把结果合并,并按照出现次数排序

6页面显示

 

集群

1页面抓取

2把抓取的页面分别存在不同的电脑上

3在各自的机器上map处理这些网页内容并分词倒排

4把所有机子上的内容合并建立成索引

5把索引分开存入几台机子的hbase中

6页面输入查询

7吧查询内容分词

8分别查询几台机子hbase中的索引,然后把查询内容合并,然后排序

9页面显示

 

 

我想请问下这样的流程有问题么?应该怎么设计?还有这样能完成么?

加载中
返回顶部
顶部