我们毕业设计要做一个Web搜索引擎,我该使用什么样的爬虫

FernandoA 发布于 2010/01/20 17:08
阅读 3K+
收藏 2

我们毕业设计要做一个Web搜索引擎,采用垂直搜索策略,我该使用什么样的爬虫。老师叫我们自己研究一下Internet红蜘蛛,我百度了一下,没有关于它的搜索结果。我们要用.Net做,所以请教大家该怎么办..谢谢!

加载中
0
yeahking
yeahking

你可以参考下 火车头采集器

0
y
yukon12345

说实话,本科生毕业论文来要真的来做个能自己写个运行并且收录的搜索引擎不大现实。最好多了解点算法思想。

0
walden
walden

引用来自“yukon12345”的答案

说实话,本科生毕业论文来要真的来做个能自己写个运行并且收录的搜索引擎不大现实。最好多了解点算法思想。

此话怎讲
0
z
zengnjin

做个能串起整个搜索引擎运作流程的demo出来就可以了吧   

相关算法按简单情形实现下

0
cut
cut
哥给你指条路,垂直搜索引擎也是搜索引擎,而且难度比你直接使用爬虫爬互联网的信息实现更简单,自己写个网页解析器,先用设定的关键字到baidu,google抓搜索到的数据,然后搞个功能强大点的分词库,然后按baidu,google搜到内容自己进行pagerank做2次过滤,出来的结果要比baidu,google的结果要接近点你想要的,毕竟你的没钱这项在pagerank里面。这样的做出来很快,而且写论文也很好写,新手基础好点的2个星期就能搞出来,就用到点正则表达式的应用和调用分词库的开发部分而已。不过pagerank那部分你可以自由发挥,这部分是你写论文的重点,这个怎么吹都可以,至少让你老师看到有相当关键的部分是你搞出来的。
cut
cut
回复 @男巫 : 说的通俗点,就是直接截取baidu那些搜索结果,然后自己按自己的需要筛选那些结果,你只要花个几小时就可以写出来,然后你吹牛逼说下你怎么筛选的,筛选出来的数据更适合你的面向用户,然后写个论文,总的时间不会超过1个星期,只要你用点心,论文神马的至少可以过,吹得犀利点的拿个优一点问题都没
男巫
男巫
我想做个搜索相关关系的毕设 但是java学得渣渣。。。套用一句话:虽然不知道你在讲什么,但赶脚好厉害的样子 求指点
0
liangtee
liangtee

随便写个程序爬些网页就行(比如:http://my.oschina.net/liangtee/blog/84869),你做的还是垂直的,难度比通用的低不少。你的毕设的关键部分应该是网页排序算法那块,因此把精力用在学习pagerank之类的算法上吧~学有余力的话尝试着进行算法改进~

你们老师如果真的那么重视爬虫那块的话,那还是别自己写了,直接用nutch吧~

0
数据工厂
数据工厂
推荐你使用神箭手云爬虫框架(http://www.shenjianshou.cn/)
返回顶部
顶部