搜索引擎 Nutch

搜索引擎 Nutch

Apache
Java
跨平台
Apache
2008-09-07

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

  • 每个月取几十亿网页

  • 为这些网页维护一个索引

  • 对索引文件进行每秒上千次的搜索

  • 提供高质量的搜索结果

  • 以最小的成本运作

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=nutch2.0

加载中

评论(6)

kangkang99
kangkang99
Web爬虫 #Nutch#
z
zhouhongwei520
可以试试集搜客这款爬虫软件,简单使用,关键还免费 #Nutch#
月光水岸mjlqwd
月光水岸mjlqwd
Lucene #Nutch#
kevenliu
kevenliu
webmagic作者推荐的八爪鱼采集器确实很强悍 Nutch
自风
自风
使用Nutch的朋友不妨试试Spiderman
王振威
王振威
新增Play1、Play2 for Java、Play2 for Scala、Nutch2.0、curl文档,修复jQuery文档最后正则表达式乱码问题。有什么需要的文档要跟我说哦,没问题的话我会及时添加的。

Web 爬虫 Apache Nutch 1.15 发布,支持 Java 10

Apache Nutch 1.15 已发布。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含100多项 bug 修复...

08/14 07:25

Apache Nutch 1.14 发布,Web 爬虫

Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Bug 修复 [NUTCH...

2017/12/27 07:42

Apache Nutch 1.1.3 发布,Web 爬虫

Apache Nutch 项目管理委员宣布 Apache Nutch 1.13 发布,建议所有当前的用户和 1.X 系列的开发人员升级到此版本。 Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache...

2017/04/03 07:40

Apache Nutch 2.3.1 发布,搜索引擎

Apache Nutch 2.3.1 发布,此版本主要解决了 40 个 issues,详情请看这里: http://s.apache.org/nutch_2.3.1 下载: http://nutch.apache.org/downloads.html 此版本推荐的 Gora 后端:   ...

2016/01/23 08:15

Apache Nutch 1.11/ 2.3 发布,搜索引擎

Apache 1.11/ 2.3 发布,更新如下: CHANGES-2.3.txt CHANGES-1.11.txt 更多内容请看: http://nutch.apache.org/downloads.html Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己...

2015/12/10 07:50

Apache Nutch 1.10 发布,搜索引擎

Apache Nutch 1.10 发布,此版本现已提供下载:http://syncope.apache.org/downloads.html。 更新内容: Bug 修复 [SYNCOPE-654] - Some generic and uninformative error messages [SYNCOPE...

2015/05/09 08:20

Apache Nutch v2.3 发布,Java实现的网络爬虫

Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。 这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora ...

2015/01/31 17:46

Apache Nutch 1.9 发布,开源的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引...

2014/08/19 10:02

没有更多内容

加载失败,请刷新页面

3
回答
做分布式爬虫和搜索引擎对于服务器配置有什么要求?

做分布式爬虫和搜索引擎对于服务器配置有什么要求? 实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。 我们之前使...

2016/02/23 20:05
9
回答
Nutch2.3 + hbase0.98.8 +hadoop2.5.2

@杨尚川 你好,想跟你请教个问题:杨老师 实在不好意思,想麻烦你一个问题,困扰了我很久。 我并不是一个智慧伸手要资源的傻瓜,在学习了你相关的nutch视频...

2015/05/24 14:51
1
回答
nutch2.3 hadoop和hbase的选择

楼主有点小烦。最近学着使用nutch 在配置nutch时,在hadoop的版本上出现了让我很纠结的选择! nutch官网上推荐的是这样的搭配:hadoop...

2015/05/17 12:00
3
回答
请问这个网站为什么没有网络通信?怎么爬呢

智能辅助问诊机器人 - http://robot.kangfuzi.com/?winzoom=1 像爬这个网站,点了一通,一个 网络连接 都没看到,怎么实...

2017/03/03 18:53
2
回答
求网络舆情爬虫系统?

网络舆情爬虫开发之英雄帖 开发需求 用于网络舆情信息采集与分析的软件(接口级) 功能描述 1. 信息采集类型:新闻、政务网站、论坛、博客、微信、微博、视频...

2016/11/09 11:11
1
回答
远程服务器、云 服务器 怎么搭建代理?CCProxy?

CCProxy 我在 局域网内 测试可以,但是 放到 远程的、非 一个 局域网的 服务器上 不行,因为 这个外网ip 不知道怎么设置,用 ip138 显示...

2016/10/08 09:57
1
回答
请问 这个 文件怎么下载(Java爬虫),是 怎么验证的啊?在等。。
loyal 的回答 2016/10/09 18:37
最佳答案
那你模拟登录不就完了,留存cookies. 这都没啥啊...
7
回答
为什么 很多 app无法 通过 fiddler 无法拦截 到?
fly2xiang 的回答 2016/05/07 12:24
最佳答案
Android 中 App 是可以自己决定是否使用系统的代理的,iOS 上的知乎是可以被 Fiddler 拦截到的。
2
回答
nutch2.2.1抓取时对已经抓取过的数据重复抓取

@S2JH 你好,最近在nutch2.2.1开发使用时,发现了一个问题,请教一下您: 问题描述:出现重复抓取现象,即第二次抓取时会将第一次抓取的数据再抓取...

2016/07/25 18:24
6
回答
爬虫(java) 如何获取到 js执行后的完整页面?
Zemo 的回答 2016/06/22 17:43
最佳答案
http://www.oschina.net/p/webcollector?fromerr=ZpDomkW4 6)集成selenium,可以对javascript生成信息进行抽取http://datahref.com/archives/30

没有更多内容

加载失败,请刷新页面

nutch搜索引擎的搭建以及配置

最近公司需要搭建一个搜索引擎,于是就发现了apache旗下的这个nutch,也看了不少的文章,就在本地搭建了一个进行测试,发现局域网抓取还是比较好的,但是在互联网抓取还是有点问题,像百度、谷歌这...

2014/04/06 00:59
303
0
《Nutch笔记》Nutch-1.7+solr-4.7集成

Nutch-1.7+solr-4.7集成

2014/03/21 16:50
1K
1
Nutch2.3 bin/crawl、bin/nutch 脚本

# 环境 # *** Nutch版本:Nutch 2.3 # 内容 # *** ## 1.bin/crawl脚本 ## #!/bin/bash # The Crawl command script : crawl # # 下面这一段主要是判断bin/crawl命令的参数 # # UNLIKE THE N...

2015/11/06 12:49
150
0
初探网络爬虫Nutch

工作中, Nutch相关笔记

2014/04/18 17:08
17
0
nutch 安装部署 以nutch2.3.1 为例

nutch Ubuntu 环境下的安装部署

2016/07/18 14:58
150
0
Nutch集群代理服务器配置文档

如果利用Nutch集群抓取网页,当我们抓取一个网站太频繁时可能会被该网站封IP。所以,在这种情境下,我们需要配置代理服务器,使我们的服务器在抓取网页时,先通过非集群的IP代理后,再访问需...

2014/10/18 15:45
128
0
Nutch 安装配置

工作笔记,Nutch 安装配置

2014/04/18 17:12
105
0
学习Nutch不错的系列文章

学习Nutch不错的系列文章

2014/02/14 11:34
101
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部