Nutch 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Nutch 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发搜索引擎
开发厂商 Apache
地区 不详
提 交 者 不详
适用人群 未知
收录时间 2008-09-07

软件简介

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

  • 每个月取几十亿网页

  • 为这些网页维护一个索引

  • 对索引文件进行每秒上千次的搜索

  • 提供高质量的搜索结果

  • 以最小的成本运作

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=nutch2.0

展开阅读全文

评论 (7)

加载中
新增Play1、Play2 for Java、Play2 for Scala、Nutch2.0、curl文档,修复jQuery文档最后正则表达式乱码问题。有什么需要的文档要跟我说哦,没问题的话我会及时添加的。
2012/07/16 16:49
回复
举报
使用Nutch的朋友不妨试试Spiderman
2013/05/17 12:29
回复
举报
webmagic作者推荐的八爪鱼采集器确实很强悍 Nutch
2014/02/11 21:37
回复
举报
Lucene #Nutch#
2015/04/21 14:42
回复
举报
可以试试集搜客这款爬虫软件,简单使用,关键还免费 #Nutch#
2016/02/17 15:43
回复
举报
Web爬虫 #Nutch#
2016/09/05 17:37
回复
举报
更多评论
发表于开发技能专区
2019/10/18 07:04

Web 爬虫 Apache Nutch 1.16 发布

Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含 100 多个错误修复和改进,主要更新内容如下: 新特性 [NUTCH-2676] - 更新至最新的 selenium,并添加代码以通过远程 Web 驱动程序使用 chrome 和...

1
28
发表于AI & 大数据专区
2018/08/14 07:25

Web 爬虫 Apache Nutch 1.15 发布,支持 Java 10

Apache Nutch 1.15 已发布。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含100多项 bug 修复和改进,完整的更改列表可查阅发布说明。其中值得注意的包括: NUTCH-1480 具有不同配置的多索引 writer 实例现在可以将文档索引...

0
12
发表了资讯
2017/12/27 07:42

Apache Nutch 1.14 发布,Web 爬虫

Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Bug 修复 [NUTCH-2071] - A parser failure on a single document may fail crawling job [NUTCH-2235] - Classpath discrepancy with protocol-...

1
43
发表了资讯
2017/04/03 07:40

Apache Nutch 1.1.3 发布,Web 爬虫

Apache Nutch 项目管理委员宣布 Apache Nutch 1.13 发布,建议所有当前的用户和 1.X 系列的开发人员升级到此版本。 Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Sub-task [NUTCH-2246] - Refactor /seed endpoint for ...

1
24
发表了资讯
2016/01/23 00:00

Apache Nutch 2.3.1 发布,搜索引擎

Apache Nutch 2.3.1 发布,此版本主要解决了 40 个 issues,详情请看这里: http://s.apache.org/nutch_2.3.1 下载: http://nutch.apache.org/downloads.html 此版本推荐的 Gora 后端:    - Apache Avro 1.7.6    - Apache Hadoop 1.2.1 and 2.5.2    - Apache HBase 0.98.8-hadoop2 (although ...

0
43
发表了资讯
2015/12/10 00:00

Apache Nutch 1.11/ 2.3 发布,搜索引擎

Apache 1.11/ 2.3 发布,更新如下: CHANGES-2.3.txt CHANGES-1.11.txt 更多内容请看: http://nutch.apache.org/downloads.html Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。...

0
19
发表了资讯
2015/05/09 00:00

Apache Nutch 1.10 发布,搜索引擎

Apache Nutch 1.10 发布,此版本现已提供下载:http://syncope.apache.org/downloads.html。 更新内容: Bug 修复 [SYNCOPE-654] - Some generic and uninformative error messages [SYNCOPE-655] - Files under /etc/apache-syncope ignored [SYNCOPE-656] - Debian configuration files overwrittern [SYNCOPE-658] - ...

2
33
发表了资讯
2015/01/31 00:00

Apache Nutch v2.3 发布,Java实现的网络爬虫

Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。 这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为: Apache Hadoop 1.0.1 & 2.4.0 Apache Cassandra 2.0.2 Apache HBase 0.94.14 Apache Accumulo 1.5.1 Mo...

9
120
发表了资讯
2014/08/19 00:00

Apache Nutch 1.9 发布,开源的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到: * 每个月取几十亿网页 * 为这些网页维护一个索引 * 对索引文件进行每秒上千次...

3
53
发表了资讯
2014/03/18 00:00

Apache Nutch 1.8 发布,Java 搜索引擎

Apache Nutch 1.8 发布,此版本包括 Crawler Commons 0.3 和 Apache Tika 1.4 的库更新;同时还包括 30 个 bug 修复和 18 处改进。更多内容请看更新日志,现已提供下载,建议每位 1.x 系列的用户都升级都最新版本! Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和...

0
21
发表了资讯
2013/06/25 00:00

Apache Nutch v1.7 发布,可插入式索引

Apache Nutch v1.7 修复了超过 20 个 bug,包括一些改进,最值得关注的就是新的可插入式索引机制。 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标...

4
15
发表了资讯
2013/06/09 00:00

Apache Nutch 2.2 发布,Java 搜索引擎

Apache Nutch 2.2 发布了,Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 新版本包含众多改进,详细列表如下: * NUTCH-1576 Need to keep hotStore.flush() exception catching (James Sullivan via lewismc) * NUTCH-1577 Add target for creating ec...

9
39
发表了资讯
2012/12/09 00:00

Apache Nutch 1.6 发布

Apache Nutch 1.6 发布,该版本修复了超过 20 个 bug,新功能包括:新的 HostNormalizer,可通过 MIME-type 和 Indexer API 的功能增强来动态设置 fetchInterval ,更新 Tika 到 1.2 版本,更新 Autimaton 到 1.11-8 版本。 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全...

4
20
发表了资讯
2012/11/30 00:00

Nutch 1.6 RC 将很快发布

来自 Nutch 开发者邮件列表的好消息,Nutch 1.6 RC 将在几天后发布,该版本超过 40 个 bug和特性请求被接纳并处理。 目前 Nutch 存在两个分支版本,分别是 1.x 和 2.x,而 1.x 看起来更加稳定,提供更多的插件;但 2.x 分支实现了 Apache Gora,因此可以将扒到的数据写入 SQL/NoSQL 数据存储,而不只是 Solr。另外 Nutc...

2
3
发表了资讯
2012/10/06 00:00

Apache Nutch 2.1 发布,Java 搜索引擎

Apache Nutch 2.1 发布,该版本修复了大约 20 个 bug,更好的 Solr 配置,更新到各个 Gora 依赖等等,详情请看: http://www.apache.org/dist/nutch/2.1/CHANGES-2.1.txt Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。...

4
18
发表了资讯
2012/07/11 00:00

Apache Nutch v1.5.1 发布

Apache Nutch v1.5.1 发布,这是一个维护版本,主要改进记录包括: * NUTCH-1404 Nutch script fails to find job file in deploy mode (sidabatra, jnioche) * NUTCH-1415 release packages to contain top level folder apache-nutch-x.x (snagel via lewismc) * NUTCH-1400 Remove developer -core option for bin/nu...

5
5
发表了资讯
2012/07/10 00:00

Apache Nutch v2.0 发布,Java 搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Apache Nutch v2.0 版主要改进集中在基于 Apache Gora 存储抽象层的大规模的 Web 爬取,支持大数据存储系统包括:Apache Accumulo™, Apache Avro™, Apache Cassandra™, Apache HBase™, HDFS™ ,同时 ...

0
9
发表了资讯
2012/06/08 00:00

Apache Nutch 1.5 发布

Nutch 每半年发布一个新版本,今天 Apache Nutch 1.5 发布了,该版本包含很多改进,同时升级了 Tika 到 1.1 版本,升级 Hadoop 到 1.0.0 版本,改进 LinkRank 和 WebGraph 元素,提供一些新的插件例如黑名单、过滤以及名字解析等等。 详情请看:http://www.apache.org/dist/nutch/CHANGES-1.5.txt Nutch 是一个开源Java ...

0
5
发表了资讯
2011/11/27 00:00

Apache Nutch 1.4 发布

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Apache Nutch 1.4 包含大量的改进和bug修复,详情请看:http://www.apache.org/dist/nutch/CHANGES-1.4.txt

7
7
发表了资讯
2011/06/08 00:00

Apache Nutch 1.3 发布

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Apache Nutch 1.3 包含很多改进和bug修复,详情请看 http://www.apache.org/dist/nutch/CHANGES-1.3.txt

4
6
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于AI & 大数据专区
2014/04/08 11:37

《Nutch笔记》Nutch-2.2+MySQL集成

Nutch-2.2把抓取数据同步到MySQL

10
34
发表于云计算专区
2015/05/21 23:00

Nutch配置:nutch-default.xml详解

HomePage:http://www.cnblogs.com/xxx0624/ ***** 主要针对nutch2.x版本中的nutch-defaul.xml文件进行介绍 nutch-defaul.xml可以修改nutch各个方面的设置 *****

0
1
发表了博客
2014/10/31 11:51

nutch中的 nutch-site.xml 配置

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration>   <property>     <name>plugin.folders</name>     <value>./src/plugin</value>     <description>Directories where nutch plugins a...

0
1
发表于开发技能专区
2015/11/02 00:41

Nutch 插件

为了定制化需求,我们需要制作自己的插件,本文以nutch1.6为载体,研究nutch的urlmeta插件

0
1
发表于AI & 大数据专区
2014/03/21 16:50

《Nutch笔记》Nutch-1.7+solr-4.7集成

Nutch-1.7+solr-4.7集成

0
24
发表了博客
2016/07/18 14:58

nutch 安装部署 以nutch2.3.1 为例

nutch Ubuntu 环境下的安装部署

0
0
发表了博客
2014/03/19 10:18

《Nutch笔记》eclipse导入nutch-1.7

eclipse导入nutch-1.7以及运行

1
6
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2016/10/27 10:41

同样的一个请求,为什么不同的抓包工具 观察到的不一样?(Wireshark,Charles)

同样的请求 在 Wireshark的 界面 看到 4个连接 然后追踪流,又变成了 2个 ,什么意思? 并且 用 Charles 观察 ,有5个。。。就不说 那两个文件 了,就第一个 .ashx 的链接 怎么丢了呢? Charles 是用手机请求的;ws 是 观察的模拟器的,但我确定 点的是一个连接,是这个原因吗?...

1
0
发表了问答
2016/02/23 20:05

做分布式爬虫和搜索引擎对于服务器配置有什么要求?

做分布式爬虫和搜索引擎对于服务器配置有什么要求? 实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。 我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没完全爬完,感觉很慢。 服务器配置如下:...

3
0
发表了问答
2015/05/24 14:51

Nutch2.3 + hbase0.98.8 +hadoop2.5.2

@杨尚川 你好,想跟你请教个问题:杨老师 实在不好意思,想麻烦你一个问题,困扰了我很久。 我并不是一个智慧伸手要资源的傻瓜,在学习了你相关的nutch视频之后,试着自己去尝试做一些东西。于是根据nutch官网上给出的信息,我选择了最新版的nutch 2.3,因为nutch2.3采用的是gora0.5,所以官网上建议搭配hbase0.94.14和h...

9
0
发表了问答
2015/05/17 12:00

nutch2.3 hadoop和hbase的选择

楼主有点小烦。最近学着使用nutch 在配置nutch时,在hadoop的版本上出现了让我很纠结的选择! nutch官网上推荐的是这样的搭配:hadoop2.4.0+hbase0.94.14 而hbase官网上对hadoo的支持说明是这样的 hadoop2.4.0 对与hbase 0.94 是NT not tested的。 我好乱不知道选择哪个了...

1
0
发表了问答
2017/03/03 18:53

请问这个网站为什么没有网络通信?怎么爬呢

智能辅助问诊机器人 - http://robot.kangfuzi.com/?winzoom=1 像爬这个网站,点了一通,一个 网络连接 都没看到,怎么实现的,该怎么爬呢?

3
0
发表了问答
2016/11/09 11:11

求网络舆情爬虫系统?

网络舆情爬虫开发之英雄帖 开发需求 用于网络舆情信息采集与分析的软件(接口级) 功能描述 1. 信息采集类型:新闻、政务网站、论坛、博客、微信、微博、视频、境外中文媒体,约3万站点 2. 网页解析字段项:标题、时间、作者、正文、正文摘要、URL、评论数、转载数等 3. 数据分析类型:舆情常规的语义分析、热点分析 4....

2
4
发表了问答
2016/10/08 09:57

远程服务器、云 服务器 怎么搭建代理?CCProxy?

CCProxy 我在 局域网内 测试可以,但是 放到 远程的、非 一个 局域网的 服务器上 不行,因为 这个外网ip 不知道怎么设置,用 ip138 显示的ip好像不行啊? 这台电脑 本身有没有 固定的外网ip呢? 还是说 外网 CCProxy 无法实现,用其他的呢?

1
0
发表了问答
2016/10/09 17:44

请问 这个 文件怎么下载(Java爬虫),是 怎么验证的啊?在等。。

这个是文件的详情页 http://guide.medlive.cn/guidelinesub/3695 这个 是 我 登陆后 下载某个文件,根据 下载链接 和 详情页、文件名 对比 得出的 下载链接: http://webres.medlive.cn/upload/temp/ea/2653764/c207077dfcdf0b72dc2fffd026c7a476/%E3%80%90%E5%8C%BB%E8%84%89%E9%80%9A%E3%80%912016%E5%B9%B4%E6%9B%B4...

1
0
发表了问答
2016/05/06 18:31

为什么 很多 app无法 通过 fiddler 无法拦截 到?

通过 设置手机 wifi 的代理 为 本机ip,端口 为 fiddler的代理 端口(默认8888) 就可以 通过 fiddler 拦截到手机上的请求了。 但是 很奇怪,有的可以 ,有的不可以,而且 我自己 测试 不可以的居多。 试了几个 ,浏览器 首先不行,应用宝 可以,然后 网易新闻,微信,知乎 等 一个连接 也没 拦截到。。。 为什么呢?...

7
0
发表了问答
2016/07/25 18:24

nutch2.2.1抓取时对已经抓取过的数据重复抓取

@S2JH 你好,最近在nutch2.2.1开发使用时,发现了一个问题,请教一下您: 问题描述:出现重复抓取现象,即第二次抓取时会将第一次抓取的数据再抓取一遍,第三次抓取时会将第一次、第二次抓取的数据再抓取一遍,总之就是本次抓取会将新数据和前面已经抓取过的数据再抓取一遍;(urls里面有一个链接,第一次抓取时抓取url...

2
0
发表了问答
2016/06/22 16:32

爬虫(java) 如何获取到 js执行后的完整页面?

http://www.haodf.com/doctor/DE4r0BCkuHzdeZILvCBx2XzuGO4ty.htm 这是一个JS生成的 页面,源码里看不到 简介 处的 东西,同时 后台 也没有相关的 异步请求的 api地址。 怎么搞呢? 用什么组件 可以 获取到 执行完的 页面完整源码?

6
1
发表了问答
2009/03/29 20:49

Nutch爬虫工作流程及文件格式详细分析

Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在...

4
20
发表了问答
2013/09/12 17:30

NUTCH公开课:从搜索引擎到网络爬虫

课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个J...

1
14
发表了问答
2011/03/11 23:54

想要索引淘宝整站,有没有好点的方法?

在设计蜘蛛的时候,要注意些什么?比如索引的频率,JavaScript的识别,最大化模拟浏览器或者直接包装一个Webkit 在识别网页元素的时候,要注意些什么?比如价格的识别,商品描述的识别,卖家等级的识别 索引的结果放入文件还是NoSQL数据系统?Cassandra?Hbase?MangoDB?MySQL? 先对索引排序之后放入数据系统还是从数据系统中取得结...

14
4
发表了问答
2011/05/12 17:03

要爬网页,选哪个爬虫好?Nutch? Heritrix?

爬取网页的指定信息,不需要保存完整页面。比方说阿里巴巴的需求信息,爬取后转换为本地数据结构数据库存储。当然,如果它的需求信息更新了,我还得跟新我的本地数据,所以还的判断网页是否更新。索引及查询用Lucene就行了,现在是抓取部分,不知道哪个软件定制化程度高一些,而且要容易使用,因为我是菜鸟...

11
7
发表了问答
2014/07/25 17:27

Java_爬虫,如何抓取Js动态生成数据的页面?

很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。 HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使。一般的代码是这样写的: Stri...

9
8
发表了问答
2015/04/27 22:25

怎么抓去ajax实现的工商银行网站的理财产品

用htmlUnit抓去工商银行网站(http://www.icbc.com.cn/ICBCDynamicSite2/money/moneytabs.htm)的理财产品时,只能抓去到页面加载完之后直接显示的现金管理类-》灵通系列的两个产品。其他的需要鼠标经过才能触发的mouseenter事件的产品,就抓去不了。怎么才能爬去到其他div的理财产品呢。跪求大神解惑。...

3
0
发表了问答
2016/05/05 22:48

爬虫下来的图片、视频、大文本存储技术

有谁做过互联网爬虫, 请问有什么比较好的技术实现网页中图片和视频还有大文本的存储。 我的初步想法是针对标题做索引用mysql实现, 但是大的二进制数据不知道怎么处理,有那个大神给支个招!

2
0
发表了问答
2016/05/05 18:47

有没有人试过 使用 程序 (抓包、爬虫)下载 应用商店内的应用 ,然后 刷 下载量?

用 通常的 对 网站、app 抓包的方式 ,获取 到 应用商店(应用宝、360商店 等) 的 下载地址,然后 使用程序 下载,能 实现吗? 如果能这样的话,商店的某个 应用的 下载量 直接就刷上去了。。。 我分别 使用 wireshark 和 fiddler 尝试了一下 应用宝 ,因为 对 协议 不是 特别了解,所以 也没有 获取到具体的地址。。。...

5
1
发表了问答
2016/05/06 18:40

wireshark 怎样使用?连接太多 看都看不清啊。。。

想使用 Wireshark 拦截请求,比如 一个网站,或者 软件 通常我的做法是 清空所有 然后 点击一下,看 产生的新连接。 结果 Wireshark 里 太多了,十几万个 ,而且 不停 唰唰唰 的增加,点了 一下 还没看清呢,没了。。。。 再找 也不知道去哪找了。。 使用过滤器吧,光 http的 怕不全。。 使用 ip过滤吧,但是 并不知道 ...

3
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
7 评论
963 收藏
分享
返回顶部
顶部