Nutch 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Nutch 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Nutch 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发搜索引擎
开源组织 Apache
地区 不详
投 递 者 不详
适用人群 未知
收录时间 2008-09-07

软件简介

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

  • 每个月取几十亿网页

  • 为这些网页维护一个索引

  • 对索引文件进行每秒上千次的搜索

  • 提供高质量的搜索结果

  • 以最小的成本运作

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=nutch2.0

展开阅读全文

评论

点击加入讨论🔥(7) 发布并加入讨论🔥
发表了资讯
2018/08/14 07:25

Web 爬虫 Apache Nutch 1.15 发布,支持 Java 10

Apache Nutch 1.15 已发布。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含100多项 bug 修复和改进,完整的更改列表可查阅发布说明。其中值得注意的包括: NUTCH-1480 具有不同配置的多索引 writer 实例现在可以将文档索引到多个 Solr 或 Elasticsearch 实例中 NUTCH-2375 使用新的 MapReduce API NUTCH-2583 更新依赖库,这也使得...

0
12
发表了资讯
2017/12/27 07:42

Apache Nutch 1.14 发布,Web 爬虫

Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Bug 修复 [NUTCH-2071] - A parser failure on a single document may fail crawling job [NUTCH-2235] - Classpath discrepancy with protocol-selenium in deploy mode [NUTCH-2269] - Clean not working after crawl [NUTCH-2295] - Nutch master doc...

1
43
发表了资讯
2017/04/03 07:40

Apache Nutch 1.1.3 发布,Web 爬虫

Apache Nutch 项目管理委员宣布 Apache Nutch 1.13 发布,建议所有当前的用户和 1.X 系列的开发人员升级到此版本。 Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Sub-task [NUTCH-2246] - Refactor /seed endpoint for backward compatibility Bug [NUTCH-1553] - Property 'indexer.delete.robots.noindex' not working when ...

1
24
发表了资讯
2016/01/23 00:00

Apache Nutch 2.3.1 发布,搜索引擎

Apache Nutch 2.3.1 发布,此版本主要解决了 40 个 issues,详情请看这里: http://s.apache.org/nutch_2.3.1 下载: http://nutch.apache.org/downloads.html 此版本推荐的 Gora 后端:    - Apache Avro 1.7.6    - Apache Hadoop 1.2.1 and 2.5.2    - Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)    - Apache Cassandra 2.0.2    - Apache Solr 4.10.3    - M...

0
43
发表了资讯
2015/12/10 00:00

Apache Nutch 1.11/ 2.3 发布,搜索引擎

Apache 1.11/ 2.3 发布,更新如下: CHANGES-2.3.txt CHANGES-1.11.txt 更多内容请看: http://nutch.apache.org/downloads.html Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

0
19
发表了资讯
2015/05/09 00:00

Apache Nutch 1.10 发布,搜索引擎

Apache Nutch 1.10 发布,此版本现已提供下载:http://syncope.apache.org/downloads.html。 更新内容: Bug 修复 [SYNCOPE-654] - Some generic and uninformative error messages [SYNCOPE-655] - Files under /etc/apache-syncope ignored [SYNCOPE-656] - Debian configuration files overwrittern [SYNCOPE-658] - Duplicate derived attribute after sync task when it is configured as accountid for the synched resou...

2
33
发表了资讯
2015/01/31 00:00

Apache Nutch v2.3 发布,Java实现的网络爬虫

Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。 这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为: Apache Hadoop 1.0.1 & 2.4.0 Apache Cassandra 2.0.2 Apache HBase 0.94.14 Apache Accumulo 1.5.1 MongoDB 2.12.2 Apache Solr 4.8.1 Apache Avro 1.7.6 同时请注意,Gora对SQL的支持已经过时了。 更多详细内容...

9
120
发表了资讯
2014/08/19 00:00

Apache Nutch 1.9 发布,开源的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到: * 每个月取几十亿网页 * 为这些网页维护一个索引 * 对索引文件进行每秒上千次的搜索 * 提供高质量的搜索结果 近日,Apache Nutch 1.9 发布,主要改进包括: Improvement [NUTCH-1502] -...

3
52
发表了资讯
2014/03/18 00:00

Apache Nutch 1.8 发布,Java 搜索引擎

Apache Nutch 1.8 发布,此版本包括 Crawler Commons 0.3 和 Apache Tika 1.4 的库更新;同时还包括 30 个 bug 修复和 18 处改进。更多内容请看更新日志,现已提供下载,建议每位 1.x 系列的用户都升级都最新版本! Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一...

0
21
发表了资讯
2013/06/25 00:00

Apache Nutch v1.7 发布,可插入式索引

Apache Nutch v1.7 修复了超过 20 个 bug,包括一些改进,最值得关注的就是新的可插入式索引机制。 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到: 每个月取几十亿网页 为这些网页维护一个索引 对索引文件进行每秒上千次的搜索 提供高...

4
15
发表了资讯
2013/06/09 00:00

Apache Nutch 2.2 发布,Java 搜索引擎

Apache Nutch 2.2 发布了,Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 新版本包含众多改进,详细列表如下: * NUTCH-1576 Need to keep hotStore.flush() exception catching (James Sullivan via lewismc) * NUTCH-1577 Add target for creating eclipse project (tejasp via lewismc) * NUTCH-1545 capture batchId and remove references to segments in...

9
39
发表了资讯
2012/12/09 00:00

Apache Nutch 1.6 发布

Apache Nutch 1.6 发布,该版本修复了超过 20 个 bug,新功能包括:新的 HostNormalizer,可通过 MIME-type 和 Indexer API 的功能增强来动态设置 fetchInterval ,更新 Tika 到 1.2 版本,更新 Autimaton 到 1.11-8 版本。 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。...

4
20
发表了资讯
2012/11/30 00:00

Nutch 1.6 RC 将很快发布

来自 Nutch 开发者邮件列表的好消息,Nutch 1.6 RC 将在几天后发布,该版本超过 40 个 bug和特性请求被接纳并处理。 目前 Nutch 存在两个分支版本,分别是 1.x 和 2.x,而 1.x 看起来更加稳定,提供更多的插件;但 2.x 分支实现了 Apache Gora,因此可以将扒到的数据写入 SQL/NoSQL 数据存储,而不只是 Solr。另外 Nutch 2.1 版本将于 12月5日 发布。...

2
3
发表了资讯
2012/10/06 00:00

Apache Nutch 2.1 发布,Java 搜索引擎

Apache Nutch 2.1 发布,该版本修复了大约 20 个 bug,更好的 Solr 配置,更新到各个 Gora 依赖等等,详情请看: http://www.apache.org/dist/nutch/2.1/CHANGES-2.1.txt Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

4
18
发表了资讯
2012/07/11 00:00

Apache Nutch v1.5.1 发布

Apache Nutch v1.5.1 发布,这是一个维护版本,主要改进记录包括: * NUTCH-1404 Nutch script fails to find job file in deploy mode (sidabatra, jnioche) * NUTCH-1415 release packages to contain top level folder apache-nutch-x.x (snagel via lewismc) * NUTCH-1400 Remove developer -core option for bin/nutch (jnioche) * NUTCH-1384 Typo in ParseSegment's run-method (Matthias Agethle via markus) * NUTCH-1...

5
5
发表了资讯
2012/07/10 00:00

Apache Nutch v2.0 发布,Java 搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Apache Nutch v2.0 版主要改进集中在基于 Apache Gora 存储抽象层的大规模的 Web 爬取,支持大数据存储系统包括:Apache Accumulo™, Apache Avro™, Apache Cassandra™, Apache HBase™, HDFS™ ,同时 2.0 版本大大改进了对 Hadoop 分布式平台的支持,详细的改进内容请看: http://www.apache.org/dist/nutch...

0
8
发表了资讯
2012/06/08 00:00

Apache Nutch 1.5 发布

Nutch 每半年发布一个新版本,今天 Apache Nutch 1.5 发布了,该版本包含很多改进,同时升级了 Tika 到 1.1 版本,升级 Hadoop 到 1.0.0 版本,改进 LinkRank 和 WebGraph 元素,提供一些新的插件例如黑名单、过滤以及名字解析等等。 详情请看:http://www.apache.org/dist/nutch/CHANGES-1.5.txt Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。...

0
5
发表了资讯
2011/11/27 00:00

Apache Nutch 1.4 发布

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Apache Nutch 1.4 包含大量的改进和bug修复,详情请看:http://www.apache.org/dist/nutch/CHANGES-1.4.txt

7
8
发表了资讯
2011/06/08 00:00

Apache Nutch 1.3 发布

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Apache Nutch 1.3 包含很多改进和bug修复,详情请看 http://www.apache.org/dist/nutch/CHANGES-1.3.txt

4
6
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
7 评论
960 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部