
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Apache Nutch v2.0 版主要改进集中在基于 Apache Gora 存储抽象层的大规模的 Web 爬取,支持大数据存储系统包括:Apache Accumulo™, Apache Avro™, Apache Cassandra™, Apache HBase™, HDFS™ ,同时 2.0 版本大大改进了对 Hadoop 分布式平台的支持,详细的改进内容请看:
评论删除后,数据将无法恢复
暂无更多评论