当前访客身份:游客 [ 登录 | 加入开源中国 ]

开源项目

当前位置:
开源软件 » 分类导航 » 应用工具 » 网络爬虫

软件分类

共有120 网络爬虫开源软件,第1

软件过滤: 排序: 收录时间 | 浏览数
  • 搜索引擎 Nutch

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现... Nutch 更多Nutch信息

    最近更新: Apache Nutch 2.3.1 发布,搜索引擎 发布于 11个月前

  • JAVA爬虫 WebCollector

    爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 爬虫内核: WebCollector致力于维护一个稳... WebCollector 更多WebCollector信息

  • Python 爬虫程序 PySpider

    PySipder 是一个 Python 爬虫程序 演示地址:http://demo.pyspider.org/ 使用 Python 编写脚本,提供强大的 API Python 2&3 强大的 WebUI 和脚本编辑器、任务监控和项目管理和结果查看 支持 JavaScript 页面 后端系统支持:MySQL, MongoDB, SQLite, Postg... PySpider 更多PySpider信息

  • Go 爬虫软件 Pholcus

    Pholcus  Pholcus(幽灵蛛)是一款纯Go语言编写的支持分布式的高并发、重量级爬虫软件,定位于互联网数据采集,为具备一定Go或JS编程基础的人提供一个只需关注规则定制的功能强大的爬虫工具。 它支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令... Pholcus 更多Pholcus信息

    最近更新: Pholcus 1.2 发布,高并发、分布式爬虫软件 发布于 2个月前

  • 基于docker的分布式爬虫服务 Zerg

     zerg     基于docker的分布式爬虫服务 特性 多机多 IP,充分利用 IP 资源 服务自动发现和注册(基于 etcd 和 registrator) 负载均衡 服务端客户端通信基于 gRPC,支持多种编程语言的客户端 可设置抓取超时 支持 GET、HEAD、POST 方法 支持自定义 head... Zerg 更多Zerg信息

  • 垂直爬虫 WebMagic

    webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).... WebMagic 更多WebMagic信息

    最近更新: WebMagic 0.5.3 版本发布,Java爬虫框架 发布于 11个月前

  • 网站数据采集软件 网络矿工采集器(原soukey采摘)

    Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下: 1.    多任务多线... 更多网络矿工采集器(原soukey采摘)信息

  • PHP的Web爬虫和搜索引擎 PhpDig

    PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关 键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更... 更多PhpDig信息

  • 网站爬虫 Grub Next Generation

    Grub Next Generation 是一个分布式的网页爬虫系统,包含客户端和服务器可以用来维护网页的索引。 Grub Next Generation 更多Grub Next Generation信息

    最近更新: Grub Next Generation 1.0 发布 发布于 6年前

  • Web爬虫框架 Scrapy

    Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~ 更多Scrapy信息

    最近更新: Scrapy 1.2.2 发布,Web 爬虫框架 发布于 1天前

  • 网站内容采集器 Snoopy

    Snoopy是一个强大的网站内容采集器(爬虫)。提供获取网页内容,提交表单等功能。 更多Snoopy信息

  • web爬虫 Heritrix

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结... Heritrix 更多Heritrix信息

  • Java网页爬虫 JSpider

    JSpider是一个用Java实现的WebSpider,JSpider的执行格式如下: jspider [URL] [ConfigName] URL一定要加上协议名称,如:http://,否则会报错。如果省掉ConfigName,则采用默认配置。 JSpider 的行为是由配置文件具体配置的,比如采用什么插件,结果存储方... 更多JSpider信息

  • 网络爬虫程序 NWebCrawler

    NWebCrawler是一款开源的C#网络爬虫程序 NWebCrawler 更多NWebCrawler信息

  • Java网络蜘蛛/网络爬虫 Spiderman

    Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。 最新提示:欢迎来体验最新版本Spiderman2,http://git.oschina.net/l-weiw... 更多Spiderman信息

  • Java多线程Web爬虫 Crawler4j

    Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 示例代码: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息

  • 网页抓取/信息提取软件 MetaSeeker

    爬虫软件MetaSeeker,现已全面升级为GooSeeker。 新版本已经发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域: 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天... 更多MetaSeeker信息

  • OpenWebSpider

    OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。 OpenWebSpider 更多OpenWebSpider信息

  • 爬虫小新 Sinawler

    国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。 登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。 该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商... 更多Sinawler信息

  • 网页爬虫 Methanol

    Methanol 是一个模块化的可定制的网页爬虫软件,主要的优点是速度快。 更多Methanol信息