多线程web爬虫程序 spidernet

MIT
C#
Windows
2012-04-06
nsnail

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件.

源码中TODO:标记描述了未完成功能, 希望提交你的代码.

加载中

评论(2)

Aoshiliang
Aoshiliang
我的QQ2274588037 spidernet
temainer
temainer
试过了,但是停不下来。。 spidernet

暂无资讯

1
回答
Python的一个爬虫,有一句话没看懂,帮忙解释一下

for link in links:     url = urljoin(page,link['href'])     if url.find("'")!...

2014/10/27 20:53

没有更多内容

加载失败,请刷新页面

没有更多内容

13个.Net开源的网络爬虫

1:.Net开源的跨平台爬虫框架 DotnetSpider Star:430 DotnetSpider这是国人开源的一个跨平台、高性能、轻量级的爬虫软件,采用 C# 开发。目前是.Net开源爬虫最为优秀的爬虫之一。 请点击此处...

06/29 22:28
58
0
开源爬虫软件汇总

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的...

2014/10/23 10:56
548
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
98
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
87
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
80
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
39
1
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
387
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
247
0
33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫...

2015/11/09 21:10
308
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部