Crawler 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Crawler 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Crawler 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 GPL
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 国产
投 递 者 加州肥猫
适用人群 未知
收录时间 2016-04-05

软件简介

Crawler 基于 Java 开发的一款跨平台爬虫,可以使用Shell脚本和DOS命令进行任务式处理。

比如CR命令 使用一个Email正则就可以从贴吧中提取所有邮箱

爬取贴吧email

使用Ci命令 爬取所有新闻 java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml

执行结果

使用Crawler抓取腾讯新闻并保存入库:http://my.oschina.net/u/2311702/blog/652856

详细信息:http://git.oschina.net/puguoan/Crawler

可以与Shell DOS命令等配合组成跨平台、分布式、多线程的爬虫

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (3)

加载中
加州肥猫软件作者
打分: 力荐
例子在博客
2018/03/31 23:15
回复
举报
希望给个示例,怎么全站下载。比如 www.oschina.net 这个小站 #Crawler#
2016/04/06 20:17
回复
举报
爬取原理是什么 #Crawler#
2016/04/06 21:22
回复
举报
更多评论
暂无内容
发表了博客
2018/03/27 08:53

Crawler 爬虫

using Newtonsoft.Json; using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Text; using System.Threading.Tasks; using Crawler.Model; namespace Crawler.DataService { public class CategoryRepository //: IRepository<Commodity> { private Logger logger = new Logger(typeof(CategoryRepository)); public void Save(List<...

0
0
发表了博客
2016/04/03 21:58

爬虫初探(二)解析crawler4j源码crawler包

本人也是菜鸟一枚,现在刚开始接触爬虫,想通过读别人的爬虫框架源码来了解下爬虫,如有错误,请见谅并指出。 继之前解析了crawler4j的robotstxt包之后,今天来让我们看看crawler包和exception包。 crawler包中主要有以下几个类: 1.Configurable:抽象配置类,这是一个抽象类,里面有一个CrawlConfig的引用。其他什么也没有了。 2.CrawlConfig:这是一个爬虫的具体配置类,里面有许多参数,这里我只介绍几个主要的可配置的参数...

0
5
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2016/09/16 11:15

python selenium 抓取含有 javascript网页表格如何翻页的问题

爬虫爬取新浪财经(http://finance.sina.com.cn/stock/usstock/sector.shtml)上的美股数据,网页中包含了javascript,我用selenium 抓取时只能抓到第一页表格,我gaizenm from selenium import selenium from selenium import webdriver browser=webdriver.PhantomJS(executable_path=r'D:\phantomjs-2.1.1-windows\bin\phantomjs.exe') url=r'http://finance.sina.com.cn/stock/usstock/sector.shtml' browser.get(url) html ...

3
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
3 评论
37 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部