WebMagic 详细介绍
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
以下是爬取oschina博客的一段代码:
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).thread(5).run();
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
webmagic包含强大的页面抽取功能,开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。例如:
String extractResult = Html.create(html).$("div.body") .xpath("//a/@href").regex(".*blog.*").toString();
webmagic也可以很方便的作为一个模块,嵌入Java项目中运行。webmagic的使用可以参考:oschina openapi 应用:博客搬家
webmagic的使用文档:http://webmagic.io/docs/
webmagic的设计文档:webmagic的设计机制及原理-如何开发一个Java爬虫
WebMagic
选择将代码托管在码云
你还在等什么
可能是中国最大最好的代码托管平台
5
有用

我大概看了一下QueuedScheduler,发现逻辑是如果不重或shouldReserve就放进一个LinkedQueue。如果多个线程同时放一个url,同时发现不重。将会放入一个url同时放入多次。这个是不是一个bug,我是渣渣,也不是很确定有没有这个问题。
1
有用

我瞎以为这里是搜索框...怎么删啊.. #WebMagic#
1
有用

post #WebMagic#
1
有用

如何为不同的页面配置不同的解析和downloader #WebMagic#
1
有用

代理功能到底是否好用?
.setHttpProxy(new HttpHost("",))
该方法是否可用? #WebMagic#

评价
发送私信给: 黄亿华
评论 WebMagic
还可以输入字
简短评论
评论 WebMagic