开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
WebMagic首页、文档和下载 - 垂直爬虫 - 开源中国社区
全部项目分类
Apache
Java 查看源码»
跨平台
黄亿华
分享
收藏
968 人收藏
收录时间:2013-06-13
WebMagic 详细介绍

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

以下是爬取oschina博客的一段代码:

Spider.create(new SimplePageProcessor("http://my.oschina.net/",
"http://my.oschina.net/*/blog/*")).thread(5).run();

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

webmagic包含强大的页面抽取功能,开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。例如:

String extractResult = Html.create(html).$("div.body")
.xpath("//a/@href").regex(".*blog.*").toString();

webmagic也可以很方便的作为一个模块,嵌入Java项目中运行。webmagic的使用可以参考:oschina openapi 应用:博客搬家

webmagic的使用文档:http://webmagic.io/docs/

webmagic的设计文档:webmagic的设计机制及原理-如何开发一个Java爬虫

WebMagic

选择将代码托管在码云
你还在等什么

可能是中国最大最好的代码托管平台


大家对 WebMagic 的评论 (全部 81 条评论)
{{repayCom.userName}}
neverused
我大概看了一下QueuedScheduler,发现逻辑是如果不重或shouldReserve就放进一个LinkedQueue。如果多个线程同时放一个url,同时发现不重。将会放入一个url同时放入多次。这个是不是一个bug,我是渣渣,也不是很确定有没有这个问题。
戴帽子的狗
我瞎以为这里是搜索框...怎么删啊.. #WebMagic#
wj481199
如何为不同的页面配置不同的解析和downloader #WebMagic#
Java_常
代理功能到底是否好用? .setHttpProxy(new HttpHost("",)) 该方法是否可用? #WebMagic#
WebMagic 相关博客
顶部