我是spiderman

Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。 最新提示:欢迎来体验最新版本Spiderman2,http://git.oschina.net/l-weiwei/Spiderman2 重新打造,重新起步,努力做更好用的爬虫! 主要特点 * 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。 * 通过简单的配置就可以将复杂的网...

相关文章

加载中

[问答] Spiderman爬虫

https://www.oschina.net/question/2008773_236627

@自风 你好,想跟你请教个问题:我有这么一个场景 我要爬去一个列表页面 有分页的(下一页),列表里面有个详情页面 我要的数据是(列表页面中的A字段 和详情页面中的数据B字段)组合而成的,...

2015/05/20 00:00

[问答] spiderman规则配置

https://www.oschina.net/question/1394702_134871

@像风一样自由 , Spiderman @自风 ,有谁把抓取规则放到web页面配置了

2013/11/26 00:00

[问答] spiderman如何运行

https://www.oschina.net/question/1780160_156577

@自风 你好,想跟你请教个问题: spiderman究竟要怎么运行它啊。能不能详细的介绍下呢。完全没头绪。

2014/05/27 00:00

[问答] spiderman的几个小问题

https://www.oschina.net/question/1270873_126928

1、请问我模仿chealth这个xml文件设置了一个分页网站的下载,但是该下载到了最后一页不结束而是一直在将next_page_num+1进行搜索,请问这种情况下是怎么结束搜索? 2、请问在表达式 xpath 和...

2013/09/24 00:00

[问答] spiderman-plugin构建不成功!

https://www.oschina.net/question/147056_126445

@自风 你好,想跟你请教个问题: 下载的你的那个spiderman的maven项目,导入到myeclipse后 在构建spiderman-plugin的时候出现下面的错,其他的都正常,就这个一直下载不了! 我把这个下载链接...

2013/09/19 00:00

[问答] Spiderman怎么跑?

https://www.oschina.net/question/253929_75598

最近正在烦恼抓取网页数据这一块!看到楼主的帖真是太好了,不过这个怎么用起来呢?跑起来之前需要什么工具或者准备??求解答。。

2012/10/22 00:00

[问答] spiderman there is no website to fetch

https://www.oschina.net/question/2247393_2143266

@自风 运行sample出现下面问题,要怎么解决了 [DEBUG] 2015-11-28 13:09:43 [config] ~ (EWeb4JConfig.java:225) EWeb4J start configuration info have bean validated and pushed to the c...

2015/11/28 00:00

[问答] Spiderman 网络爬虫的使用

https://www.oschina.net/question/3483738_2244493

@自风 你好,想跟你请教个问题:我要抓取 http://www.80txt.com/sort24/1.html 这个图书网站下的所有的图书的url(访问网页就能直接下载),作者名称,简介。一直都不知道怎么弄,希望你在空...

2017/06/08 00:00

[问答] Spiderman能关键字查找爬么?

https://www.oschina.net/question/572618_114315

@自风 你好,想跟你请教个问题:Spiderman能关键字查找爬么?

2013/06/08 00:00

[问答] Spiderman 进不了onParse

https://www.oschina.net/question/312210_2139273

@自风 你好,想跟你请教个问题: 你好,我现在已经配置好,可以跑起来了,但是用例子里面的list-paging-oschina.xml,enable已经设1程序能正常跑但是进不了onParse。 到这里就不跑了。还有就...

2015/10/28 00:00

[问答] spiderman有没有不依赖maven的版本?

https://www.oschina.net/question/1181865_118267

@自风 你好,想跟你请教个问题:spiderman有没有不依赖maven的版本?

2013/07/14 00:00

[问答] 【开源访谈】 Spiderman作者赖伟威访谈实录

https://www.oschina.net/question/947559_116191

【作者简介】 赖伟威 毕业刚满一年的Java Coder,立志做可靠的系统架构师。大学期间与几位志同道合的同学创办CFuture工作室。现在深圳打拼中。 【软件简介】 Spiderman 是一个基于微内核+插件...

2013/06/26 00:00

[问答] Spiderman 能抓取这样的列表吗

https://www.oschina.net/question/1471085_147631

@自风 你好,想跟你请教个问题: 像这个网页中ajax的列表能抓取吗?这个是异步生成的列表。 http://www.dpm.org.cn/shtml/115/@/9036.html#34#35...

2014/03/18 00:00

[博客] SpiderMan成长记(爬虫之路)

https://my.oschina.net/u/4311773/blog/4249267

第一章 爬虫基础 1.1 爬虫基本原理 1.2 请求库 -- urllib库的使用 1.3 请求库 -- requests库的使用 1.4 数据解析 -- 正则基础  1.5 数据解析 -- lxml与Xpath 1.6 数据解析 -- BeautifulSoup...

2018/03/01 00:00

[问答] 关于网络爬虫spiderman的一些问题

https://www.oschina.net/question/942209_88841

最近在研究网络爬虫spiderman,遇到了下面这些问题: 1:在抓取页面数据的时候,我如何才能控制只抓取当前页面并且匹配目标URL规则的数据内容。(测试过程中分页的数据也抓去进来了) 2:我想...

2013/01/25 00:00

[问答] @像风一样自由 集成spiderman

https://www.oschina.net/question/1394702_132100

@自风 你好,想跟你请教个问题: 我要把 spiderman-webapp集成到一个web项目里面,如何做?关于数据的持久化,我在SpiderListener.onParse方法里已经拿到了数据,如何去连接数据库?我要把s...

2013/11/08 00:00

[问答] spiderman抓取百度搜索出的新闻

https://www.oschina.net/question/1421499_137353

@自风 你好,想跟你请教个问题: 我现在想通过spiderman抓取百度搜索出的所有网页内容,分别贴出xml和debug debug显示 请问怎么修改才能达到目的,谢谢

2013/12/13 00:00

[问答] 如何将spiderman集成到自己的项目中?

https://www.oschina.net/question/207854_118585

@自风 你好,想跟你请教个问题:我如何才能把spiderman正确打包然后集成到自己的项目中?我的项目没有用maven,引入eweb4j.jar后eweb4j-start-config.xml怎么配置?本人菜鸟至极,跪求各种教...

2013/07/17 00:00

[问答] @像风一样自由, Spiderman 环境搭建

https://www.oschina.net/question/1394702_131841

@像风一样自由 , Spiderman @自风 你好,想跟你请教个问题: 我从gitcafe 上把您的项目gitClone 下来了, 如果不用Maven,该怎么搭建环境,现在,我用Maven只能运行 Maven test。QQ上给您留言了...

2013/11/06 00:00

[问答] @自风 Spiderman爬虫遇到问题【抓取批量数据】

https://www.oschina.net/question/2309850_238222

<?xml version="1.0" encoding="UTF-8"?> <!-- | Spiderman Java开源垂直网络爬虫 | author: l.weiwei@163.com | blog: http://laiweiweihi.iteye.com | qq: 493781187 | time: 2...

2015/06/01 00:00
返回顶部
顶部