使用webmagic遇到的问题及解决办法

简单同学 发布于 2014/01/13 15:53
阅读 5K+
收藏 5

      感谢黄大写的垂直爬虫框架webmagic,简化了我的工作,少些了很多代码.这里对使用过程中遇到的问题,已经如何解决的,做一些汇总和梳理,希望能对别人有一定的帮助,若有错误,请指出,俺改正.

    编程环境:
                jdk1.6 + eclipse3.7 + webmagic4.0及以上

  1. 问:log4j的日志输出如何按天保存文件?
       答:使用log4j习惯了log4j.properties配置文件,却不知,黄大的webmaigc中使用的是 log4j.xml,导致我在log4j.properties上怎么修改,都始终输出到控制台. 而webmagic的log4j.xml又不能修改.

          其实再写一个log4j.xml就可以覆盖掉自带的配置文件了.关于log4j的配置文件具体内容,有人需要再上传吧,貌似大家都会唉.



     2.问:如何取消深度抓取,只抓取当前URL的信息
        答: OOSpider.create(Site.xxx).setSpawnUrl(false).


     3.问json格式的数据,如何解析.
        答:webmagic结合了fastjson.
            http://code.alibabatech.com/wiki/display/FastJSON/Tutorial  这里有相关的介绍. 用法还是很简单的,jsonpath需要自己写表达式,推荐使用fastjson.


     4.问:@Formatter("yyyy-MM-dd HH:mm")这个时间转换,不太理解.
        答:Formatter是做类型转换用的,比如这里你用Date releaseDate,
            然后上面填上"yyyy年MM月dd日",就会自动转换为Date类型,是指定格式的String转为Date.


     5.问:程序运行着突然就不再输出日志了,但程序并没有停止运行.何解?
        答:俺并没有弄清楚这个原因是什么,但是升级到4.1版本后就没有这个问题了.


      至今没弄明白的是redis分布式调度.


       还有遇到的其他问题,一时半会想不起来了......有一个mysql的问题,不知道该不该写在这里呀.写的略乱,发现问题再补充.


加载中
0
黄亿华
黄亿华

哈哈,多谢总结。

关于5这个,看看是不是因为版本低于4.0-4.1之间。4.2修复了一个超时导致卡死的bug。

简单同学
简单同学
最开始使用的时候是4.0版本,用着用着升级到4.1了,卡死之后又升级到4.2了.嘿嘿
0
恺哥
恺哥

不好意思,进错门了

这眼神儿,看成了weblogic

0
0
Ronrey
Ronrey

关于第二点,有一句话说

Whether add urls extracted to download.

Add urls to download when it is true, and just download seed urls when it is false.
DO NOT set it unless you know what it means!
0
Ronrey
Ronrey
webmagic 如何实现用 fastjson 解析数据?
0
高山流水君
高山流水君
webmagic模拟登陆的问题咋解决的
0
Java_常
Java_常

webmagic设置代理不好用:看百度经验http://jingyan.baidu.com/article/preview?eidEnc=cb5d6105e7bd93005d2fe060

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部