6
回答
一个因为雾霾而诞生的开源爬虫

    都在说,成都,一座来了就不想离开的城市。很早之前张艺谋还拍了一部宣传片(有兴趣的小伙伴可以去看看http://www.iqiyi.com/w_19rqygvn1p.html),然后雾霾来也,也不想走了,成都环保局反应也很快,三天一个黄色预警,五天一个橙色预警,限行也打乱了,今天鸳鸯锅,明天红锅,搞得民不聊生。

    于是我和我的小伙伴就合计着是不是要搞一个微信小程序来,推送一下限行,和污染预警信息。

    说干就干,像这种利国利民的事情肯定义不容辞涩,于是首要任务就是要采集成都环保官网的数据,而且要定时采集。然后产品小伙伴就给我提要求了,动作要快姿势要帅。我也瞬间get到了要点,动作快=用最好用的爬虫框架和效率高开发语言涩;姿势帅=抓取规则肯定不能写死涩。

    本着以上原则,身为javaer的我当时就想起了java爬虫界的教科书webmagic了,至于开发语言,spark程序写得爽歪歪的我肯定要上jvm上的c++ scala涩。(ps:说了这么多,还不是为了装逼)然后搞了一个基于xml配置化的爬虫小程序,用起来感觉还可以,主要是配置简单,支持corn任务调度,支持深度抓取,支持爬虫监控。程序虽小,但还是五脏俱全,功能够用。搞一些小程序,小网站啥的特别的适合。对爬虫,和scala有兴趣的小伙伴可以关注要下哈。码云地址:https://gitee.com/luosl/webmagicx

    最后,经过1个多周的奋战小程序终于上线了,成都的小伙伴可以关注一下哦(微信小程序搜索:成都尾号限行)。

 

<无标签>
举报
sameLuo
发帖于9个月前 6回/3K+阅
顶部