SeimiCrawler v1.1.0发布,Java爬虫框架 - 开源中国社区
SeimiCrawler v1.1.0发布,Java爬虫框架
无极小子 2016年07月07日

SeimiCrawler v1.1.0发布,Java爬虫框架

无极小子 无极小子 发布于2016年07月07日 收藏 58 评论 3

有免费的MySQL,为什么还要买? >>>  

变更日志

v1.1.0

  • 可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求

  • SemiQueue实现按需加载

  • 修复抓取文件类型数据返回时尝试匹配meta refresh时产生的问题

v1.0.0

  • http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apache httpclient

  • 部分代码优化

  • 支持通过seimiAgent获取页面快照(png/pdf)

  • 升级JsoupXpath版本至v0.3.1

简介

SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

更多文档

目前可以参考demo工程中的样例,基本包含了主要的特性用法。更为细致的文档移步SeimiCrawler主页中进一步查看



本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:SeimiCrawler v1.1.0发布,Java爬虫框架
分享
评论(3)
最新评论
0

引用来自“廖汉斌”的评论

666
回复 廖汉斌:你
0
学习一下
0
666
顶部