DrissionPage,即 driver 和 session 的合体,是一个基于 python 的 Web 自动化操作集成工具。
requests 爬虫面对要登录的网站时,要分析数据包、JS 源码,构造复杂的请求,往往还要应付验证码、JS 混淆、签名参数等反爬手段,门槛较高。若数据是由 JS 计算生成的,还须重现计算过程,体验不好,开发效率不高。使用 selenium,则可以很大程度上绕过这些坑,但 selenium 效率不高。
因此,这个库将 selenium 和 requests 合二为一,不同须要时切换相应模式,并提供一种人性化的使用方法,提高开发和运行效率。除了合并两者,本库还以网页为单位封装了常用功能,简化了 selenium 的操作和语句,在用于网页自动化操作时,减少考虑细节,专注功能实现,使用更方便。
DrissionPage v1.5.0 已经发布
此版本更新内容包括:
- s 模式使用 lxml 库代替 requests_html 库
- 可直接调用页面对象和元素对象获取下级元素,element('@id=ele_id') 等价于element.ele('@id=ele_id')
- nexts()、prevs() 方法可获取文本节点
- 可获取伪元素属性及文本
- 元素对象增加 link 和 inner_html 属性
- 各种优化
暂无更多评论