Python 的 HTML 解析库 Requests-HTML

Python 的 HTML 解析库 Requests-HTML

MIT
跨平台
2018-03-25
局长

Requests-HTML 对 Requests 进行了封装,添加了解析 HTML 的接口,是一个 Python 的 HTML 解析库。

我们知道 requests 只负责网络请求,不会对响应结果进行解析,因此可以把 requests-html 理解为可以解析 HTML 文档的 requsts 库。requests-html 的代码量非常少,都是基于现有的框架进行二次封装,开发者使用时可更方便调用。它依赖于 PyQueryrequestslxml 等库。

requests-html 具有以下特性

  • 完全支持 JavaScript

  • CSS 选择器

  • XPath 选择器

  • 模拟用户代理(如同真正的网络浏览器)

  • 自动跟踪重定向

  • 连接池和 cookie 持久化

安装

pip install requests-html

使用方法

>>> from requests_html import session

# 返回一个Response对象
>>> r = session.get('https://python.org/')

# 获取所有链接
>>> r.html.links
{'/users/membership/', '/about/gettingstarted/'}

# 使用css选择器的方式获取某个元素
>>> about = r.html.find('#about')[0]

>>> print(about.text)
About
Applications
Quotes
Getting Started
Help
Python Brochure

还有一个非常吸引人的特点是,它能将 HTML 转换为 Markdown 文本

# 将html转换为Markdown文本
>>> print(about.markdown)

* [About](/about/)

  * [Applications](/about/apps/)
  * [Quotes](/about/quotes/)
  * [Getting Started](/about/gettingstarted/)
  * [Help](/about/help/)
  * [Python Brochure](http://brochure.getpython.info/)
的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

pyhton爬虫基础学习-requests库

##导语: > requests是python爬虫的最为常用的方式之一,requests实现http请求非常简单,但是requests库是第三方库需要进行安装,可以通过pip3下载:pip3 install requests [requests中文文档...

2018/06/20 11:55
8
0
requests+lxml爬虫利器

requests 1.requests是一个强大的Python第三方Http库,基于httplib和urllib3,接口清晰易用,功能十分强大。 ###1. 安装 pip install requests或者easy_install requests ###2. 基本使用 在i...

2016/10/04 18:57
219
0
爬虫学习笔记

PI:\> 开个新贴把,学过的在这里记录下。方便查找。 10月31日: python3网络爬虫一《使用urllib.request发送请求》 知识点1: http://httpbin.org 一个不错的网站可以用来测试 知识点2: 文中...

2017/10/31 21:25
18
0
Ubuntu Server系列各项服务的安装和维护 Apache压力测试

APACHE自带了压力测试工具,APACHE BENCHMARKING (ab),主要用来测试APACHE每秒钟能够处理的请求的数量。 使用方法: ab –n 20000 –c 200 http://localhost 上述命令向localhost主机发送访...

2011/04/09 12:28
239
0
linux下负载测试工具ab

格式: ./ab [options] [http://]hostname[:port]/path 参数: -n requests Number of requests to perform //在测试会话中所执行的请求个数。默认时,仅执行一个请求 -c concurrency Numbe...

2013/03/01 00:00
205
0
python 爬虫 cookie 的保存和加载

### 相关库 Cookie (py2) 等于 http.cookie (py3) cookielib (py2) 等于 http.cookiejar (py3) ### python3 处理 cookie - 保存到变量 ``` import http.cookiejar, urllib.request cj = htt...

2016/04/19 00:05
2.5K
1
使用ab进行页面的压力测试

使用ab进行页面的压力测试 http://www.cnblogs.com/yjf512/archive/2011/05/24/2055723.html ab是apache自带的一个很好用的压力测试工具,当安装完apache的时候,就可以在bin下面找到ab 1 我...

2015/10/26 16:04
81
0
Apache ab参数--压力测试

ab网站压力测试命令 格式: ./ab [options] [http://]hostname[:port]/path -n 测试会话中所执行的请求个数,默认时,仅执行一个请求 -c 一次产生的请求个数。默认是一次一个 -t 测试所进行的...

2017/07/14 17:58
8
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部