授权协议: MIT
操作系统: 跨平台
收录时间: 2018-03-25
提 交 者: 局长

Requests-HTML 对 Requests 进行了封装,添加了解析 HTML 的接口,是一个 Python 的 HTML 解析库。

我们知道 requests 只负责网络请求,不会对响应结果进行解析,因此可以把 requests-html 理解为可以解析 HTML 文档的 requsts 库。requests-html 的代码量非常少,都是基于现有的框架进行二次封装,开发者使用时可更方便调用。它依赖于 PyQueryrequestslxml 等库。

requests-html 具有以下特性

  • 完全支持 JavaScript

  • CSS 选择器

  • XPath 选择器

  • 模拟用户代理(如同真正的网络浏览器)

  • 自动跟踪重定向

  • 连接池和 cookie 持久化

安装

pip install requests-html

使用方法

>>> from requests_html import session

# 返回一个Response对象
>>> r = session.get('https://python.org/')

# 获取所有链接
>>> r.html.links
{'/users/membership/', '/about/gettingstarted/'}

# 使用css选择器的方式获取某个元素
>>> about = r.html.find('#about')[0]

>>> print(about.text)
About
Applications
Quotes
Getting Started
Help
Python Brochure

还有一个非常吸引人的特点是,它能将 HTML 转换为 Markdown 文本

# 将html转换为Markdown文本
>>> print(about.markdown)

* [About](/about/)

  * [Applications](/about/apps/)
  * [Quotes](/about/quotes/)
  * [Getting Started](/about/gettingstarted/)
  * [Help](/about/help/)
  * [Python Brochure](http://brochure.getpython.info/)
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

Requests-HTML 的相关资讯

还没有任何资讯

Requests-HTML 的相关博客

requests-html模块(下)

render方法 我们先理一下关系requests和的作者是同一个人,pyppeteer是nodejs中puppeteer的非官方实现 requests-html调用的p...

requests_html使用asyncio

import asyncio import functools from concurrent.futures.thread import ThreadPoolExecutor from requests_html import HT...

最新的爬虫工具requests-html

使用Python开发的同学一定听说过Requsts库,它是一个用于发送HTTP请求的测试。如比我们用Python做基于HTTP协议的接口测试,那...

requests_html Chromium下载解决办法

requests_html内建提供了一个比较好用的render()方法, 但实现这个方法需要依赖Chromium,直接写好代码然后运行,如果没有科*...

Requests-html解析库的使用

[TOC] Requests-html解析库的使用 常见的解析库:re正则,bs4,pyppeteer(驱动浏览器内核),lxml 安装:pip install requests...

requests-html库render的使用

一.render的使用 from requests_html import HTMLSession session =HTMLSession() response = session.get('https://www....

requests-html库render方法的使用

一.render的使用 from requests_html import HTMLSession session =HTMLSession() response = session.get('https://www....

5.Python使用最新爬虫工具requests-html

1.安装,在命令行输入:pip install requests-html,安装成功后,在Pycharm引入即可。 2.代码如下所示: from requests_html...

爬虫最新的库requests-html库总结

requests-html是比较新的爬虫库,作者和requests是同一个作者 一.安装依赖 pip install requests-html 我们可以在安装的时候看...

requests_html和pyquery的结合使用

from pyquery import PyQuery from requests_html import HTMLSession import json import logging from concurrent.futures ...

Requests-HTML 的相关问答

还没有任何问答,马上提问

评论 (0)

加载中
更多评论
0 评论
57 收藏
分享
在线直播报名
返回顶部
顶部