Python 的 HTML/XML 解析库 PyQuery

BSD
Python
跨平台
2012-11-12
红薯

PyQuery 让你使用 jQuery 的风格来遍历 XML 文档,它使用了 lxml 来处理 XML 乃至 HTML 文档。

你可以直接从字符串、URL或者文件中加载文档:

>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> import urllib
>>> d = pq("<html></html>")
>>> d = pq(etree.fromstring("<html></html>"))
>>> d = pq(url='http://google.com/')
>>> # d = pq(url='http://google.com/', opener=lambda url: urllib.urlopen(url).read())
>>> d = pq(filename=path_to_html_file)

然后使用 $ 进行遍历:

>>> d("#hello")
[<p#hello.hello>]
>>> p = d("#hello")
>>> print(p.html())
Hello world !
>>> p.html("you know <a href='http://python.org/'>Python</a> rocks")
[<p#hello.hello>]
>>> print(p.html())
you know <a href="http://python.org/">Python</a> rocks
>>> print(p.text())
you know Python rocks
加载中

评论(7)

一切随缘
很好用,装比较蛋疼
我叫李冠男
我叫李冠男
其实挺好用的,只是中文问题能玩儿死人!
Fover
Fover
win下可以使用anaconda 然后在anaconda提供的终端中输入 anaconda install 来安装
龙上
龙上
python什么都好,就是各种依赖各种折腾
x
xshrim
很好用一直用这个,比bs顺手多了。ps:是win上安装折腾的就是lxml装不上吧,可以去下载对应版本的lxml的whl包手动装上就没问题了。
很好亦平凡ms
很好亦平凡ms
6
进击的代码
进击的代码
win下面安装这货真是各种折腾……

暂无资讯

1
回答
pyquery怎么获取没有被标签包含的文字节点?

# -*- coding=utf8 -*- import sys from pyquery import PyQuery as pq style = ...

2018/07/03 12:06
8
回答
java 有没有 类似于 pyquery这样的库

java 有没有 类似于 pyquery这样的库 找了好半天没找到!

2014/12/05 21:23
42
回答
Python 开发者应该知道的 7 个开发库

本文由 OSChina 译自 7 Python Libraries you should know about 在我多年的 Python 编程经历以及在 ...

2012/11/12 21:55
7
回答
Pyqery的安装问题

@红薯 你好,想跟你请教个问题: 介绍了Pyqery,能否给个详细完整的安装过程,网上其它文章太过简略,省却关键出错的地方 并不是easy_install...

2012/12/03 22:25

没有更多内容

加载失败,请刷新页面

没有更多内容

网络爬虫06: PyQuery库详解

PyQuery 1.什么是PyQuery库 强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择 2.安装 pip3...

2018/09/07 19:21
16
0
【零基础学爬虫】PyQuery详解

回顾 之前介绍了Beautifulsoup库,这个库可以让我们不写繁杂的正则表达式就可以爬取数据。但是你可能会觉得Beautifulsoup库不太好用,语法太繁杂,难记。今天介绍一个灵活又强大的网页解析库...

04/23 10:57
0
0
【零基础学爬虫】PyQuery详解

回顾 之前介绍了Beautifulsoup库,这个库可以让我们不写繁杂的正则表达式就可以爬取数据。但是你可能会觉得Beautifulsoup库不太好用,语法太繁杂,难记。今天介绍一个灵活又强大的网页解析库...

04/23 11:00
0
0
Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看c...

2018/06/27 16:08
14
0
抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法

import requests import re import json import time from bs4 import BeautifulSoup from pyquery import PyQuery as pq from lxml import etree # 获取页面源码 def get_one_page(url): t...

04/06 13:55
0
0
最新县及县以上行政区划代码

通过python爬虫爬取数据,并生成sql脚本

2017/04/16 10:29
3
0
HTML 解析库

pyquery 使用 参考 from pyquery import PyQuery as pq from lxml import etree #四种创建对象的方法 doc1 =pq(etree.fromstring('<div> <tr class="item-0"> <td>first section</td> <td>11...

2017/11/06 23:59
1
0
【零基础学爬虫】爬虫库

爬虫库 urllib re requests :pip install requests selenium:自动化测试,js渲染的网页,这是使用requests无法请求,需要selenium;需要下载chromdriver,移动到配置好的环境变量路径中:这...

04/23 10:56
0
0
【零基础学爬虫】爬虫库

爬虫库 urllib re requests :pip install requests selenium:自动化测试,js渲染的网页,这是使用requests无法请求,需要selenium;需要下载chromdriver,移动到配置好的环境变量路径中:这...

04/23 11:00
0
0
Python开发者应该知道的7个开发库

《Python开发者应该知道的7个开发库》一文向大家推荐了PyQuery、dateutil、fuzzywuzzy、watchdog、sh、pattern、path.py 7种实用便捷的Python开发包。恰到好处的运用它们,可以巧妙地帮助开发...

2013/04/02 12:19
59
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部