python 网页爬虫固定URL

leiline 发布于 2014/09/23 19:55
阅读 1K+
收藏 1

最近在做一个小程序,用python 抓取网页中的一些文本:

需要抓取新浪网红线内链接里的文本内容,本人实在太菜,

写了3个晚上也没写出来,请给与一些指点,谢谢。

加载中
0
francis-x
francis-x
$('#xy-impcon-B ul')
0
Feng_Yu
Feng_Yu

随手在ipython下敲一段,前面的代码都随手敲,一大半的history在调试xpath

EDIT: 再补充一下。


这个页面上你要提取的元素都在html源码中,处理一下编码问题然后解析html即可。我个人喜欢xpath语法,也有人喜欢htmlparser这种比较易读的语法,而选用beautiful soup。xpath简洁直观,可以选取到各种你想要的节点,往往一行xpath路径就可以解决。而且linux下也有xmllint,xpath这样的工具可以辅助调试xpath,很方便,chrome/firefox的开发者工具也支持在页面元素中直接复制xpath路径。

一个很不错的xpath教程,参考: http://my.oschina.net/abcfy2/blog/306383

leiline
leiline
谢谢你
0
Xinxinghe
Xinxinghe

楼上几位大哥大姐,我最近安装的Python,是Python3.4.1版本,里面有个html模块,提示没有fromstring属性。在pypi中下载了html模块但安装报错,下载了lxml安装也报错。这个怎么解决?

请问你们用的版本是什么呢

Feng_Yu
Feng_Yu
from lxml import html
0
孤单时会想你
孤单时会想你

xpath? 有个超简单的方法。。使用火狐浏览器 firebug。。找到想要的元素审查元素-- 点击鼠标右键----复制Xpath。

偷懒。。就别看什么教程了。。。直接复制粘贴吧

Feng_Yu
Feng_Yu
xpath的教程还是需要看的。浏览器页面元素复制出来的xpath十之八九无法直接使用,哪个是整个页面渲染完毕时的xpath,对于爬虫访问到的html源码来说,部分元素可能就不一样,需要调整。有些元素可能是js绘制完毕的,所以仅仅偷懒复制xpath不能解决问题。另外,chrome复制出来的xpath和firefox还不一样,不过都需要调整
0
dadfadswe
dadfadswe

使用BeautifulSoup方便得多,几行就搞定了。

0
雁秋
雁秋
@alleni, 你这个是什么IDE的啊,很漂亮的啊,介绍一下的咯.
Lyle_W
Lyle_W
看起来是eclipse
返回顶部
顶部