beautifulsoup的一个灵异现象

neverno 发布于 2013/03/02 20:49
阅读 535
收藏 0
>>> import BeautifulSoup, urllib2, re
>>> html = urllib2.urlopen('http://www.billboard.com/charts/hot-100?page=1').read()
>>> soup = BeautifulSoup.BeautifulSoup(html)

beautifulsoup页面

>>> print str(soup)
......页面全部源码......
>>> print str(soup.find("div"))
None
>>> print str(soup.find("a"))
None
>>> print str(soup.find("title"))
<title>The Hot 100 : Page 2  | Billboard</title>
为什么title这标签能抓出来,div,a这些标签全不能呢?好奇怪,差不多的方法去分析其它网页没问题的,soup里的页面源码也确实能找到div,a这些标签。

python2.7+beautifulsoup3.2.0

加载中
0
Xsank
Xsank
>>> print str(soup.find("title"))
<title>The Hot 100 : Page 2  | Billboard</title>
>>> print str(soup.find("a"))
<a href="/" rel="home" title="Home">Billboard</a>
>>>
这是我得到的效果,应该是你用的版本太旧了,你试试bs4,没有问题
0
neverno
neverno

引用来自“Xsank”的答案

>>> print str(soup.find("title"))
<title>The Hot 100 : Page 2  | Billboard</title>
>>> print str(soup.find("a"))
<a href="/" rel="home" title="Home">Billboard</a>
>>>
这是我得到的效果,应该是你用的版本太旧了,你试试bs4,没有问题
我换了4,OK了,唉,折腾,之前3.2.1由于转义字符的问题,换到了3.2.0,没想到又出来这个。。。
neverno
neverno
回复 @Xsank : 谢谢~
Xsank
Xsank
python的扩展库版本问题非常多,所以针对特定的需求用特定的库,最好不要换
返回顶部
顶部