2
回答
beautifulsoup的一个灵异现象
【腾讯云】校园拼团福利,1核2G服务器10元/月!>>>   
>>> import BeautifulSoup, urllib2, re
>>> html = urllib2.urlopen('http://www.billboard.com/charts/hot-100?page=1').read()
>>> soup = BeautifulSoup.BeautifulSoup(html)

beautifulsoup页面

>>> print str(soup)
......页面全部源码......
>>> print str(soup.find("div"))
None
>>> print str(soup.find("a"))
None
>>> print str(soup.find("title"))
<title>The Hot 100 : Page 2  | Billboard</title>
为什么title这标签能抓出来,div,a这些标签全不能呢?好奇怪,差不多的方法去分析其它网页没问题的,soup里的页面源码也确实能找到div,a这些标签。

python2.7+beautifulsoup3.2.0

举报
neverno
发帖于5年前 2回/528阅
共有2个答案 最后回答: 5年前
>>> print str(soup.find("title"))
<title>The Hot 100 : Page 2  | Billboard</title>
>>> print str(soup.find("a"))
<a href="/" rel="home" title="Home">Billboard</a>
>>>
这是我得到的效果,应该是你用的版本太旧了,你试试bs4,没有问题

引用来自“Xsank”的答案

>>> print str(soup.find("title"))
<title>The Hot 100 : Page 2  | Billboard</title>
>>> print str(soup.find("a"))
<a href="/" rel="home" title="Home">Billboard</a>
>>>
这是我得到的效果,应该是你用的版本太旧了,你试试bs4,没有问题
我换了4,OK了,唉,折腾,之前3.2.1由于转义字符的问题,换到了3.2.0,没想到又出来这个。。。
--- 共有 2 条评论 ---
neverno回复 @Xsank : 谢谢~ 5年前 回复
Xsankpython的扩展库版本问题非常多,所以针对特定的需求用特定的库,最好不要换 5年前 回复
顶部