请帮忙看一下python的一个小练习,谢谢先。

众星烁 发布于 2014/07/22 12:16
阅读 195
收藏 0

1,我想写一个小爬虫作为练习Python,下面脚本就是在爬天涯论坛的一个网页.

我遇到的问题是:脚本中 html2=re.sub('\n','',html2) 最终结果为啥只有</html> 呢?我明明是只是去掉\n而已,为什么网页中其他内容也都消失不见了了呢?

url2='http://bbs.tianya.cn/list.jsp?item=no04&sub=8'
request2=urllib2.Request(url=url2)
response2=urllib2.urlopen(request2)
html2=response2.read()
html2=re.sub('\n','',html2)
print html2

-------------------下面是成功将\n去掉的例子------------------

url="http://hao.360.cn/so/index.html"
html=urllib2.urlopen(url).read()
html=re.sub('\n|\t','',html)
print html

加载中
0
svice
svice
我试了一下,可以去掉\n的啊,你read完之后print html2 看看呢
svice
svice
回复 @guxingshuo : NOTEPAD++
众星烁
众星烁
谢谢你的解答,经过我的坚定,应该是编译器的问题......我print html2 结果就是</html>,但是我尝试将sub后的结果写入到文件中,发现'\n'已经被去掉,感觉很奇怪,我用的编辑器是pycharm,请问你用什么编辑器?
0
雪梨苹果
雪梨苹果
试过没问题,就是卡。。。太多字节了。。
返回顶部
顶部