当前访客身份:游客 [ 登录 | 加入 OSCHINA ]

代码分享

当前位置:
代码分享 » Python  » 编程基础
hcqenjoy

百度贴吧小爬虫.v0.1

hcqenjoy 发布于 2010年12月18日 20时, 5评/4264阅
分享到: 
收藏 +0
1
<无详细内容>
标签: 百度 贴吧 爬虫

代码片段(1) [全屏查看所有代码]

1. [代码][Python]代码     跳至 [1] [全屏预览]

Python语言: 百度贴吧小爬虫.v0.1
#coding:utf-8

#---------------------------------------
# 百度贴吧小爬虫
# 版本 : 0.1
# Create By : jfxwc
# Create Day: 2008-05-10
# 编程语言 : Python 2.5
#---------------------------------------
# 简介 : 偶尔看百度贴吧,想保存下来慢慢看,于是有了这个小软件
#        输入带分页的地址,去掉最后面的数字,设置一下起、末贴数即可下载。
#---------------------------------------

import string, urllib

#定义 bd(百度)函数
def bd(url,PostBegin,PostEnd):    
    for i in range(PostBegin, PostEnd ,50):
        sName = string.zfill(i,6) + '.html'
        print 'working..... ' + sName
        f = open( string.zfill(sName,6),'w+')
        m = urllib.urlopen(url + str(i)).read()
        f.write(m)
        f.close()


#-------- 在这里输入参数  ------------------
# 这个是《青囊尸衣》百度贴吧的地址。
bdurl = 'http://tieba.baidu.com/f?z=360426363&ct=335544320&lm=0&sc=0&rn=50&tn=baiduPostBrowser&word=%C7%E0%C4%D2%CA%AC%D2%C2&pn='
iPostBegin = 1150
iPostEnd = 1200
#-------- 在这里输入参数  ------------------


#调用
bd(bdurl,iPostBegin,iPostEnd)



开源中国-程序员在线工具:Git代码托管 API文档大全(120+) JS在线编辑演示 二维码 更多»

发表评论 回到顶部 网友评论(5)

  • 1楼:L11758207 发表于 2010-12-21 18:15 回复此评论
    多谢,试了一下还不错。
  • 2楼:L11758207 发表于 2010-12-21 18:28 回复此评论

    #coding:utf-8
    #---------------------------------------
    # 百度贴吧小爬虫
    # 版本 : 0.1
    # Create By : jfxwc
    # Create Day: 2008-05-10
    # 编程语言 : Python 2.5
    #---------------------------------------
    # 简介 : 偶尔看百度贴吧,想保存下来慢慢看,于是有了这个小软件
    #        输入带分页的地址,去掉最后面的数字,设置一下起、末贴数即可下载。
    #---------------------------------------

    import string, urllib

    #定义 bd(百度)函数
    def bd(url,PostBegin,PostEnd):   
        for i in range(PostBegin, PostEnd ,1):
            #sName = str(i+1) + '.html'
            sName = 'dat/' + string.zfill(i+1,6) + '.html'
            print 'working..... ' + sName
            f = open( string.zfill(sName,6),'w+')
            m = urllib.urlopen(url + r'&pn=' + str(i*50)).read()
            f.write(m)
            f.close()


    #-------- 在这里输入参数  ------------------
    bdurl = 'http://tieba.baidu.com/f?kw=it&pn='
    iPostBegin = 0
    iPostEnd = 20
    #-------- 在这里输入参数  ------------------


    #调用
    bd(bdurl,iPostBegin,iPostEnd)

  • 3楼:王鹏居然有人叫了 发表于 2011-04-26 17:15 回复此评论
    怎么都是片断啊?
  • 4楼:kiwipi 发表于 2011-12-19 10:20 回复此评论
    下载的内容是不是都是第一页的?
  • 5楼:kiwipi 发表于 2011-12-19 10:28 回复此评论
    后面的网页内容都与第一个网页的相同,难道是因为下载后面的需要验证码?
开源从代码分享开始 分享代码
hcqenjoy的其它代码 全部(340)...