Python 爬虫程序 PySpider

Apache
Python
跨平台
2015-01-18
滔哥

PySipder 是一个 Python 爬虫程序

演示地址:http://demo.pyspider.org/

  • 使用 Python 编写脚本,提供强大的 API

  • Python 2&3

  • 强大的 WebUI 和脚本编辑器、任务监控和项目管理和结果查看

  • 支持 JavaScript 页面

  • 后端系统支持:MySQL, MongoDB, SQLite, Postgresql

  • 支持任务优先级、重试、定期抓取等

  • 分布式架构

示例代码:

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

Demo

加载中

评论(4)

一枚假程序猿
一枚假程序猿
windows下报错: Traceback (most recent call last): File "c:\users\wangqian\appdata\local\programs\python\python37\lib\runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "c:\users\wangqian\appdata\local\programs\python\python37\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "C:\Users\WangQian\AppData\Local\Programs\Python\Python37\Scripts\pyspider.exe\__main__.py", line 5, in File "c:\users\wangqian\appdata\local\programs\python\python37\lib\site-packages\pyspider\run.py", line 231 async=True, get_object=False, no_input=False): ^ SyntaxError: invalid syntax
数据抓取
数据抓取
寻找一个小团队做新闻客户端数据抓取,感兴趣可微信联系zx_wander
log4geek
log4geek
好东西,用法见 菜鸟学Python爬虫系列之十使用PySpider框架 http://log4geek.cc/2017/03/%e8%8f%9c%e9%b8%9f%e5%ad%a6%e7%88%ac%e8%99%ab%e7%b3%bb%e5%88%97%e4%b9%8b%e5%8d%81%e4%bd%bf%e7%94%a8pyspider%e6%a1%86%e6%9e%b6/
manxisuo
manxisuo
正文第一句第一个单词拼写错误 #PySpider#

暂无资讯

1
回答
pyspider 的设置问题

怎么设置才能使用 pgsql?

2016/01/18 12:46
1
回答
pyspider抓取网页显示乱码?

环境:windows 7 64 python: 2.7.2 32bit 一些插件的版本 lxml 3.6.0 pycurl-7.19.0.3.win32-...

2016/08/25 10:00
6
回答
怎么安装部署啊,安装过程遇到了问题

unable to find vcvarsall.bat这个怎么解决啊

2015/10/16 15:09
3
回答
pyspider爬虫

@万里谁能驯 你好,想跟你请教个问题:pyspider在爬取网页的时候每次重启都继续上一次的接着爬,怎么设置让它重新开始?,谢谢!

2015/11/03 10:28
1
回答
OS X安装pyspider遇到问题

新手一个,学完python,想玩儿爬虫,可安装pyspider的时候报错不知道怎么回事,于是来请教大牛,截图如下:(另外我是从命令行输入 pip inst...

2015/08/07 13:44

没有更多内容

加载失败,请刷新页面

没有更多内容

PySpider 使用过程中的问题记录

问题记录 PyCurl的问题 安装时出现: Command python setup.py egg_info failed with error code 1 in /tmp/pip-build-vqUn8V/pycurl ImportError: pycurl: libcurl link-time ssl backend (...

10/10 16:32
6
0
PySpider 快速上手

因为工作原因,最近一段时间都在做项目的数据建设工作,涉及到使用Pyspider进行数据的爬取及入库,所以此处系统的整理一下; pyspider简介 一个国人编写的强大的网络爬虫系统并带有强大的Web...

2018/11/29 20:24
316
0
pyspider 运行在python3.6时的问题

pyspider安装时一切顺利,但是在运行时发现webui启动不了(即看不到网页控制台) 单独安装webui (pip install webui)时安装了一堆东西 安装完成后再运行 pyspider webui时发现错误:No mo...

2018/04/27 05:16
105
0
pyspider启动错误解决(Python 3.7)

问题一 安装好pyspider之后,在启动的时候,报出上图错误。 原因 async和await从 python3.7 开始已经加入保留关键字中. 参考: What’s New In Python 3.7, 所以async不能作为函数的参数名. 解...

07/29 09:56
43
0
分享我的妹子图站技术方案

MM驿站 - 艺术与美的境界 https://www.mmyizhan.com 网站 web展示采用wordpress,目的是为了尽快上线,也想过自己写,不过实在是不想写CRUD了。 大家对wp的印象通常是臃肿,优化一下其实也很...

09/23 23:15
7
0
高效率爬虫框架之pyspider

![image](http://upload-images.jianshu.io/upload_images/4034742-e5b8a136d485890f?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 为什么要使用爬虫框架 在我们平常的爬虫使用过程...

2018/07/07 07:12
164
0
centos7.2(1511版本)上安装pyspider

centos7.2(1511版本)上安装pyspider censtos是服务器常用的操作系统,本例以centos7.2最小化版安装为例安装 yum 更新 yum update 安装wget命令 yum install wget 首页安装扩展源 yum -y ins...

2018/09/13 17:34
131
0
pyspider + RabbitMQ 使用记 - 上

pyspider 是一款爬虫神器,神奇之处在于其开发的效率之高;RabbitMQ 则为一个消息队列框架,可以利用它来实现异步。

2015/08/04 17:58
1K
2
Python爬虫:常用爬虫框架介绍

框架概述 其中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,...

2018/07/01 21:21
69
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部