PySpider 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
PySpider 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
PySpider 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 不详
投 递 者 滔哥
适用人群 未知
收录时间 2015-01-18

软件简介

PySipder 是一个 Python 爬虫程序

演示地址:http://demo.pyspider.org/

  • 使用 Python 编写脚本,提供强大的 API

  • Python 2&3

  • 强大的 WebUI 和脚本编辑器、任务监控和项目管理和结果查看

  • 支持 JavaScript 页面

  • 后端系统支持:MySQL, MongoDB, SQLite, Postgresql

  • 支持任务优先级、重试、定期抓取等

  • 分布式架构

示例代码:

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

Demo

展开阅读全文

代码

评论 (6)

加载中
从入门到入狱
2020/07/30 13:43
回复
举报
windows下报错: Traceback (most recent call last): File "c:\users\wangqian\appdata\local\programs\python\python37\lib\runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "c:\users\wangqian\appdata\local\programs\python\python37\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "C:\Users\WangQian\AppData\Local\Programs\Python\Python37\Scripts\pyspider.exe\__main__.py", line 5, in File "c:\users\wangqian\appdata\local\programs\python\python37\lib\site-packages\pyspider\run.py", line 231 async=True, get_object=False, no_input=False): ^ SyntaxError: invalid syntax
2019/02/26 19:22
回复
举报
该评论暂时无法显示,详情咨询 QQ 群:912889742
还有需要数据采集服务吗
2020/07/30 13:42
回复
举报
打分: 力荐
好东西,用法见 菜鸟学Python爬虫系列之十使用PySpider框架 http://log4geek.cc/2017/03/%e8%8f%9c%e9%b8%9f%e5%ad%a6%e7%88%ac%e8%99%ab%e7%b3%bb%e5%88%97%e4%b9%8b%e5%8d%81%e4%bd%bf%e7%94%a8pyspider%e6%a1%86%e6%9e%b6/
2017/03/17 15:07
回复
举报
正文第一句第一个单词拼写错误 #PySpider#
2015/08/31 12:40
回复
举报
更多评论
暂无内容
发表了博客
2019/05/13 21:44

python3.7与pyspider的坑

网络上安装pyspider的坑有很多,但都不如我今天的大,困扰了我几天,终于解决了 Traceback (most recent call last): File "/ffk_learn/software/Python-3.7.0/ffk_py/bin/pyspider", line 7, in <module> from pyspider.run import main File "/ffk_learn/software/Python-3.7.0/ffk_py/lib/python3.7/site-packages/pyspider/run.py", line 231 async=True, get_object=False, no_input=False): ^ ...

0
0
2019/01/14 23:02

Python3.7安装pyspider

pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便。 准备工作 pyspider是支持JavaScript渲染的,而这个过程是依赖于PhantomJS的,所以还需要安装PhantomJS。 PhantomJS的安装 PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎,它原生支持多种Web标准...

0
0
发表了博客
2019/04/11 10:13

pyspider 初次使用

一 安装 pip install pyspider 请安装PhantomJS:http://phantomjs.org/build.html 二 检验是否启动成功 cmd中输入: pyspider 安装问题解决 python版本:3.6 1、启动报错     raise ValueError("Invalid configuration:\n  - " + "\n  - ".join(errors)) ValueError: Invalid configuration:   - Deprecated option 'domaincontroller': use 'http_authenticator.domain_control ler' instead. 解决方法: ...

0
0
发表于AI & 大数据专区
2018/04/22 16:23

PySpider流程

main()-->cli()-->all() threads.append(run_in(ctx.invoke, **_phantomjs_**, **phantomjs_config)) threads.append(run_in(ctx.invoke, **_result_worker_**, **result_worker_config)) threads.append(run_in(ctx.invoke, _**processor**_, **processor_config)) threads.append(run_in(ctx.invoke, **_fetcher_**, **fetcher_config)) threads.append(run_in(ctx.invoke, **_scheduler_**, **scheduler_config)) ctx.invoke...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2016/01/18 12:46

pyspider 的设置问题

怎么设置才能使用 pgsql?

1
0
发表了问答
2016/08/25 10:00

pyspider抓取网页显示乱码?

环境:windows 7 64 python: 2.7.2 32bit 一些插件的版本 lxml 3.6.0 pycurl-7.19.0.3.win32-py2.7.exe pyspider 0.3.8 使用localhost:5000 测试一段代码显示成乱码,求解! python组件截图:

1
0
发表了问答
2015/10/16 15:09

怎么安装部署啊,安装过程遇到了问题

unable to find vcvarsall.bat这个怎么解决啊

9
0
发表了问答
2015/11/03 10:28

pyspider爬虫

@万里谁能驯 你好,想跟你请教个问题:pyspider在爬取网页的时候每次重启都继续上一次的接着爬,怎么设置让它重新开始?,谢谢!

3
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
6 评论
508 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部