Spring Boot 项目框架 zhihu-spider

Apache-2.0
Java 查看源码»
跨平台
2017-09-08
夕阳残梦

项目背景

从一开始是想编写一个单纯的知乎爬虫,并实现其持久化,并由此展开周期性爬取知乎问题及答案以及其用户资料信息,完善前后端分离归档分类,信息检索等项目模块。但是在实现过程中,我逐渐发现自己对信息爬取的技能知识掌握严重不足,萌发了搭建知乎信息中转持久化的数据流平台,并提供HTML+JSON和RabbitMQ等消息接口,从而使有兴趣的伙伴开发并使用其熟悉的语言环境,实现信息爬取,从而持久化到此项目中来,完成最开始的开发目标。

项目的基础理论

1. 面向数据流的项目开发。将我需要什么数据,转换为我能提供什么功能让你帮我提供什么样的数据。实现从信息获取,信息持久,信息展示,信息检索的整体的数据流功能程序开发。

2. 面向接口的项目开发。采用HTML+JSON和RabbitMQ的消息接口,从而让异构系统可轻松调用,爬虫的客户端、服务器端、信息展示的前端可实现完美解耦,职责清晰,并行开发。

加载中

评论(0)

暂无评论

暂无资讯

暂无问答

Scrapy爬取知乎用户信息以及人际拓扑关系

Scrapy简单使用教程以及成功爬取知乎用户信息以及人际拓扑关系事例

2016/09/27 17:36
364
0
scrapy带参数爬网站

使用scrapy 带参数(关键词)爬取知乎,获得知乎检索关键词的前几个话题:名称、赞同数、作者、小尾巴、内容、评论数 .#################################################################...

2016/10/21 10:07
36
0
19个Python爬虫项目让你一次吃到撑

 爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。 WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一...

06/05 09:28
64
0
Python入门简单的静态网页爬虫3.0 (爬虫的示例代码)

作为入门爬虫的最后一篇,本文将分享示例代码的编写,在3以上环境中,IDE是eclipse或是aptana插件。

2016/05/01 19:35
772
1
常用的高效爬虫框架和项目

看了阿里云云栖社的一片文章,和其他地方的资料,然后对常用的爬虫框架和项目做了下整理。 常用Python爬虫框架简介 Scrapy # Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架...

11/26 11:17
33
0
Python爬虫:Scrapy框架的安装和基本使用

大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy。Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装。 Scrapy的安装 Scrapy的安装是很麻烦的,对于一些想使用S...

10/19 08:45
21
0
系统的学习python知识体系思维导图

我整理了一份非常适合在零基础情况下,自学python的一些知识点和一些可以实战的项目,并且整理了一份思维导图,在这里列一下python知识体系,希望对你有用: python基础: 安装python 交互式...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部