INFO-SPIDER 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
INFO-SPIDER 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
INFO-SPIDER 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
INFO-SPIDER 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
INFO-SPIDER 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 GPL
开发语言 Python HTML/CSS
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 国产
投 递 者 kangvcar
适用人群 未知
收录时间 2020-08-31

软件简介

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

Features

  • 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。
  • 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。
  • 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下
  • 数据源丰富:本项目目前支持多达24+个数据源,持续更新。
  • 数据格式统一:爬取的所有数据都将存储为json格式。
  • 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。
  • 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。
  • 文档丰富:本项目包含完整全面的使用说明文档视频教程
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (4)

加载中
github 地址贴一下
01/04 14:38
回复
举报
打分: 推荐
项目合作,请回复私信
01/04 14:21
回复
举报
有事相求,能回下私信
2020/10/25 16:28
回复
举报
kangvcar软件作者
嗯哼?
2020/11/01 09:22
回复
举报
更多评论
暂无内容
发表了博客
2020/08/22 11:17

INFO-SPIDER —— 集众多数据源于一身的爬虫工具箱

### 场景一 小明一如往常打开 Chrome 浏览器逛着论坛,贴吧,一不小心点开了网页上的广告,跳转到了京东商城,下意识去关闭窗口时发现 (**OS:咦?京东怎么知道我最近心心念念的宝贝呢?刚好我正需要呢!**),既然打开了那就看看商品详情吧 (**OS:哎哟不错哦**),那就下单试试吧! ### 场景二 小白听着网易云音乐的每日推荐歌单无法自拔 (**OS:哇!怎么播放列表里都是我喜欢的音乐风格?网易云音乐太棒了吧!深得我心啊!...

2
2
发表了博客
2019/01/29 16:26

spider_keeper

      一 简介   spider_keeper 是一款开源的spider管理工具,可以方便的进行爬虫的启动,暂停,定时,同时可以查看分布式情况下所有爬虫日志,查看爬虫执行情况等功能。 二 安装 部署 安装环境 ubuntu16.04 python3.5 pip3 install scrapy pip3 install scrapyd pip3 install scrapyd-client pip3 install scrapy-redis pip3 install SpiderKeeper   部署: # 注意不要覆盖SpiderKeeper.db rsync -avz spider_...

0
0
发表了博客
2016/03/10 10:40

spider 介绍

Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数...

0
0
发表了博客
2019/05/12 17:35

Spider_selenium

json模块 什么是json? javascript中的对象和数组 对象:{key:value}取值:对象名.key 数组:[...,...]取值:数组[索引值] 作用 json格式的字符串和Python数据类型之间的转换 常用方法 json.loads():json格式 --> Python数据类型 json python 对象 字典 数组 列表 json.dumps() : Python数据类型 --> json格式 python json 字典 对象 列表 数组 元组 数组 json.dumps()默认使用ascii编码 添加参数ensure_ascii=False,禁用ascii编...

0
0
发表了博客
2013/01/26 21:09

Info Bar

用于当后台有任务运行时,或者用户进行了某些耗时较长的操作时,用于给用户显示提示信息。显示的提示信息位置位于tab bar的上方,自动显示,并且自动隐藏。提示信息的显示是异步的,也就是不会导致程序停滞。在效果图中,“Action From View 1”便是显示的提示信息,可以自动隐藏。 Code4App编译测试,测试环境:Xcode 4.3, iOS 5.0。 转载:http://www.adobex.com/ios/source/details/00000208.htm...

0
0
发表于服务端专区
2016/09/21 15:12

spider代码理解

搜狗微信公众号基本信息爬虫 项目启动入口: package com.jiou; import com.jiou.support.SpringContextUtils; public class Bootstrap {   public static void main(String[] args) throws Exception {     SpringContextUtils.load("classpath*:/spring/context.xml");   } } 加载spring配置文件 : 初始化类和启动定时任务 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/bea...

0
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
4 评论
103 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部