基于 Node 实现的爬虫 Node-cnblogs-spider

GPL
JavaScript HTML/CSS
跨平台
2018-02-18
qize

Build Status GitHub license PRs Welcome 

NPM

spider_cnblogs

spider_cnblogs 是专门爬取博客园的文章并自动将文章转成 .md 存储至本地的爬虫。

安装

npm install node-cnblogs-spider --save

使用

var ncs = require('node-cnblogs-spider')
ncs([
    http://xxxx, 
    http://xxxx 
])

示例

image

依赖

to-markdown 将htmlmd

cheerio 类似于Sizzlenodejs的实现

bluebird 是对es6Promise方法的封装与ose展库

文档

License

MIT

的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

Go开发的分布式爬虫框架 yispider

yispider一款分布式爬虫平台,帮助你更好的管理和开发爬虫。 内置一套爬虫定义规则(模版),可使用模版快速定义爬虫,也可当作框架手动开发爬虫 . . 码云地址:https://gitee.com/bilibala/...

2017/10/20 20:31
77
0
谈谈用TinySpider进行网页抓取实例

本例中用到的maven坐标变化如下: view source print? 1 <dependency> 2 <groupId>org.tinygroup</groupId> 3 <artifactId>org.tinygroup.spider</artifactId> 4 <version>0.1.0-SNAPSHOT</...

2014/06/08 13:11
24
0
centos安装font-spider最全步骤

一、安装gcc++ 4.9 ## 下载gcc最新的源码包 wget http://gcc.skazkaforyou.com/releases/gcc-4.9.1/gcc-4.9.1.tar.gz ## 解压缩 tar -xf gcc-4.9.1.tar.gz ## cd gcc-4.9.1 ## 运行download_...

2016/11/14 12:26
62
0
图片下载

今天要学习的是图片下载,Scrapy用ImagesPipeline类提供一种方便的方式来下载和存储图片; (1)首先还是使用dribbble.com这个网站来爬取数据,先在项目中的dribbble.py文件中根据响应来获取...

06/27 09:58
6
0
scrapy安装

安装 http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html http://pan.baidu.com/s/1boxVtAv 文档:http://doc.scrapy.org/en/latest/topics/selectors....

2015/12/13 01:25
95
0
19个Python爬虫项目让你一次吃到撑

 爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。 WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一...

2018/06/05 09:28
87
0
java的一个爬虫

进行抓取页面,我看了一下人家的教程,一般要用到htmlparser用来解析html得到一个网页的相关链接,用httpclient抓取网页数据, 下面是一我写的spider类 package com.openzone.search.spider...

2013/06/10 11:11
525
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部