{{o.content | formatHtml}}
{{o.author.name}}
{{o.pubDate | formatDate}}
{{parseInt(o.viewCount) | bigNumberTransform}}
WebCrawler 是一个网站数据采集工具,使用 scrapy 框架。 环境准备 [Scrapy] (http://scrapy.org/) [MongoDB] (https://www.mongodb.org/) 已实现的功能 爬取网站发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地 爬取用户地理位置信息 增加 RandomUserAgent 功能,防止被 BAN 增加延时抓取功能,防止被 BAN 采用hash方法分散到多个目录进行管理,提高打开文件夹速度 快速开始 #: 安装必要 python 库 sudo pip ins...