depth-crawler 是一个三级页面定向爬取工具。
功能
1.在python中运用scrapy框架定向爬取至三级页面,保存html页面内容与链接为xlsx表格
2.将xlsx表格内容存至elasticsearch中
3.elasticsearch查询的时候运用ik分词
4.在python中运用flask框架写前端页面呈现搜索页面和搜索的信息内容
5.查询结果高亮显示
安装说明
首先安装python用于编辑代码,然后安装jdk环境用于后续安装elasticsearch,elasticsearch数据库对爬取下来的数据进行处理。npm 是随同 node.js 一起安装的包管理工具,用于node.js插件管理(包括安装、卸载、管理依赖等),elasticsearch-head是elasticsearch用于监控 Elasticsearch 状态的客户端插件,包括数据可视化、执行增删改查操作等,使用JavaScript开发的依赖于Node.js
1.python(3.8.10)打开cmd输入python,有版本号说明安装成功
2.jdk(1.8.0_241)注意环境变量的配置,打开cmd输入java -version,有版本号说明安装成
3.elasticsearch(6.8.21)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成
3.1.nodejs(v16.17.0)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成功
3.2.elasticsearch-head(6.8.21)与elasticsearch版本一致(head插件的安装和基本使用)通过elasticsearch-head-master打开命令行,输入(grunt server)
4.扩展库部分 ——pip install 库名==版本号 (可以在cmd中输入pip list 查看所有的版本号)
4.1.flask(2.1.2)——使用 Python用于编写web应用的框架
在cmd中输入(pip install flask),指定版本号的话输入(pip install flask==2.1.2)
4.2.scrapy(2.6.1)——用于爬取网站数据、提取结构性数据
4.3.elasticsearch(7.15.2)——用于搜索信息
4.4.pandas(1.4.1)——用于处理表格数据
4.5.openpyxl(3.0.9)——可用于读写excel表格
4.6.XlsxWriter(3.0.3)——用于创建Excel XLSX文件
启动流程
elasticsearch:
1.在"elasticsearch"的文件夹下打开“bin文件夹然后双击"elasticsearch.bat"开始运行
2.在"elasticsearch"的文件夹下打开“head"文件夹下的"elasticsearch-head-master"复制路径(D:\\ES\\elasticsearch-6.8.21\\head\\elasticsearch-head-master)打开cmd进入路径下输入命令(grunt server)
效果浏览
elasticsearch:
1.打开浏览器输入(http://localhost:9200/)访问端口
2.打开浏览器输入(http://localhost:9100/)可看到elasticsearch数据库中信息
前端 :
1.运行(route.py)在浏览器中访问第一个路由(http://127.0.0.1:5000/search)可看到搜索页面
2.在搜索框中输入搜索内容(如:纺织)可出现相关信息,在最后也有分页效果
3.点击标题和内容部分会返回原网址
4.点击快照会进去html页面
5.每条内容回根据点击次数提高排名,在浏览器中输入(http://127.0.0.1:5000/restore)排名恢复原样
评论