depth-crawler-python 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
depth-crawler-python 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
depth-crawler-python 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 不详
投 递 者 枸杞子_
适用人群 未知
收录时间 2022-09-04

软件简介

depth-crawler 是一个三级页面定向爬取工具。

功能

1.在python中运用scrapy框架定向爬取至三级页面,保存html页面内容与链接为xlsx表格

2.将xlsx表格内容存至elasticsearch中

3.elasticsearch查询的时候运用ik分词

4.在python中运用flask框架写前端页面呈现搜索页面和搜索的信息内容

5.查询结果高亮显示

 

安装说明

首先安装python用于编辑代码,然后安装jdk环境用于后续安装elasticsearch,elasticsearch数据库对爬取下来的数据进行处理。npm 是随同 node.js 一起安装的包管理工具,用于node.js插件管理(包括安装、卸载、管理依赖等),elasticsearch-head是elasticsearch用于监控 Elasticsearch 状态的客户端插件,包括数据可视化、执行增删改查操作等,使用JavaScript开发的依赖于Node.js

1.python(3.8.10)打开cmd输入python,有版本号说明安装成功

2.jdk(1.8.0_241)注意环境变量的配置,打开cmd输入java -version,有版本号说明安装成

3.elasticsearch(6.8.21)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成

3.1.nodejs(v16.17.0)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成功

3.2.elasticsearch-head(6.8.21)与elasticsearch版本一致(head插件的安装和基本使用)通过elasticsearch-head-master打开命令行,输入(grunt server)

4.扩展库部分 ——pip install 库名==版本号 (可以在cmd中输入pip list 查看所有的版本号)

4.1.flask(2.1.2)——使用 Python用于编写web应用的框架

在cmd中输入(pip install flask),指定版本号的话输入(pip install flask==2.1.2)

4.2.scrapy(2.6.1)——用于爬取网站数据、提取结构性数据

4.3.elasticsearch(7.15.2)——用于搜索信息

4.4.pandas(1.4.1)——用于处理表格数据

4.5.openpyxl(3.0.9)——可用于读写excel表格

4.6.XlsxWriter(3.0.3)——用于创建Excel XLSX文件

 

启动流程

elasticsearch:

1.在"elasticsearch"的文件夹下打开“bin文件夹然后双击"elasticsearch.bat"开始运行

2.在"elasticsearch"的文件夹下打开“head"文件夹下的"elasticsearch-head-master"复制路径(D:\\ES\\elasticsearch-6.8.21\\head\\elasticsearch-head-master)打开cmd进入路径下输入命令(grunt server)

 

效果浏览

elasticsearch:

1.打开浏览器输入(http://localhost:9200/)访问端口

2.打开浏览器输入(http://localhost:9100/)可看到elasticsearch数据库中信息

前端 :

1.运行(route.py)在浏览器中访问第一个路由(http://127.0.0.1:5000/search)可看到搜索页面

2.在搜索框中输入搜索内容(如:纺织)可出现相关信息,在最后也有分页效果

3.点击标题和内容部分会返回原网址

4.点击快照会进去html页面

5.每条内容回根据点击次数提高排名,在浏览器中输入(http://127.0.0.1:5000/restore)排名恢复原样

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(2) 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
2 评论
9 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部