Scraper 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Scraper 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Scraper 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Scraper 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Scraper 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

Scraper 是一个 Google Chrome 扩展用于从网页获取数据并存到电子表格。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2019/04/10 10:10

Web Scraper 高级用法——Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器 | 简易数据分析 09

这是简易数据分析系列的第 9 篇文章。 今天我们说说 Web Scraper 的一些小功能:自动控制 Web Scraper 抓取数量和 Web Scraper 的父子选择器。 如何只抓取前 100 条数据? 如果跟着上篇教程一步一步做下来,你会发现这个爬虫会一直运作,根本停不下来。网页有 1000 条数据,他就会抓取 1000 条,有 10W 条,就会抓取 10W 条。如果我们的需求很小,只想抓取前 200 条怎么办? 如果你手动关闭抓取数据的网页,就会发现数据全部丢失...

0
0
2018/12/03 15:55

RuiJi Scraper 分页抽取

如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示 请注意以下分页选择器的配置要求 1. 分页选择器的默认名称为 _paging,请不要修该名称 2. 分页选择器要求选择出的结果为链接地址 下面我们以百度新闻的搜索结果为例举例说明下分页选择的配置 首先观察下分页的形式,具有数字分页链接及上一页下一页的链接 我们需要提取出所有的地址,并排除掉上一页及下一页的超链接 最终的分页...

0
0
2018/11/20 06:00

RuiJi Scraper 网页视觉识别

网页设计师在设计网页的过程中,往往会考虑页面的视觉结构,这使得使用者可以快速分辨出网页不同区域(RuiJi Scraper的数据块,数据片,元数据就是基于此所定义)。在大多数的网页中,页面中的不同的区域会通过横向或纵向布局,布局块边距等来达到视觉识别目的。以如下页面为例: 从整体上来看,该页面分为导航区,搜索结果区,热词区。每个区域内还有区域划分,例如搜索结果区的每个搜索结果还分为文本区和缩略图区。这种结构良好...

0
0
2018/11/20 06:01

RuiJi Scraper 选择器函数

选择器函数用于用户调用自定义方法处理抽取结果,我们需要抽取的页面显示的抽取结果,有可能并不是我们想要的最终结果,这时候我们就需要使用函数来进行一些特殊的转换操作,以使最终的抽取结果满足我们的需要。 例如我们往往在一些网站看到的文章时间是x分钟前,x小时前。这样的结果我们无法以日期的形式进行存储,而且,随着当前时间的改变,这些抽取的结果就会不正确。这时候我们可以使用函数来讲x分钟前,x小时前这样的内容...

0
0
发表于数据库专区
2018/12/21 18:22

[460]Web Scraper Chrome插件

摘要 : Web Scraper是一款可以从网页中提取数据的chrome网页数据提取插件,是一款非常好用的爬虫工具。 我们常常有种强烈的需求就是不需要编程,也能够网页抓取。做新媒体运营也是,很多时候会需要用到数据来帮助工作。比如,我们登陆淘宝,京东等商务网站,抓取某一类商品的规格说明,价格,厂家等信息;我们希望可以抓取我们进入头条上的最热门的文章,也可以抓取我们自己的所有文章列表,发布时间,阅读和浏览量等信息,当然...

0
0
发表于大前端专区
01/27 16:55

Web Scraper抓取扇贝单词

最近背单词, 发现扇贝单词效率太低了, 然后想办法将扇贝单词抓出来, 导入到其他背单词的软件里, 比如知米 使用Web Scraper 插件搞定: {"_id":"shanbay","startUrl":["https://web.shanbay.com/wordsweb/#/words-table"],"selectors":[{"id":"NotLearn","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"_root","multiple":false,"delay":2000,"clickElementSelector":"div#4 ","clickType":"click...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
3 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部