首页
开源软件
问答
博客
翻译
资讯
Gitee
众包
活动
专区
源创会
高手问答
开源访谈
周刊
公司开源导航页
登录
注册
首页
资讯
动弹
专区
问答
GOTC2023
活动
开源活动
开源创新大赛
软件库
Tool
博客
Gitee
首页
资讯
动弹
专区
问答
GOTC2023
活动
开源活动
开源创新大赛
软件库
Tool
博客
Gitee
OSCHINA 小程序 ——
关注技术领域的头条文章
聚合全网技术文章,根据你的阅读喜好进行个性推荐
登录
注册
大前端时代安全性如何做
之前在上家公司的时候做过一些爬虫的工作,也帮助爬虫工程师解决过一些问题。然后我写过一些文章发布到网上,之后有一些人就找我做一些爬虫的外包,内容大概是爬取小红书的用户数据和商品数据,但是我没做。我觉得...
作者:
杭城小刘
大前端时代安全性如何做
分享
复制链接
README badge(
)
社交分享
微信
QQ
微博
boystudio
2019/01/19 10:33
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
杭城小刘
2019/01/18 23:38
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
M
MK2
2019/01/18 20:09
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
杭城小刘
2019/01/18 16:00
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
boystudio
2019/01/18 10:23
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
杭城小刘
2019/01/17 14:26
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
杭城小刘
2019/01/17 14:25
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
boystudio
2019/01/17 13:43
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
杭城小刘
2019/01/17 12:26
引用来自“freezingsky”的评论
为什么前端 都要加个"大"?
引用来自“杭城小刘”的评论
你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“
引用来自“freezingsky”的评论
你要不看看后端的技术栈, 但从未有人用"大"字去描述.
你要不去搜搜什么叫做「大前端」?而不是在这里拿后端在这里比较用词
回复
举报
f
freezingsky
2019/01/17 11:57
引用来自“freezingsky”的评论
为什么前端 都要加个"大"?
引用来自“杭城小刘”的评论
你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“
你要不看看后端的技术栈, 但从未有人用"大"字去描述.
回复
举报
l
leeboylovejcc
2019/01/17 11:52
学习了,谢谢分享
回复
举报
杭城小刘
2019/01/17 11:19
引用来自“freezingsky”的评论
为什么前端 都要加个"大"?
你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“
回复
举报
f
freezingsky
2019/01/17 10:35
为什么前端 都要加个"大"?
回复
举报
杭城小刘
2019/01/17 09:23
引用来自“JPer”的评论
前端搞都是针对那些没有耐心的,如果爬你是人家的工作靠前端没法防止,只是加大了难度,需要后端服务配合,而且有行为分析、制造假数据等手段
对。场景不一样,我不需要干扰正常用户的行为,正常用户不需要返回假数据,你就老老实实的看,别想爬数据
回复
举报
杭城小刘
2019/01/17 09:22
引用来自“亦可塞艇”的评论
RSA加密可以吗
引用来自“杭城小刘”的评论
RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码
引用来自“亦可塞艇”的评论
pc端 H5 也可以用rsa加密/解密呀
「RSA 任何加密在 Native 端的话比较安全」、「浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码」pc端破解成本稍微低一点
回复
举报
练打字的
2019/01/17 09:18
前端搞都是针对那些没有耐心的,如果爬你是人家的工作靠前端没法防止,只是加大了难度,需要后端服务配合,而且有行为分析、制造假数据等手段
回复
举报
夕阳视界
2019/01/17 08:50
引用来自“亦可塞艇”的评论
RSA加密可以吗
引用来自“杭城小刘”的评论
RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码
pc端 H5 也可以用rsa加密/解密呀
回复
举报
lzktdr
2019/01/17 07:13
反爬虫的好文章!
回复
举报
杭城小刘
2019/01/17 00:10
引用来自“yong9981”的评论
搞这么麻烦,所有前端的数据都是不可信的,没必在要前端做反爬。只要在后台做好反爬就可以了,通常将用户登录和访问频率限制结合起来判断就可以了。
😂😂😂 仔细思考需求了么?「所有前端的数据都是不可信的」这是服务端开发的心信条,是肯定要这么做的。但是前端的爬虫并不一定是写数据库啊,明白么?蛮多场景是不需要你读。或则你权限不够我给你读几次,或者你的访问频率过高我就不喜欢让你访问,或者我觉得你是机器人或者中间的攻击人,我让你只看,不可以拿走数据。
回复
举报
杭城小刘
2019/01/17 00:05
引用来自“亦可塞艇”的评论
RSA加密可以吗
RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码
回复
举报
yong9981
2019/01/17 00:04
搞这么麻烦,所有前端的数据都是不可信的,没必在要前端做反爬。只要在后台做好反爬就可以了,通常将用户登录和访问频率限制结合起来判断就可以了。
回复
举报
杭城小刘
2019/01/17 00:01
引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~
引用来自“MK2”的评论
至今没有发现不能爬的网站~~~~+1
不过以后有机会向你请教
回复
举报
杭城小刘
2019/01/16 23:49
引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~
引用来自“MK2”的评论
至今没有发现不能爬的网站~~~~+1
一样的回答。哈哈。敢说这话,要么能力真的很强,月薪50k以上;要么就是平时工作内容比较正常需求,爬的网站反爬措施很少或者比较简单。
我一个做 iOS 的自己折腾出的方案没啥挑战哈哈,但是看到你这句话就莫名很想笑 😂
回复
举报
杭城小刘
2019/01/16 23:48
引用来自“MK2”的评论
花这么大代价做的反爬虫策略破解的成本很低根本没啥用处。
目前唯一靠谱的策略就是内容投毒,内部规则检测到爬虫行为时返回假的数据给客户端,客户端方面完全无感知并且判断不出当前的内容是不是真实数据
场景不一样、需求不一样、解决方案就不一样。
回复
举报
M
MK2
2019/01/16 23:30
引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~
至今没有发现不能爬的网站~~~~+1
回复
举报
M
MK2
2019/01/16 23:18
另外上述的反爬虫策略跟OSCHINA注册账号时的动态图片验证码一样搞笑
回复
举报
M
MK2
2019/01/16 23:16
花这么大代价做的反爬虫策略破解的成本很低根本没啥用处。
目前唯一靠谱的策略就是内容投毒,内部规则检测到爬虫行为时返回假的数据给客户端,客户端方面完全无感知并且判断不出当前的内容是不是真实数据
回复
举报
夕阳视界
2019/01/16 20:32
RSA加密可以吗
回复
举报
杭城小刘
2019/01/16 19:25
引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~
爬虫界扛把子?哈哈,要么能力真的很强,月薪50k以上,要么就是平时工作内容比较正常需求,爬的网站反爬措施很少或者比较简单。
回复
举报
qnloft
2019/01/16 18:18
至今没有发现不能爬的网站~~~~
回复
举报
溪涧顽石
2019/01/16 15:42
引用来自“溪涧顽石”的评论
为嘛我感觉有点蛇精病😅
引用来自“杭城小刘”的评论
眼界问题
👍
回复
举报
杭城小刘
2019/01/16 15:27
引用来自“溪涧顽石”的评论
为嘛我感觉有点蛇精病😅
眼界问题
回复
举报
溪涧顽石
2019/01/16 13:51
为嘛我感觉有点蛇精病😅
回复
举报
雨翔河
2019/01/16 11:33
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
杭城小刘
2019/01/16 11:32
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
boystudio
2019/01/16 10:41
其实我是用headless模式截图输出,然后OCR处理出结果。
回复
举报
杭城小刘
2019/01/16 10:38
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
杭城小刘
2019/01/16 10:31
引用来自“弦_”的评论
反爬虫永远干不过爬虫的,只能不断提高爬虫成本
道高一尺、魔高一丈,不存在说「反爬虫永远干不过爬虫的,只能不断提高爬虫成本」。没有一个技术可以做到绝对的壁垒。只能提高技术成本做到让你头大不想爬取你的数据了
回复
举报
杭城小刘
2019/01/16 10:29
引用来自“竹隐江南”的评论
特地登录上来,留言,学习了。
有帮助就好
回复
举报
y
yorkctc
2019/01/16 10:23
引用来自“yorkctc”的评论
字体文件 我就头大 不知道怎么破解
引用来自“杭城小刘”的评论
逆向出发思考啊,下载字体,按照本来网页上的文字来解析字体文件对应的原本信息。有个问题就是可能网页每次刷新字体文件会变掉。这样子的话会很麻烦
谢谢 就是每次都会变
回复
举报
是胖六啊
2019/01/16 10:18
特地登录上来,留言,学习了。
回复
举报
雨翔河
2019/01/16 10:04
以上这些加密方式在‘天Y查’上面都使用了,APP端加密的以前破解‘借D宝’的时候遇到过。
首先针对上面的方案如果要写爬虫的话也是可以的,比如字体加密这种,如果只是针对数字加密,可以找几个页面凑齐10个数字,每次抓取之前先请求这几个页面找到对应的K-V字典。 如果你数字,字母,汉字都进行了字体混淆,那你这个网站的性能是非常不好的,那我也只有使用终极大法了,模拟浏览器爬虫,抓取图片,进行字体识别,成功率高达97%。
以上方案我都试验过,天*查的库就是这样被拔下来的,我记得是抓取了4000W的详细数据。
另外:针对反爬的话,我觉得比较难受的就是,记录鼠标的路径来判断是否爬虫,这种最难受,防不胜防。
回复
举报
破城歌
2019/01/16 09:55
反爬虫永远干不过爬虫的,只能不断提高爬虫成本
回复
举报
杭城小刘
2019/01/16 09:31
引用来自“寂寞的大师”的评论
不都是求这人家来爬的吗?
道高一尺、魔高一丈。不断的进化
回复
举报
杭城小刘
2019/01/16 09:30
引用来自“守望辰峰”的评论
这 if else 多得让人扎眼。
为何不用一组 map 或数组来存?通过 key 来取值。
哈哈哈,对。当时写的着急,当时写 iOS 项目,为了研究反爬方案,很快写了下,没好好写,蛮多地方可以优化
回复
举报
杭城小刘
2019/01/16 09:29
引用来自“callmesoul”的评论
性能有待商榷
性能方面就要看另外的东西。比如缓存、资源分包加载、CDN、资源命中缓存等等
回复
举报
杭城小刘
2019/01/16 09:28
引用来自“首席的哥队长”的评论
本身没有后端渲染SEO就废,这样一搞全废,在公网上不需要SEO的网站,我只能想到政府了
有一些第三方的东西处理 SEO
回复
举报
杭城小刘
2019/01/16 09:27
引用来自“晴风晓月”的评论
非常不错,就是不知会不会显得太麻烦了,特别是汉字那一块
找出高频、核心词云,不需要全部的汉字做处理
回复
举报
晴风晓月
2019/01/16 09:06
非常不错,就是不知会不会显得太麻烦了,特别是汉字那一块
回复
举报
首席的哥队长
2019/01/16 08:58
该评论暂时无法显示,详情咨询 QQ 群:
点此入群
LookEyes
2019/01/16 08:58
这 if else 多得让人扎眼。
为何不用一组 map 或数组来存?通过 key 来取值。
回复
举报
社会主义接盘人
2019/01/16 08:52
不都是求这人家来爬的吗?
回复
举报
callmesoul
2019/01/16 08:38
性能有待商榷
回复
举报
杭城小刘
2019/01/15 19:52
引用来自“yorkctc”的评论
字体文件 我就头大 不知道怎么破解
逆向出发思考啊,下载字体,按照本来网页上的文字来解析字体文件对应的原本信息。有个问题就是可能网页每次刷新字体文件会变掉。这样子的话会很麻烦
回复
举报
y
yorkctc
2019/01/15 16:12
字体文件 我就头大 不知道怎么破解
回复
举报
回复 @
{{ emoji.type }}
{{emojiItem.symbol}}
评论用户
M
f
l
推荐博客
Jemalloc内存分配与优化实践
字节跳动SYS Tech
·
今天 10:35
0 评论
玩转服务器之数据传输篇:如何快速搭建FTP文件共享服务器
京东云开发者
·
今天 10:26
0 评论
落地 eBPF 可观测性之 DeepFlow Agent 性能揭秘
云杉网络
·
今天 10:24
0 评论
窄带高清技术之百万级并发下的演唱会直播细节修复
阿里云视频云
·
今天 10:00
0 评论
如何基于G6进行双树流转绘制? | 京东云技术团队
京东云开发者
·
今天 09:54
0 评论
分而治之--浅谈分库分表及实践之路 | 京东云技术团队
京东云开发者
·
今天 09:31
0 评论
技术 CXO 们眼中的 DevOps
Zadig云原生交付
·
昨天 19:02
0 评论
Zilliz @ GOTC:大模型的记忆体——向量数据库的现在与未来
Zilliz
·
昨天 18:24
0 评论
理论+实操|一文掌握 RFM 模型在客户数据洞察平台内的落地实战
袋鼠云数栈
·
昨天 16:40
0 评论
玩转服务器之网站篇:新手使用WordPress搭建博客和静态网站部署
京东云开发者
·
昨天 16:18
0 评论
删除一条评论
评论删除后,数据将无法恢复
取消
确定
©OSCHINA(OSChina.NET)
工信部
开源软件推进联盟
指定官方社区
社区规范
深圳市奥思网络科技有限公司版权所有
粤ICP备12009483号
顶部
引用来自“freezingsky”的评论
为什么前端 都要加个"大"?引用来自“杭城小刘”的评论
你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“引用来自“freezingsky”的评论
你要不看看后端的技术栈, 但从未有人用"大"字去描述.引用来自“freezingsky”的评论
为什么前端 都要加个"大"?引用来自“杭城小刘”的评论
你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“引用来自“freezingsky”的评论
为什么前端 都要加个"大"?引用来自“JPer”的评论
前端搞都是针对那些没有耐心的,如果爬你是人家的工作靠前端没法防止,只是加大了难度,需要后端服务配合,而且有行为分析、制造假数据等手段引用来自“亦可塞艇”的评论
RSA加密可以吗引用来自“杭城小刘”的评论
RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码引用来自“亦可塞艇”的评论
pc端 H5 也可以用rsa加密/解密呀引用来自“亦可塞艇”的评论
RSA加密可以吗引用来自“杭城小刘”的评论
RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码引用来自“yong9981”的评论
搞这么麻烦,所有前端的数据都是不可信的,没必在要前端做反爬。只要在后台做好反爬就可以了,通常将用户登录和访问频率限制结合起来判断就可以了。引用来自“亦可塞艇”的评论
RSA加密可以吗引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~引用来自“MK2”的评论
至今没有发现不能爬的网站~~~~+1引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~引用来自“MK2”的评论
至今没有发现不能爬的网站~~~~+1我一个做 iOS 的自己折腾出的方案没啥挑战哈哈,但是看到你这句话就莫名很想笑 😂
引用来自“MK2”的评论
花这么大代价做的反爬虫策略破解的成本很低根本没啥用处。目前唯一靠谱的策略就是内容投毒,内部规则检测到爬虫行为时返回假的数据给客户端,客户端方面完全无感知并且判断不出当前的内容是不是真实数据
引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~目前唯一靠谱的策略就是内容投毒,内部规则检测到爬虫行为时返回假的数据给客户端,客户端方面完全无感知并且判断不出当前的内容是不是真实数据
引用来自“qnloft”的评论
至今没有发现不能爬的网站~~~~引用来自“溪涧顽石”的评论
为嘛我感觉有点蛇精病😅引用来自“杭城小刘”的评论
眼界问题引用来自“溪涧顽石”的评论
为嘛我感觉有点蛇精病😅引用来自“弦_”的评论
反爬虫永远干不过爬虫的,只能不断提高爬虫成本引用来自“竹隐江南”的评论
特地登录上来,留言,学习了。引用来自“yorkctc”的评论
字体文件 我就头大 不知道怎么破解引用来自“杭城小刘”的评论
逆向出发思考啊,下载字体,按照本来网页上的文字来解析字体文件对应的原本信息。有个问题就是可能网页每次刷新字体文件会变掉。这样子的话会很麻烦首先针对上面的方案如果要写爬虫的话也是可以的,比如字体加密这种,如果只是针对数字加密,可以找几个页面凑齐10个数字,每次抓取之前先请求这几个页面找到对应的K-V字典。 如果你数字,字母,汉字都进行了字体混淆,那你这个网站的性能是非常不好的,那我也只有使用终极大法了,模拟浏览器爬虫,抓取图片,进行字体识别,成功率高达97%。
以上方案我都试验过,天*查的库就是这样被拔下来的,我记得是抓取了4000W的详细数据。
另外:针对反爬的话,我觉得比较难受的就是,记录鼠标的路径来判断是否爬虫,这种最难受,防不胜防。
引用来自“寂寞的大师”的评论
不都是求这人家来爬的吗?引用来自“守望辰峰”的评论
这 if else 多得让人扎眼。为何不用一组 map 或数组来存?通过 key 来取值。
引用来自“callmesoul”的评论
性能有待商榷引用来自“首席的哥队长”的评论
本身没有后端渲染SEO就废,这样一搞全废,在公网上不需要SEO的网站,我只能想到政府了引用来自“晴风晓月”的评论
非常不错,就是不知会不会显得太麻烦了,特别是汉字那一块为何不用一组 map 或数组来存?通过 key 来取值。
引用来自“yorkctc”的评论
字体文件 我就头大 不知道怎么破解