2019/01/19 10:33
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/18 23:38
该评论暂时无法显示,详情咨询 QQ 群:点此入群
MK2
2019/01/18 20:09
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/18 16:00
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/18 10:23
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/17 14:26
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/17 14:25
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/17 13:43
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/17 12:26

引用来自“freezingsky”的评论

为什么前端 都要加个"大"?

引用来自“杭城小刘”的评论

你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“

引用来自“freezingsky”的评论

你要不看看后端的技术栈, 但从未有人用"大"字去描述.
你要不去搜搜什么叫做「大前端」?而不是在这里拿后端在这里比较用词
2019/01/17 11:57

引用来自“freezingsky”的评论

为什么前端 都要加个"大"?

引用来自“杭城小刘”的评论

你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“
你要不看看后端的技术栈, 但从未有人用"大"字去描述.
2019/01/17 11:52
学习了,谢谢分享
2019/01/17 11:19

引用来自“freezingsky”的评论

为什么前端 都要加个"大"?
你觉得什么是前端???Web前端开发、Native(iOS、Android)、BFF 等概念这些东西越来越靠近前端了,所以前端不是简单的早期传统的前端开发了,而是叫做“大前端“
2019/01/17 10:35
为什么前端 都要加个"大"?
2019/01/17 09:23

引用来自“JPer”的评论

前端搞都是针对那些没有耐心的,如果爬你是人家的工作靠前端没法防止,只是加大了难度,需要后端服务配合,而且有行为分析、制造假数据等手段
对。场景不一样,我不需要干扰正常用户的行为,正常用户不需要返回假数据,你就老老实实的看,别想爬数据
2019/01/17 09:22

引用来自“亦可塞艇”的评论

RSA加密可以吗

引用来自“杭城小刘”的评论

RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码

引用来自“亦可塞艇”的评论

pc端 H5 也可以用rsa加密/解密呀
「RSA 任何加密在 Native 端的话比较安全」、「浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码」pc端破解成本稍微低一点
2019/01/17 09:18
前端搞都是针对那些没有耐心的,如果爬你是人家的工作靠前端没法防止,只是加大了难度,需要后端服务配合,而且有行为分析、制造假数据等手段
2019/01/17 08:50

引用来自“亦可塞艇”的评论

RSA加密可以吗

引用来自“杭城小刘”的评论

RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码
pc端 H5 也可以用rsa加密/解密呀
2019/01/17 07:13
反爬虫的好文章!
2019/01/17 00:10

引用来自“yong9981”的评论

搞这么麻烦,所有前端的数据都是不可信的,没必在要前端做反爬。只要在后台做好反爬就可以了,通常将用户登录和访问频率限制结合起来判断就可以了。
😂😂😂 仔细思考需求了么?「所有前端的数据都是不可信的」这是服务端开发的心信条,是肯定要这么做的。但是前端的爬虫并不一定是写数据库啊,明白么?蛮多场景是不需要你读。或则你权限不够我给你读几次,或者你的访问频率过高我就不喜欢让你访问,或者我觉得你是机器人或者中间的攻击人,我让你只看,不可以拿走数据。
2019/01/17 00:05

引用来自“亦可塞艇”的评论

RSA加密可以吗
RSA 任何加密在 Native 端的话比较安全。逆向的话成本更高,iOS 和 Android 都进行过混淆加密,破解后有汇编,难度大成本高。BS架构,浏览器环境下代码都是“明文”。可能前端代码被 webpack 打包过看似加密,专业的 JS 选手看到这种代码,心里呵呵一笑。AST 还原代码
2019/01/17 00:04
搞这么麻烦,所有前端的数据都是不可信的,没必在要前端做反爬。只要在后台做好反爬就可以了,通常将用户登录和访问频率限制结合起来判断就可以了。
2019/01/17 00:01

引用来自“qnloft”的评论

至今没有发现不能爬的网站~~~~

引用来自“MK2”的评论

至今没有发现不能爬的网站~~~~+1
不过以后有机会向你请教
2019/01/16 23:49

引用来自“qnloft”的评论

至今没有发现不能爬的网站~~~~

引用来自“MK2”的评论

至今没有发现不能爬的网站~~~~+1
一样的回答。哈哈。敢说这话,要么能力真的很强,月薪50k以上;要么就是平时工作内容比较正常需求,爬的网站反爬措施很少或者比较简单。
我一个做 iOS 的自己折腾出的方案没啥挑战哈哈,但是看到你这句话就莫名很想笑 😂
2019/01/16 23:48

引用来自“MK2”的评论

花这么大代价做的反爬虫策略破解的成本很低根本没啥用处。
目前唯一靠谱的策略就是内容投毒,内部规则检测到爬虫行为时返回假的数据给客户端,客户端方面完全无感知并且判断不出当前的内容是不是真实数据
场景不一样、需求不一样、解决方案就不一样。
MK2
2019/01/16 23:30

引用来自“qnloft”的评论

至今没有发现不能爬的网站~~~~
至今没有发现不能爬的网站~~~~+1
MK2
2019/01/16 23:18
另外上述的反爬虫策略跟OSCHINA注册账号时的动态图片验证码一样搞笑
MK2
2019/01/16 23:16
花这么大代价做的反爬虫策略破解的成本很低根本没啥用处。
目前唯一靠谱的策略就是内容投毒,内部规则检测到爬虫行为时返回假的数据给客户端,客户端方面完全无感知并且判断不出当前的内容是不是真实数据
2019/01/16 20:32
RSA加密可以吗
2019/01/16 19:25

引用来自“qnloft”的评论

至今没有发现不能爬的网站~~~~
爬虫界扛把子?哈哈,要么能力真的很强,月薪50k以上,要么就是平时工作内容比较正常需求,爬的网站反爬措施很少或者比较简单。
2019/01/16 18:18
至今没有发现不能爬的网站~~~~
2019/01/16 15:42

引用来自“溪涧顽石”的评论

为嘛我感觉有点蛇精病😅

引用来自“杭城小刘”的评论

眼界问题
👍
2019/01/16 15:27

引用来自“溪涧顽石”的评论

为嘛我感觉有点蛇精病😅
眼界问题
2019/01/16 13:51
为嘛我感觉有点蛇精病😅
2019/01/16 11:33
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/16 11:32
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/16 10:41
其实我是用headless模式截图输出,然后OCR处理出结果。
2019/01/16 10:38
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/16 10:31

引用来自“弦_”的评论

反爬虫永远干不过爬虫的,只能不断提高爬虫成本
道高一尺、魔高一丈,不存在说「反爬虫永远干不过爬虫的,只能不断提高爬虫成本」。没有一个技术可以做到绝对的壁垒。只能提高技术成本做到让你头大不想爬取你的数据了
2019/01/16 10:29

引用来自“竹隐江南”的评论

特地登录上来,留言,学习了。
有帮助就好
2019/01/16 10:23

引用来自“yorkctc”的评论

字体文件 我就头大 不知道怎么破解

引用来自“杭城小刘”的评论

逆向出发思考啊,下载字体,按照本来网页上的文字来解析字体文件对应的原本信息。有个问题就是可能网页每次刷新字体文件会变掉。这样子的话会很麻烦
谢谢 就是每次都会变
2019/01/16 10:18
特地登录上来,留言,学习了。
2019/01/16 10:04
以上这些加密方式在‘天Y查’上面都使用了,APP端加密的以前破解‘借D宝’的时候遇到过。
首先针对上面的方案如果要写爬虫的话也是可以的,比如字体加密这种,如果只是针对数字加密,可以找几个页面凑齐10个数字,每次抓取之前先请求这几个页面找到对应的K-V字典。 如果你数字,字母,汉字都进行了字体混淆,那你这个网站的性能是非常不好的,那我也只有使用终极大法了,模拟浏览器爬虫,抓取图片,进行字体识别,成功率高达97%。
以上方案我都试验过,天*查的库就是这样被拔下来的,我记得是抓取了4000W的详细数据。
另外:针对反爬的话,我觉得比较难受的就是,记录鼠标的路径来判断是否爬虫,这种最难受,防不胜防。
2019/01/16 09:55
反爬虫永远干不过爬虫的,只能不断提高爬虫成本
2019/01/16 09:31

引用来自“寂寞的大师”的评论

不都是求这人家来爬的吗?
道高一尺、魔高一丈。不断的进化
2019/01/16 09:30

引用来自“守望辰峰”的评论

这 if else 多得让人扎眼。
为何不用一组 map 或数组来存?通过 key 来取值。
哈哈哈,对。当时写的着急,当时写 iOS 项目,为了研究反爬方案,很快写了下,没好好写,蛮多地方可以优化
2019/01/16 09:29

引用来自“callmesoul”的评论

性能有待商榷
性能方面就要看另外的东西。比如缓存、资源分包加载、CDN、资源命中缓存等等
2019/01/16 09:28

引用来自“首席的哥队长”的评论

本身没有后端渲染SEO就废,这样一搞全废,在公网上不需要SEO的网站,我只能想到政府了
有一些第三方的东西处理 SEO
2019/01/16 09:27

引用来自“晴风晓月”的评论

非常不错,就是不知会不会显得太麻烦了,特别是汉字那一块
找出高频、核心词云,不需要全部的汉字做处理
2019/01/16 09:06
非常不错,就是不知会不会显得太麻烦了,特别是汉字那一块
2019/01/16 08:58
该评论暂时无法显示,详情咨询 QQ 群:点此入群
2019/01/16 08:58
这 if else 多得让人扎眼。
为何不用一组 map 或数组来存?通过 key 来取值。
2019/01/16 08:52
不都是求这人家来爬的吗?
2019/01/16 08:38
性能有待商榷
2019/01/15 19:52

引用来自“yorkctc”的评论

字体文件 我就头大 不知道怎么破解
逆向出发思考啊,下载字体,按照本来网页上的文字来解析字体文件对应的原本信息。有个问题就是可能网页每次刷新字体文件会变掉。这样子的话会很麻烦
2019/01/15 16:12
字体文件 我就头大 不知道怎么破解
回复 @
{{emojiItem.symbol}}
返回顶部
顶部