1
回答
怎样 能让 爬虫 用得上 VPS上的 IP资源?代理?VPN?端口映射?
百度AI开发者大赛带你边学边开发,赢100万奖金,加群:418589053   

VPS就是 T宝上 买的 动态更换IP的 vps

这个 vps 有个 特点 就是 动态的更换ip,宽带拨号 一次 就换一个ip,这个 ip 对于 爬虫来说 很有用;

可是 这些都是虚拟机,配置很低,运行不了太多东西,远程 维护 麻烦,并且 数据库 在 公司的网络中,连接 麻烦;


所以 我就想  如果 能 用上  vps 的 丰富的ip资源,但是 运行 程序 在 自己的 网络环境 中运行;

这样 机器 配置 还高、维护还方便;


比如  用 vps 做一个 代理 服务器,和一般 用的 野代理 一样 ,ip+端口,甚至 用户名、密码认证的 都可以;那么 本地  的  机器 就可以 通过  这个 vps 获取网页;然后 vps 用程序 定时 更换ip,以 vps 的 丰富的ip资源来说,基本 不用担心 被封了。。。

想的 是挺好 ,但是  结果 弄了半天 都没弄成。




这个 vps 算是 内网环境 吗?但是 自己是有 公网IP的


假设 都是 windows系统;


我最理想 的是 想 搭建一个 VPN的 感觉,类似购买VPN 上谷歌一样-全局代理、国外代理 ,然后 全局代理 的话 本地网络 都是 通过 对面的服务器上网;

那就 可以 随时 在 本地 抓取 数据,对面的VPS 定时切换IP 即可。

---------------------------------------------------------------------------------------------------------


  • 先想到 就是 windows 搭建 代理服务器;搜索到一个 CCProxy ,但是经过 测试  似乎这个工具 只能用于局域网内;




  • 之后 又找一个 免费工具PacktiX VPN,据说很好用,自带 NAT 网络穿透,似乎能实现 我想用的  结果。。但是 还是在 局域网内测试 好用,放到VPS 上 分配的 域名和IP 都无法 连接。



安装到VPS 的时候有一个 提示 ,不知道  有没有关系,但是我也没有找到 怎么开启 这个 混杂模式 ;即便 能开启 ,估计 也是  做 虚拟机的商家 能 开启吧 


看来 VPN的方式 很难实现了,没有全局代理的话,就  端口映射 到 某个 具体的 端口服务上吧。。

比如 我想 自己写了个简单的程序,把请求来的 url 获取一下 返回;然后 发布到tomcat,比如 tomcat 的端口是 8080,在vps上安装 类似花生壳的映射工具,把 分配的 域名 映射到 127.0.0.1:8080上,之后 在 自己的网络 中 请求这个 域名 , 获取 想 爬取的 网页;


事实是 我测试 之后 感觉 效果 并不是 很好。。


  • 先是很有名的花生壳,结果是能连接,速度慢,很不稳定,简单测试 估计 也就是能返回 百分之三四十的样子 ,而且 每次 vps 重新拨号后 更换了 ip后,都要 一段 时间后 再能反应过来 重新绑定;

用于爬虫的话,很难满足要求。。


用的免费 的,估计 付费的要 好些。。好几百 大洋,也不知道 公司给不给报,就没买来 测试。。



  • 又找到一个 免费的 很好用——XTunnel,也能够连接,但是 也有个问题,就是 断线不能 重连-就是 重新拨号 ,换了ip后,就掉线了,这一点 不如花生壳,当然 它是免费的。。




还有 类似的工具,比如 nat123,还有 更多,就没过多 的测试,估计 效果 大同小异;

看类 域名的端口映射 这种方式  还是比较 适合在 固定一些的 网络环境中。。


不知道 是不是 还有什么其他的方案? 或者 我 弄的  过程 哪里  有问题?

总之 要是 能 用得上 这个 ip资源的话,就 方便了 很多。。。

举报
Inszt
发帖于2年前 1回/478阅
顶部