【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”
OSCHINA 本期高手问答(2018 年 10 月 10 日 — 10 月 16 日)我们请来了@梁睿坤 为大家解答关于 Python 爬虫方面的问题。
梁睿坤,现任增增智能科技CEO,从事机器人、视觉智能、语音智能及 IoT 等技术的产品研发与企业经营方面的工作,曾任优晟网络、越维科技公司的CTO。虽然长期身任技术管理职位,但十多年来一直坚持参与第一线的研发工作。擅长敏捷开发模式,推崇端到端及多领域融合的个人技术发展路向,倡导实践先行的学习方法,乐于分享所学所悟,在 Python 与 Javascript 方面有深厚的理论基础与实践经验。
爬虫虽说并不是一门新的技术,但却是一门伴随互联网而生、实用性最强的一门技术。数据分析、大数据、机器学习都离不开数据的“喂养”。数据无处不在,唾手可得,但要从互联网这个无边无际的数据海洋中采集我们所需要的海量的数据却绝非易事,如何能精准、高效、合理、持续而低成本地从互联网中采集所需的数据,这就是爬虫系统要实现的最基本目标。
本期问题内容:
- 网络爬虫的应用方向
- 网络爬虫开发的关键技术点
- 网络爬虫系统的设计要点
- 部署网络爬虫的要点
或有其他相关问题,也欢迎大家积极提问。
为了鼓励踊跃提问,@博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《虫术——Python绝技》一书。
购买链接:京东
OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。
下面欢迎大家就 Python 爬虫方面的问题向@梁睿坤 提问,请直接回帖提问。
@梁睿坤 python爬虫怎样设置使用多代理ip比较好,有啥框架可以直接使用吗?
@梁睿坤 您好,我看了下目录,请问书里有没有讲爬出来的数据(比如网页关键信息)保存在哪里?是数据库吗?用什么数据库好呢?谢谢老师
@梁睿坤 那种爬JS生成的页面可否这样:自己写一个程序去预加载这些页面,然后把静态HTML存到自己服务器,然后再起服务,用爬虫去爬自己的静态文件.
@梁睿坤 对于有些网站没有特别明显的模式来批量处理的情况,除了正则外,有其它什么更好的工具吗?另外,同问,对于存在比较复杂的验证码验证或身份验证的网站,如何处理比较方便呢。
@梁睿坤 实际开发过程中,小项目还好,大项目会遇到各种各样的问题,比如多线程爬取,数据处理等,自身体会其中感觉最难公关的就是反扒机制。俗话说,道高一尺魔高一丈,越难的破解的反爬机制,越需要对破解有深入的了解,比如,可能需要抓包,动态验证码,图片计算,ip限制等等。所以想问问您,在爬虫的反爬道路上有没有什么可以学习的道路或者建议?
@梁睿坤基于Python 2还是Python 3?
@梁睿坤 python学起来感觉还是比较简单的,但是用起来感觉无从下手, 其他语言转过来的,该怎么学习?