【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”
OSCHINA 本期高手问答(2018 年 10 月 10 日 — 10 月 16 日)我们请来了@梁睿坤 为大家解答关于 Python 爬虫方面的问题。
梁睿坤,现任增增智能科技CEO,从事机器人、视觉智能、语音智能及 IoT 等技术的产品研发与企业经营方面的工作,曾任优晟网络、越维科技公司的CTO。虽然长期身任技术管理职位,但十多年来一直坚持参与第一线的研发工作。擅长敏捷开发模式,推崇端到端及多领域融合的个人技术发展路向,倡导实践先行的学习方法,乐于分享所学所悟,在 Python 与 Javascript 方面有深厚的理论基础与实践经验。
爬虫虽说并不是一门新的技术,但却是一门伴随互联网而生、实用性最强的一门技术。数据分析、大数据、机器学习都离不开数据的“喂养”。数据无处不在,唾手可得,但要从互联网这个无边无际的数据海洋中采集我们所需要的海量的数据却绝非易事,如何能精准、高效、合理、持续而低成本地从互联网中采集所需的数据,这就是爬虫系统要实现的最基本目标。
本期问题内容:
- 网络爬虫的应用方向
- 网络爬虫开发的关键技术点
- 网络爬虫系统的设计要点
- 部署网络爬虫的要点
或有其他相关问题,也欢迎大家积极提问。
为了鼓励踊跃提问,@博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《虫术——Python绝技》一书。
购买链接:京东
OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。
下面欢迎大家就 Python 爬虫方面的问题向@梁睿坤 提问,请直接回帖提问。
@梁睿坤 你好,请问移动互联网的情况下,很多时候只有App,没有提供Web端,先要抓包分析才能够开始爬取数据吗?还是要怎样呢?不知道书中有没有这方面的知识。
谢谢。
@梁睿坤 目前Python爬虫对Ajax生成数据的页面有什么好办法没有?还有是用表单POST提交方式做页面翻页的?这两种目前比较棘手。
@梁睿坤 你好,请问python的主要应用场景在哪些方面,目前比较少接触到python,初学者学习不知道用在什么地方?还有爬虫应该也需要先分析网站吧,有分析的教程吗?
@梁睿坤 定时爬新浪微博的内容和人的关系,遭遇到很多阻拦和问题, 很多内容在js里生成,这应该怎么解决
@梁睿坤 能否跨越控件加密的长河,突破IE浏览器的折磨,获取登陆成功的可爬世界?
@梁睿坤 Python 爬虫工程都有哪些生态可用?如调试、存储、监控、IP池等
@梁睿坤 说一下 一个爬虫工程师的梦想?
@梁睿坤 python 爬虫能否采集没有权限的页面内容, 用户设置有访问权限的,怎么突破权限