【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”
OSCHINA 本期高手问答(2018 年 10 月 10 日 — 10 月 16 日)我们请来了@梁睿坤 为大家解答关于 Python 爬虫方面的问题。
梁睿坤,现任增增智能科技CEO,从事机器人、视觉智能、语音智能及 IoT 等技术的产品研发与企业经营方面的工作,曾任优晟网络、越维科技公司的CTO。虽然长期身任技术管理职位,但十多年来一直坚持参与第一线的研发工作。擅长敏捷开发模式,推崇端到端及多领域融合的个人技术发展路向,倡导实践先行的学习方法,乐于分享所学所悟,在 Python 与 Javascript 方面有深厚的理论基础与实践经验。
爬虫虽说并不是一门新的技术,但却是一门伴随互联网而生、实用性最强的一门技术。数据分析、大数据、机器学习都离不开数据的“喂养”。数据无处不在,唾手可得,但要从互联网这个无边无际的数据海洋中采集我们所需要的海量的数据却绝非易事,如何能精准、高效、合理、持续而低成本地从互联网中采集所需的数据,这就是爬虫系统要实现的最基本目标。
本期问题内容:
- 网络爬虫的应用方向
- 网络爬虫开发的关键技术点
- 网络爬虫系统的设计要点
- 部署网络爬虫的要点
或有其他相关问题,也欢迎大家积极提问。
为了鼓励踊跃提问,@博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《虫术——Python绝技》一书。
购买链接:京东
OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。
下面欢迎大家就 Python 爬虫方面的问题向@梁睿坤 提问,请直接回帖提问。
@梁睿坤 爬虫如何突破js的防护
@梁睿坤 请问app如果有sign这种加密校验,只能破包了么?
@梁睿坤 @博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《虫术——Python绝技》一书
@局长
还没出吗? 5 名幸运会员是那几位 ?有我吗?
@梁睿坤 高手
@梁睿坤 想请问一下,网络爬虫的部署现在网上的资料比较小,能不能讲一下大概思路?还有一个问题就是,爬虫开发后,对于日后的管理和维护有没有好的建议?
@梁睿坤 请问下书中有涉及哪些开源项目?能列下吗?
@梁睿坤 我觉得可以用PY来分析A股,先收集A股数据,然后PY来分析数据,智能算法,然后得到第二天上涨概率大的10只股票,你觉得可行吗?能写个DEMO开源吗?你怎么看?
@梁睿坤 您好,请问您遇到过最复杂的反爬是怎样的? 您又是怎么解决的呢?