高手问答第 214 期 —— 和你聊聊 Python 绝技:爬虫之术

发布于 2018/10/10 00:32
阅读 7K+
收藏 17

【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”

OSCHINA 本期高手问答(2018 年 10 月 10 日 — 10 月 16 日)我们请来了@梁睿坤 为大家解答关于 Python 爬虫方面的问题。

梁睿坤,现任增增智能科技CEO,从事机器人、视觉智能、语音智能及 IoT 等技术的产品研发与企业经营方面的工作,曾任优晟网络、越维科技公司的CTO。虽然长期身任技术管理职位,但十多年来一直坚持参与第一线的研发工作。擅长敏捷开发模式,推崇端到端及多领域融合的个人技术发展路向,倡导实践先行的学习方法,乐于分享所学所悟,在 Python 与 Javascript 方面有深厚的理论基础与实践经验。

爬虫虽说并不是一门新的技术,但却是一门伴随互联网而生、实用性最强的一门技术。数据分析、大数据、机器学习都离不开数据的“喂养”。数据无处不在,唾手可得,但要从互联网这个无边无际的数据海洋中采集我们所需要的海量的数据却绝非易事,如何能精准、高效、合理、持续而低成本地从互联网中采集所需的数据,这就是爬虫系统要实现的最基本目标。

本期问题内容:

  1. 网络爬虫的应用方向
  2. 网络爬虫开发的关键技术点
  3. 网络爬虫系统的设计要点
  4. 部署网络爬虫的要点

或有其他相关问题,也欢迎大家积极提问。

为了鼓励踊跃提问,@博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《虫术——Python绝技》一书。

购买链接:京东
OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。
下面欢迎大家就 Python 爬虫方面的问题向@梁睿坤 提问,请直接回帖提问。

加载中
0
洛陌
大二计科学生,爬虫怎么用的?有学习的欲望
0
污渍永远滴神
污渍永远滴神

@梁睿坤 您好,请问您遇到过最复杂的反爬是怎样的? 您又是怎么解决的呢?

污渍永远滴神
污渍永远滴神
回复 @梁睿坤 : 好的 感谢。
梁睿坤
梁睿坤
这是一个非常好的问题,但仅凭评论所限的200字根本无法一一详述,但你可以参考我的书中第五章第二节中的“突破封印”,在那里我用了非常详尽的文字讲述了这个内容。
0
大盘
大盘

@梁睿坤  我觉得可以用PY来分析A股,先收集A股数据,然后PY来分析数据,智能算法,然后得到第二天上涨概率大的10只股票,你觉得可行吗?能写个DEMO开源吗?你怎么看?

大盘
大盘
回复 @梁睿坤 : 不要搞那么复杂,只要分析技术面的,大庄大游资买入的数据来做综合分析,应该是靠谱的,哈哈哈
梁睿坤
梁睿坤
你如果真想尝试我倒可以给你一个思路,不过这是属于深度学习的范畴了,你可以先收集数据,然后从你的现行数据提取数据特征然后建立预测模型,然后对模型进行训练与修正,最后用训练后的模型对现行数据进行预测。但个人认为如果这是靠谱的话,能写准确预测模型的人早就成为百万富翁了。
梁睿坤
梁睿坤
首先这个问题不属于爬虫领域的范畴,仅仅是收集数据这个可以与之沾边。个人认为能算出第二天上涨概率是不靠谱的,影响股票上涨的因素有很多,从大的讲分为技术面、政策面、消息面,而且以股票过去的表现推算将来的股价本来就是一种误区,因为这并不是单纯的数学问题。
0
厦门萝卜
厦门萝卜

@梁睿坤  请问下书中有涉及哪些开源项目?能列下吗?

0
XyHJw
XyHJw

@梁睿坤 想请问一下,网络爬虫的部署现在网上的资料比较小,能不能讲一下大概思路?还有一个问题就是,爬虫开发后,对于日后的管理和维护有没有好的建议?

梁睿坤
梁睿坤
我的书中第三章“Scrapy工程管理与部署”就有详细地讲述了关于部署的问题,你可以参考一下。另外,关于管理与维护则可以参考第五章第一节的“增量式爬网”的相关内容。
0
好伙伴
该评论暂时无法显示,详情咨询 QQ 群:点此入群
0
大盘
大盘

@梁睿坤  @博文视点  会在问答结束后从提问者中抽取 5 名幸运会员赠予《虫术——Python绝技》一书

@局长

还没出吗? 5 名幸运会员是那几位 ?有我吗?

0
Error-Erro-Err
Error-Erro-Err

@梁睿坤 请问app如果有sign这种加密校验,只能破包了么?

0
百通达
百通达

@梁睿坤 爬虫如何突破js的防护

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部