OSCHINA 本期高手问答(2018 年 6 月 20 日 — 6 月 26 日)我们邀请到了黄永祥@XyHJw 和大家一起讨论关于 Python 爬虫的问题。
黄永祥,信息管理与信息系统专业学士,曾从事过系统开发和自动化开发,精通 B/S 和 C/S 自动化测试技术,多年网络爬虫开发经验,对反爬虫机制有独到的见解,精通 Flask、Django 等 Web 框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司,担任 Python 开发工程师,目前就职于广东数据集成有限公司。热爱分享和新技术的探索。
随着大数据和人工智能的普及, Python 的地位也变得水涨船高,许多技术人员投身于 Python 开发,其中网络爬虫是 Python 最为热门的应用领域之一。在爬虫领域, Python 可以说是处于霸主地位,Python 能解决爬虫开发过程中所遇到的难题,而且开发速度快且支持异步编程,大大缩短了开发周期和提高数据爬取效率。因此,本期高手问答邀请了黄永祥@XyHJw 和大家一起就关于 Python 爬虫的问题进行讨论。
本期高手问答内容
1.爬虫开发的基础知识
2.爬虫开发实战分享
3.爬虫相关的优秀开源项目推荐
4.自动化测试技术
或有其他相关问题,也欢迎大家积极提问!
为了鼓励踊跃提问,@局长 会在问答结束后从提问者中抽取 5 名幸运会员赠予《玩转Python网络爬虫》一书。
购买链接:天猫
OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。
下面欢迎大家就 Python 爬虫方面的问题向黄永祥@XyHJw 提问,请直接回帖提问。
@XyHJw 您好,如同黑客一样,有爬虫就会有反爬虫,像我们这样提供公共服务的公司,最怕有恶意的爬虫,频繁的访问会降低网页加载速度,影响真实用户的访问体验。站在爬虫的角度,如何反爬,不知道您的书中有没有介绍?或者给出一些反恶意爬虫的一些建议?多谢!
@XyHJw @XyHJw 您好,对于爬虫我用过基础尝试,使用Requests库和bs库进行数据抓取,但经常拿到数据后不知道如何进行下一步处理,其中一个问题是,比如我抓取了当前的所有列表内容,一共10页,每页10条共100条数据,那么我定时每天执行一次爬虫程序,我是怎么知道当前新增的数据呢?第二次运行爬虫时数据共有105条,新增五条,那么对于这5条数据如何判定呢?这五条每条都从库中查询一下是否存在还是其他什么策略?
@XyHJw 您好,遇到个问题,在类似文章详情页,具体如招标公告的详情,我想提取某些关键信息,但是又没有什么显见的规律,且个网站HTML结构也不一致,有什么策略?请教
@XyHJw 现在常用易用(容易)的爬虫库有哪些,能否推荐一下给门边的同学?最好能简单点评一下优缺点,帮忙大家避避坑。
@XyHJw 您好,能做到爬取一个视频网站后自动调用下载器下载么?还有如果爬取图片网站,很多图片我们知道会显示图床过期,或者显示不出来等情况,这种无效图片的去除主流方案是什么?谢谢
@XyHJw 我询问一个问题,现在网页基本上都是单页面的,用普通的requests库获取页面信息也就不全,而用selenium动态获取速度又很慢,在linux上部署又有许多坑,调试还不方便,请问这样的单页面还有别的更好方法能爬取吗?
@XyHJw Python 网络爬虫哪个框架比较好用,框架对比怎么样? github上有好的项目推荐吗?
@XyHJw 你好,我们公司准备对一些项目用自动化测试,高手有没有什么好的建议,目前0积累。