关于scrapy网页爬虫

Python菜鸟 发布于 2015/05/03 18:46
阅读 640
收藏 0

想请问下

1、scrapy抓取的是  网页的源代码?还是按F12看到的网页信息呢?

2、scrapy怎么解析抓取的html中被注释或隐藏的html部分,如<!--*******-->

请各位指教,多谢了


加载中
0
铂金胖子
铂金胖子

scrapy抓取,bs4解析。

1, 网页代码

2,  bs4可以解析注释部分

P
Python菜鸟
你好,首先多谢你的回答。 xpath中不能解析注释部分吗? bs4中如何解析注释部分能告诉我下吗?多谢了
0
orangleliu
orangleliu
注释?正则被
P
Python菜鸟
多谢多谢,正则不是特别会,看来得好好学下
0
明天以后
明天以后

1、scrapy抓取的是  网页的源代码?还是按F12看到的网页信息呢?

     scrapy抓取的只能是静态的东西,而F12看到的网页信息会有JS处理之后的信息。最好的办法就是 调试 查看 response.body 的内容。这些才是确确实实能获取到的数据。

2、scrapy怎么解析抓取的html中被注释或隐藏的html部分,如<!--*******-->

     注释部分。如上:re正则匹配

P
Python菜鸟
多谢大神,你的回答对我帮助很大,我还在学习中,正则不是特别会。多谢了
返回顶部
顶部