抓取淘宝产品详情,如何把垃圾信息一并处理掉?

A55hole 发布于 2014/08/18 11:37
阅读 613
收藏 0

求解答。

抓取淘宝页面譬如

http://item.taobao.com/【删除我】item.htm?id=13997732383

有这些内容,是我不想要到的多余信息

但是不同的淘宝产品页面这些宣传信息各有些许差异,怎么可以把这些垃圾数据删除掉??

加载中
0
jeffsoft
jeffsoft

1. 定义好什么是垃圾信息。

2. 编写过滤规则。 

如:用关键字去查找节点, 历遍节点。 或者用正则式处理文本包括HTML标签。

0
zbbmaster
zbbmaster
解析html代码 然后解析出自己要的那部分就行了 试试 net.htmlparser.jericho这个jar包相关的功能
0
MrZQ
MrZQ
正则表达式删除~
0
A55hole
A55hole

引用来自“jeffsoft”的评论

1. 定义好什么是垃圾信息。

2. 编写过滤规则。 

如:用关键字去查找节点, 历遍节点。 或者用正则式处理文本包括HTML标签。

淘宝上面这种促销的显示太多,不知道有没有什么好的方法可以定义。正则处理我得试试
0
_popc
_popc
使用相应的html处理包,根据xpath路径来获取自己需要的信息, 然后根据自己的需要戳请删减。
0
A55hole
A55hole

引用来自“西部LY”的评论

解析html代码 然后解析出自己要的那部分就行了 试试 net.htmlparser.jericho这个jar包相关的功能
这个我觉得有很多式样,每个都要解析一次让后除掉相应式样吗?
0
A55hole
A55hole

引用来自“_popc”的评论

使用相应的html处理包,根据xpath路径来获取自己需要的信息, 然后根据自己的需要戳请删减。
不懂 html处理包是啥。。
0
码农哲
码农哲
自己写爬虫?不知道你要抓取的信息具体是什么,我以前抓取的主要是商品名图片价格评论之类的,都有差不多的id和class的,然后用的python和beautifulsoup,和dom操作差不多
0
A55hole
A55hole

引用来自“码农哲”的评论

自己写爬虫?不知道你要抓取的信息具体是什么,我以前抓取的主要是商品名图片价格评论之类的,都有差不多的id和class的,然后用的python和beautifulsoup,和dom操作差不多
是自己爬的,不过我只想保留普通图片和文字。不想保留这些促销信息的所有东西。
码农哲
码农哲
那根据dom节点抓取应该也行吧,很多图片和商品信息的class和id都是差不多的
返回顶部
顶部