想要索引淘宝整站,有没有好点的方法?

栗子太重举不动 发布于 2011/03/11 23:54
阅读 3K+
收藏 4

在设计蜘蛛的时候,要注意些什么?比如索引的频率,JavaScript的识别,最大化模拟浏览器或者直接包装一个Webkit

在识别网页元素的时候,要注意些什么?比如价格的识别,商品描述的识别,卖家等级的识别

索引的结果放入文件还是NoSQL数据系统?Cassandra?Hbase?MangoDB?MySQL?

先对索引排序之后放入数据系统还是从数据系统中取得结果之后在搜索服务器上面进行排序,然后返回给浏览器?

新手,不懂太多...请高手,教育...指点...

谢先!!!

加载中
0
栗子太重举不动
栗子太重举不动

没有人回复么....额...这让我情何以堪...

0
谢小呆
谢小呆

o(∩∩)o...哈哈,没有人懂,我也不懂,算是打酱油的

0
栗子太重举不动
栗子太重举不动

是不是大家觉得这个想法不现实?

0
Google
Google

抓多了封IP

0
方小葱
方小葱

给小马打个电话吧?

0
Mooke
Mooke

1.索引频率:根据你对数据的更新率决定。可以是3天-1周。一般采用增量方法(只更新变动的数据)。

2.JavaScript、元素识别、模拟浏览器:你的蜘蛛是否有此能力,是否有此必要。

我建议只要获取商品名、商品介绍、店铺名、店铺介绍等个重点内容就好。

3.数据存储:可以是文件的方式,也可以是数据库和文件相结合。

4.排序:索引后排序相当于排序一次,可供N个人使用。搜索后排序想当于N个人使用要排序N次。

 最后,你索引淘宝整站的目的是什么? 存储商品、用户、商家的数据,还是要缓存每个页面?

如果只要数据,可以用淘宝的搜索功能来返回。如果要缓存每个页面我觉得没有必要:一、浪费空间 二、爬取的数据并不是能被用户利用的数据。你可以先缓存商品数据,如果有用户检索该商品的时候再决定缓存该商品对应的店铺。

在索引数据后还需要根据用户的浏览信息、数据热度进行二次排序和缓存。

如果你以缓存页面的方式直接供用户检索,那付出代价的将是用户。

以上纯粹个人观点。

0
cwalet
cwalet

啊,赞同Tangtiantian的意见~

0
0
帅气的鱼
帅气的鱼

爬不下来啊 百度都不让爬 想获取数据也许啊 淘宝开放平台有接口 是不是全部数据不清楚

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部