新手爬小说遇到的问题

吉他猪 发布于 2015/03/19 14:33
阅读 431
收藏 0

@黄亿华 你好,想跟你请教个问题:现在想抓取小说,

我现在想法是先抓取分页url,然后根据它去抓取每个小说地址,再根据小说地址去抓他的目录,然后根据目录的地址去抓每个目录的内容,大致是这个流程,现在有个问题,如何让每本小说的目录和目录的内容都对应起来,小说一本一本的去抓。

加载中
0
yunfound
yunfound

骚年,你太着眼与UI了!咱作为一名程序员,应该从数据结构上分析。

一个文学网站有哪些主要元素呢,就是书库和书。

书库就是你说的分页界面了,以腾讯文学书库为例,比如第二页它的地址就是这样的:/bk/p/2.html

所以你只需要循环所有页面就可以抓取到每个页面上的书id了。

一本书有哪些字段呢,这些字段都是如何联系的呢。

一般会有一个bookId,然后bookId下肯定会有很多chapterId,然后如果是分页的网站,一般还有有个pageId,也就是一章分成多页。所有chapterId列表就是目录了。

举例腾讯文学《择天记》:

书的信息页面一般就是bookId为地址:/bk/xh/357735.html

书目录就是bookId后面加了一个l(list的首字母):/bk/xh/357735-l.html

书的每一章就是bookId-r-chapterId :/bk/xh/357735-r-431.html

PC上看书很少有分页的,都是一个chapter就是一页完全显示。

所以要抓取小说,只要知道一个bookId,然后就可以在目录中看到所有chapterId的地址了。

自然就可以抓取每一章了。

-------------------------------------------------------

写这么多只是为了鄙视一下连工具都不会用的你!更别说自己去写一整套抓取流程了。

0
吉他猪

怎么抓到每一章这我都知道怎么做,我的意思是想怎样将同一本书几个页面的信息组装到一起,一个pageProcess不能完成是不是穾创建多个

返回顶部
顶部