有关新闻源网页更新情况跟踪的程序问题

qinuxman 发布于 2013/02/10 18:19
阅读 213
收藏 0

     大家新年好!我要做的事情如下:

     比如某个部门有一个新闻目录的网页,其对应的网页内容是目录导航型,包含大量指向正文内容型(即“新闻报道”)网页的链接。该目录会定期更新,不断出现一些指向新发布新闻报道的链接。同时,指向过期新闻的链接则被移除。
     我要定期抓取和统计某个单位所有部门的新闻目录网页,并且判断其中每个部门新闻链接数的更新情况,并排序。我的想法是解析这个网页里面新闻的链接,比如http://cese.pku.edu.cn/dispcl2.asp?id=98这里的新闻链接有http://cese.pku.edu.cn/dispart.asp?id=1175这种格式,所以我就在http://cese.pku.edu.cn/dispcl2.asp?id=98的网页里面解析具有http://cese.pku.edu.cn/dispart.asp?id=这种形式的内容有多少个,分别是什么记录然后保存下来。每天进行一次。
     这是我想到的做法,我现在有这么几个问题。
     1.要实现我的目标有没有更好的做法呢?
     2.由于有多个部门的新闻目录情况统计,我应该以文件形式还是数据库中存储每天的链接,然后比较呢?如果是文件是否一天一个目录,然后以单位的名称为文件名存储?
     3.不同部门的新闻目录网页与链接的url格式关系不是很一致是否每一个单位得单独写一段程序呢?

加载中
0
z
zhongxh
一般网站正式一点的话会有RSS或者API供读取新闻,应该比你解析网页方便。至于自己的处理方式,怎么方便怎么做呗,没有规定吧。
返回顶部
顶部