2
回答
如何在网上搜集2014报考xxx大学的学生? 爬虫?信息检索?
开发十年,就只剩下这套Java开发体系了   

当录取被发布的时候,某些高中的校网上就会发布已被录取的信息。

检索某大学的录取情况。高中的校网上发布消息也会出现在结果页,但是一般都在最后面?

so what should i do?

应该采用哪些方式收集? 或者更快更准确的收集?

<无标签>
举报
咸鱼张
发帖于4年前 2回/157阅
共有2个答案 最后回答: 4年前

1、很抱歉的说,一年高考录取的总人数大概是700万,题主说的这些网上零散信息,信息量小、非结构化,不定期的、不定数量(都很小)的发布,按照爬虫的方式,收集、分辨、过滤、整理、结构化,这个处理是个非常大的工程,完全不具有实用性。

2、如果想要的是少量的学校(大学或高中)录取信息,可以考虑联系当地的教育部门或是招生部门的人,通过商业或私人渠道获取。

3、对于大范围的这些数据的整理,采取2中的办法业务bd成本太高。也可以考虑通过类似 wiki之类的开放大家编辑提交的模式,这种成本相对小,也需要一定的成本来引导大家一起来做这件事。还有一个坏处是不能保证数据的真实性。

4、如果这件事本身有大的商业模式支撑,有资源输入,可以考虑2中的办法,全国高校和高中设立数据收集员。

5、招生录取消息,教育部应该有,但是这个,,,怎么搞,我就不清楚了。

总结:这件事儿数据量挺大,来源广泛,从我个人的判断来看,个人想通过爬虫简单搞定所有数据,并保证数据真实,是不太现实的。


--- 共有 1 条评论 ---
咸鱼张谢谢你的回答 ,我在试其他方法,比如进入xxx学校的管理系统,进入数据库,直接复制。 4年前 回复
顶部