11
回答
网页信息提取系统(使用HTML Parser)
科大讯飞通用文字识别100000次/天免费使用。立即申请   

         我是一名大学生,跟着老师研究一个课题,课题的大概内容是:研究世界各国的专利发明的地点与相关的专利行业的影响,其中老师需要用到一个网页信息提取的软件(目的是用计算机减少人的大量工作,现在把这个编程序的任务交给了我,而我对HTML Parser又不是很了解,JAVA也是自学了一点点。

         现在想用JAVA编程序实现网页信息的提取,提取所需要的部分信息(每次网页中的信息出现均是规范的),最后导入到ACCESS中.

         一点思路都没有,望高手指点,在下感激不尽~

举报
一度
发帖于8年前 11回/2K+阅
共有11个答案 最后回答: 8年前

引用来自#3楼“唯一”的帖子

很容易的

 高手可以详细说下吗?

对我这个初学者来说还是比较困难。

引用来自#2楼“红薯”的帖子

你可以先把 htmlparser 里自带的例子运行一下,然后参照api手册自己来提取网页中的数据。

 嗯 大概的构思这样的。 实现起来应该好多困难,有什么资料推荐吗?关于HTML Parser和API的。

引用来自#6楼“红薯”的帖子

直接看官方文档,非常详细!

 好吧   初学者真的很不容易 谢谢指导。。弱弱的问下,有这样类似开源的代码没?

引用来自#7楼“一度”的帖子

引用来自#6楼“红薯”的帖子

直接看官方文档,非常详细!

 好吧   初学者真的很不容易 谢谢指导。。弱弱的问下,有这样类似开源的代码没?

htmlparser 就是一个开源项目啊

如果想快速搭建垂直搜索或者数据挖掘系统,可以考虑使用MetaSeeker,目前,MetaSeeker的一大批用户来自科研院校,例如,中科院、中国人民大学管理学院和财经学院、北大、哈工大管理学院、西南财大、华中科技大学、中国原子能研究所、等等。全图形化界面,擅长AJAX抓取,例如,抓取博客、微博,做社交分析、用户行为分析和商业关联分析

引用来自#10楼“罪恶的花生”的帖子

提取正文可以用除噪,如果是有针对性的网站可以用正则表达式自己来提取。

 是正文,也是有针对性的网站  

 这个提取系统也是为该网站贴身设计的

望高手指点...

顶部