雅虎开源解析 HTML 页面数据的 Web 爬取工具 Anthelion - 开源中国社区
Float_left Icon_close
雅虎开源解析 HTML 页面数据的 Web 爬取工具 Anthelion
oschina 2015年12月16日

雅虎开源解析 HTML 页面数据的 Web 爬取工具 Anthelion

oschina oschina 发布于2015年12月16日 收藏 232 评论 19

阿里云高性能云服务器,2折起! >>> >>>  

Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion

Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

via venturebeat.com

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:雅虎开源解析 HTML 页面数据的 Web 爬取工具 Anthelion
分享
评论(19)
最新评论
0
Hello World
0
Hello World
0
这个也值得研究
0

引用来自“eechen”的评论

织梦用来什么高大上的Nutch吗?就用PHP,采集还不是采得风生水起.
PHP的几个DOM操作库: Simple-HTML-DOM , phpQuery, Ganon

引用来自“我爱钓鱼”的评论

别人一直在喷你,而我在挺你,看来你真该喷?你能用上述几个工具采集的页面区分出成千上万网站的正文和摘要么?你能区分满屏花花绿绿的图片哪个图片和当前页的文章内容有联系的么?
哥们,我能说句实话么?,天天陪着他喷,迟早一天他反过来骂你傻逼在给你扣点政治帽子。这种小丑让他自己玩蛋蛋好了。
0

引用来自“eechen”的评论

织梦用来什么高大上的Nutch吗?就用PHP,采集还不是采得风生水起.
PHP的几个DOM操作库: Simple-HTML-DOM , phpQuery, Ganon
别人一直在喷你,而我在挺你,看来你真该喷?你能用上述几个工具采集的页面区分出成千上万网站的正文和摘要么?你能区分满屏花花绿绿的图片哪个图片和当前页的文章内容有联系的么?
0
求解 用这个可以做一个自己的搜索引擎吗?
0
61234
0

引用来自“eechen”的评论

织梦用来什么高大上的Nutch吗?就用PHP,采集还不是采得风生水起.
PHP的几个DOM操作库: Simple-HTML-DOM , phpQuery, Ganon
不在一个量级上面
0
好东西
0
织梦用来什么高大上的Nutch吗?就用PHP,采集还不是采得风生水起.
PHP的几个DOM操作库: Simple-HTML-DOM , phpQuery, Ganon
0
这个可以。
0
绝对业界良心啊。
0
绝对业界良心啊。
0
开源上,雅虎这两个字的新闻很久都没见着了
0

引用来自“LKwok”的评论

好好瞅瞅
可以瞅瞅
0
好好瞅瞅
0
装一下,搞一搞,,,
0
果真良心啊
0
雅虎还在?
顶部