{{o.content | formatHtml}}
{{o.author.name}}
{{o.pubDate | formatDate}}
{{parseInt(o.viewCount) | bigNumberTransform}}
简介 ContentExtractor 是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。 项目地址转移 项目已和WebCollector合并,当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExtractor的最新版本源码和API。 教程(只适用于老版本,新版本请前往WebCollector) ContentExtractor的接口非常简单,用户可以根据网页的url,或者网页的html,来进行网页正文抽取: 根据url,抽取网页的正文: public s...