0
回答
抽取网页文章正文,我也会。而且还带有格式
【腾讯云】校园拼团福利,1核2G服务器10元/月!>>>   

刚毕业那会自己就想搞这个,然后呢,弄个垃圾站啥的。

不过没弄。

后来学了点抽取正文的东西。

毕业一年左右搞定了个只能抽出文本的东西。

now,

现在我能把一个正文页面,抽取出 markdown形式。很不错了。

可以自己搞个xx头条了。哈哈


代码实现也很简单。

readability 开源的算法https://github.com/luin/readability,我用java实现了。

1抽出正文的html部分。

2. 用 https://github.com/domchristie/to-markdown  将第一步html转成md。

3.去掉没用html标签。js,css之类的。第一步已经去掉很多了。

4. 用https://pandao.github.io/editor.md/ 展示出来,然后手动微调一下。

搞定。

视频地址http://weibo.com/tv/v/EqOjLw9h8

<无标签>
举报
顶部