jpaser 0.0.18 发布,Python 网页正文抽取工具

来源: 投稿
作者: fxsjy
2017-05-25 16:11:00

jpaser 0.0.18 发布了,jparser 是 Python 编写的网页正文抽取工具,对于资讯类页面可以自动抽取标题、正文段落和图片地址。

0.0.18 版改进:

1) 修复br标签问题;
2) 提高了title提取的准确性;
3) 图片地址绝对路径处理bug修复;
4) 抽取结果中的杂质打压;
5) 提高正文区域识别准确率;

展开阅读全文
精彩评论
rz

引用来自“sdvdxl”的评论

jparser ?应该是pParser😛
我正想这么说呢,看名字我还以为是java版
2017-05-25 18:23
2
举报
44 收藏
分享
17 评论
44 收藏
分享
返回顶部
顶部