jpaser 0.0.18 发布了,jparser 是 Python 编写的网页正文抽取工具,对于资讯类页面可以自动抽取标题、正文段落和图片地址。
0.0.18 版改进:
1) 修复br标签问题;2) 提高了title提取的准确性;3) 图片地址绝对路径处理bug修复;4) 抽取结果中的杂质打压;5) 提高正文区域识别准确率;
评论删除后,数据将无法恢复
引用来自“sdvdxl”的评论
jparser ?应该是pParser😛引用来自“dush”的评论
我正想这么说呢,看名字我还以为是java版引用来自“dush”的评论
像jsoup那样用大家都熟悉的jquery方式就好了,0学习成本引用来自“sdvdxl”的评论
jparser ?应该是pParser😛引用来自“encro”的评论
学名叫 readability?引用来自“fxsjy”的评论
嗯,相关的项目有: python-goose, newspaper引用来自“encro”的评论
学名叫 readability?