关于webmagic的建议

javaex999 发布于 2013/11/10 13:12
阅读 319
收藏 0

@黄亿华 你好,想跟你请教个问题:

webmagic非常不错:)
建议添加功能
1 持久化模块 
2 把简单的爬虫如针对单一网站单一栏目的爬虫 用xml平配置 自动解析并实现爬虫。 相对于爬虫的傻瓜版本,一般用户使用和传播,这样有利于本项目的用户群的扩大。
3 在2的基础上建构一些偏复杂的爬虫xml设置文件。做成爬虫的普通户用户版本。
4 在2和3之外,给高级用户留足够的定制空间。每个爬虫对应的文档或文件的过滤与解析模块的名字以及抽象程序模块,可以自动生成。把最小的代码模块留给用户
5 添加爬虫统计模块,包括起始时间结束时间,文件数等等。


我主要是从用户需求的角度描述,希望对这个项目的功能完善有所贡献:)



加载中
0
黄亿华
黄亿华

感谢建议!

目前webmagic的定位是一个“爬虫开发框架”,所以基本上是“便于在程序中集成”作为目标的,不太强调不用开发。所以你看到很多功能没有,还得靠手写。

我也很希望以后的版本往一个完整的产品方向走,但是对于产品的需求把握并不准确,所以这样的建议是非常好的!

1. 持久化,主要是不知道从何下手,因为持久化需求每个人都不一样,nosql还好点,如果是关系数据库,还跟表字段有关,而且还得引入ORM框架,觉得太重,还可能跟用户的冲突。所以框架层面暂时不会加入持久化,如果做自己完整的产品,倒是可以用mongodb或者直接输出文件的形式来做。

2-4. 这个想法很赞!之前也有用xml写爬虫的项目SpiderMan,我用之后觉得xml写起来稍微有点复杂,特别是逻辑复杂的时候,可能考虑用跟简单一点的脚本语言来完成,例如JRuby、Jython或者js,并做一些封装。这部分其实颇有难度,需要仔细考虑。

5.很值得做,目前也有用户跟我反馈这部分的问题,应该会是下个版本的目标之一。

以后会做一个独立的项目,把webmagic作为一个产品来做。

返回顶部
顶部