做了两年多的一个项目,第一次邀请测试,希望对您有用

sohoer 发布于 2013/04/09 13:53
阅读 170
收藏 0
之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
现在总算是可以晒出来给大家用用了。

他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

鸟巢采集器访问地址:
http://www.newcrawler.com/

鸟巢采集器能做些什么:
采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

鸟巢采集器相比其它采集器的优势:
1、平台无关,可以在任何系统上运行如:Linux、Windows ...
2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
3、Raspberry Pi 也是支持的。
4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
6、使用WEB的管理方式,可以在任何终端上操作。
总之最大的优势是WEB版平台无关,其它核心功能也都有。


目前唯一一个在用鸟巢采集器抓取数据的网站:
http://www.shishibi.com/

如果您只想看看效果请使用下面的账号密码登录
test
test

如果您想试用请留下邮箱,我将给您发送邀请码

PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^

加载中
返回顶部
顶部