Pholcus 爬虫 v0.8.0,支持 HTML 风格动态规则

henrylee2cn
 henrylee2cn
发布于 2016年01月20日
收藏 64

近日,Pholcus 升级 v0.8.0 版本了,最大的亮点就是:终于突破规则需要静态编译的局制,增加支持HTML风格的动态规则。以后交流分享规则变得更加方便,随之而来将会是愈加完善的生态圈。

以下是具体更新内容:

一、初步支持HTML风格的动态规则

二、添加配置文件,便于修改数据库配置等信息

三、重新规划软件依赖文件目录

├─pholcus 软件

├─pholcus 依赖文件目录
│  ├─pholcus.ini 配置文件
│  │
│  ├─proxy.lib 代理IP列表库
│  │
│  ├─spider.lib 动态规则目录
│  │  └─xxx.pholcus.html 动态规则文件
│  │
│  ├─phantomjs 程序文件
│  │
│  ├─logs 日志目录
│  │
│  ├─history 历史记录目录
│  │
└─└─cache 临时缓存目录


四、增强代理IP功能


五、增强状态控制功能


六、为Spider结构体添加定时器


七、增强Request结构体序列化与反序列化的可靠性


八、Web界面的外部资源文件全部打包进软件


九、更新下载器Surfer至0.9版本,性能更佳

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Pholcus 爬虫 v0.8.0,支持 HTML 风格动态规则
加载中

最新评论(16

henrylee2cn
henrylee2cn
golang1.6我这里运行没出先问题,你可以在Go大数据群反映一下具体情况。
纵使有花兼明月何堪无酒亦无人
纵使有花兼明月何堪无酒亦无人
panic: runtime error: invalid memory address or nil pointer dereference
[signal 0xc0000005 code=0x0 addr=0x0 pc=0x6121fc]

goroutine 77 [running]:
panic(0xb6b700, 0x11bfe030)
  H:/CoderTools/go1.6.windows-386/go/src/runtime/panic.go:464 +0x326
sync/atomic.AddUint64(0x11dde134, 0x1, 0x0, 0x33996730, 0x85109b)
纵使有花兼明月何堪无酒亦无人
纵使有花兼明月何堪无酒亦无人
你好 我下载的0.8版本,golang1.6编译

点击运行就挂了,用的自带的例子
henrylee2cn
henrylee2cn
兄弟,有志气啊!
tbag
tbag
兄弟 ,我早就想干掉百度了
Justdoit1314
Justdoit1314

引用来自“henrylee2cn”的评论

嗯,希望大家给出更多改进建议
期待1.0.版本
henrylee2cn
henrylee2cn
嗯,希望大家给出更多改进建议
Justdoit1314
Justdoit1314
空格占位,有些影响整体美观度,望后期改进,在文案方面稍加强相信会更好!
ArthurWang
ArthurWang

引用来自“ArthurWang”的评论

希望可以编译一个像 beego的 bee一样 可以运行主程序动态加载go文件里的规则的程序

引用来自“henrylee2cn”的评论

这也是一种思路,很不错,我后面会考虑你的建议。非常感谢!!
多谢,一直支持中
henrylee2cn
henrylee2cn
你是说分布式集群运行吗?
返回顶部
顶部