批量提取QQ空间说说和日志

水海云 发布于 2013/12/01 00:37
阅读 5K+
收藏 0
我打算以后不再使用QQ空间了,但是觉得有必要将以前记录的日志和说说状态等保存下来,可是不知道怎么来自动批量地来从QQ空间提取这些记录,自己手动地拷贝粘贴不太靠谱,毕竟上百的记录。个人对web这块不太熟,请教有什么方法能实现。
加载中
0
紅顏為君笑
水海云
水海云
只是听说过爬虫的概念,完全不清楚具体的操作流程。
0
Jackin
Jackin
如果你对web爬虫不熟悉的话 可以使用JS 来处理!
Jackin
Jackin
回复 @水海云 : 用Javascript 在Chrome里可以直接运行,然后直接访问DOM元素。然后格式化输出。
水海云
水海云
不幸的是,我对JavaScript也不熟悉,完全没用过,现在主要是做C的应用程序开发。用js处理有没有可以参考学习的示例网址之类的。
0
skyline520
skyline520
就是用程序的http协议来访问你的qq空间,然后把你的说说抓取下来就行了
skyline520
skyline520
@水海云 自己写吧
水海云
水海云
不太明白你的意思,比如什么程序可用呢?
0
atearsan
atearsan

把你要保存的网页另存为……

怎么样?

atearsan
atearsan
回复 @水海云 : 你找下QQ开放平台
水海云
水海云
回复 @atearsan : 哪里可以获取到Q空间的API参考?
atearsan
atearsan
回复 @水海云 : 那你查看Q空间的api,是不是支持接口导出日志、说说
水海云
水海云
另存为后还是html格式的文档,还是需要一条条地提取出来。
疯狂的流浪
疯狂的流浪
这个靠谱 不过多了的话就比较费时了啊
0
疯狂的流浪
疯狂的流浪
莫非楼主也和我一样,是因为QQ空间升级了所以不用也不打算用了?反正前几天升级把我以前的空间模板搞没了挺恼火的,决定不用了。如果你是PHP的话可以用正则来匹配然后抓取,应该不太难。@水海云
疯狂的流浪
疯狂的流浪
哦 这样啊 呵呵 批量提取类似于采集 应该不难
水海云
水海云
我前两天才升级的,倒不是因为这点。之前考虑过用lynx工具和shell脚本来进行自动化提取,可是发现QQ空间用了太多控件,还限制了浏览器版本,导致lynx根本就无法进行访问。
0
wharf_zhang
wharf_zhang
linux下可用bash脚本。先拿下全部url,然后脚本读取每一条url,构建截图命令行,然后执行,如此循环。注意:控制好截图前的等待页面加载时间;选择正确的option可以存为pdf,这是可编辑的文本型pdf。
wharf_zhang
wharf_zhang
试了一下,拿不到直接访问的url列表。霸王硬上弓,键鼠模拟总该可以吧,速度虽慢但却是最简单的必杀。
水海云
水海云
用脚本我没有找到登录访问qq空间的工具,lynx试过了不行。至于你说的全部url,是指包含说说记录的每个页面吗,如果没有登录直接从浏览器拷贝的url是获取不到信息的,会跳转到登录页面。bash脚本中的截图命令是哪个呢?如果可以自动获取到url的页面内容,最理想的情况是直接转存为文本文件,这样就可以使用sed/awk/gawk等工具来处理。
返回顶部
顶部