Nutch

软件主页
关注
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Had...
加载中
1
回答
同样的一个请求,为什么不同的抓包工具 观察到的不一样?(Wireshark,Charles)

同样的请求 在 Wireshark的 界面 看到 4个连接 然后追踪流,又变成了 2个 ,什么意思? 并且 用 Charles 观察 ,有5个。。。就不说...

2016/10/27 10:41
3
回答
做分布式爬虫和搜索引擎对于服务器配置有什么要求?

做分布式爬虫和搜索引擎对于服务器配置有什么要求? 实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。 我们之前使...

2016/02/23 20:05
9
回答
Nutch2.3 + hbase0.98.8 +hadoop2.5.2

@杨尚川 你好,想跟你请教个问题:杨老师 实在不好意思,想麻烦你一个问题,困扰了我很久。 我并不是一个智慧伸手要资源的傻瓜,在学习了你相关的nutch视频...

2015/05/24 14:51
1
回答
nutch2.3 hadoop和hbase的选择

楼主有点小烦。最近学着使用nutch 在配置nutch时,在hadoop的版本上出现了让我很纠结的选择! nutch官网上推荐的是这样的搭配:hadoop...

2015/05/17 12:00
3
回答
请问这个网站为什么没有网络通信?怎么爬呢

智能辅助问诊机器人 - http://robot.kangfuzi.com/?winzoom=1 像爬这个网站,点了一通,一个 网络连接 都没看到,怎么实...

2017/03/03 18:53
2
回答
求网络舆情爬虫系统?

网络舆情爬虫开发之英雄帖 开发需求 用于网络舆情信息采集与分析的软件(接口级) 功能描述 1. 信息采集类型:新闻、政务网站、论坛、博客、微信、微博、视频...

2016/11/09 11:11
1
回答
远程服务器、云 服务器 怎么搭建代理?CCProxy?

CCProxy 我在 局域网内 测试可以,但是 放到 远程的、非 一个 局域网的 服务器上 不行,因为 这个外网ip 不知道怎么设置,用 ip138 显示...

2016/10/08 09:57
1
回答
请问 这个 文件怎么下载(Java爬虫),是 怎么验证的啊?在等。。
loyal 的回答 2016/10/09 18:37
最佳答案
那你模拟登录不就完了,留存cookies. 这都没啥啊...
7
回答
为什么 很多 app无法 通过 fiddler 无法拦截 到?
fly2xiang 的回答 2016/05/07 12:24
最佳答案
Android 中 App 是可以自己决定是否使用系统的代理的,iOS 上的知乎是可以被 Fiddler 拦截到的。
2
回答
nutch2.2.1抓取时对已经抓取过的数据重复抓取

@S2JH 你好,最近在nutch2.2.1开发使用时,发现了一个问题,请教一下您: 问题描述:出现重复抓取现象,即第二次抓取时会将第一次抓取的数据再抓取...

2016/07/25 18:24
6
回答
爬虫(java) 如何获取到 js执行后的完整页面?
Zemo 的回答 2016/06/22 17:43
最佳答案
http://www.oschina.net/p/webcollector?fromerr=ZpDomkW4 6)集成selenium,可以对javascript生成信息进行抽取http://datahref.com/archives/30
4
回答
Nutch爬虫工作流程及文件格式详细分析

Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用...

2009/03/29 20:49
1
回答
NUTCH公开课:从搜索引擎到网络爬虫

课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演...

2013/09/12 17:30
14
回答
想要索引淘宝整站,有没有好点的方法?

在设计蜘蛛的时候,要注意些什么?比如索引的频率,JavaScript的识别,最大化模拟浏览器或者直接包装一个Webkit 在识别网页元素的时候,要注意些什...

2011/03/11 23:54
11
回答
要爬网页,选哪个爬虫好?Nutch? Heritrix?

爬取网页的指定信息,不需要保存完整页面。比方说阿里巴巴的需求信息,爬取后转换为本地数据结构数据库存储。当然,如果它的需求信息更新了,我还得跟新我的本地数据...

2011/05/12 17:03
9
回答
Java_爬虫,如何抓取Js动态生成数据的页面?
tinshen 的回答 2014/07/25 17:53
最佳答案
http://xinjinqiao.tprtc.com/admin/main/pro!lrprolist.do?date=1406281728304&name=flr&nowpage=1&pagesize=100 你的方向错了。你应该抓取实际的数据源。而不那个显示页面。 我给你的地址就实际数据...
3
回答
怎么抓去ajax实现的工商银行网站的理财产品

用htmlUnit抓去工商银行网站(http://www.icbc.com.cn/ICBCDynamicSite2/money/moneytabs.htm...

2015/04/27 22:25
2
回答
爬虫下来的图片、视频、大文本存储技术

有谁做过互联网爬虫, 请问有什么比较好的技术实现网页中图片和视频还有大文本的存储。 我的初步想法是针对标题做索引用mysql实现, 但是大的二进制数据不知...

2016/05/05 22:48
5
回答
有没有人试过 使用 程序 (抓包、爬虫)下载 应用商店内的应用 ,然后 刷 下载量?
pseudo 的回答 2016/05/06 11:15
最佳答案
两年前就是干这个的。像这种请求都是加密的,如果是明文早就被刷爆了。最常见的方式是通过逆向app找到加密函数,分析协议参数,这种方法太麻烦耗时也长;后来用xposed+avd模拟真实手机参数,通过程序控制avd自动点击来刷。劝你还是别干这个,不道德也没前途。我当初就误入了岐途,等醒悟过来想做点有...
3
回答
wireshark 怎样使用?连接太多 看都看不清啊。。。
蛋蛋娃 的回答 2016/05/06 22:51
最佳答案
ping 目的网站域名 获取IP 过滤设置 ip.src eq 目标网站IP or ip.dst eq 目标网站IP

没有更多内容

加载失败,请刷新页面

返回顶部
顶部