发表了问答
2016/04/12 18:10

请问 lucene 是如何 对查询的结果 合并的?

就是 合并的 过程原理,我有这个需求 想程序模仿实现一下。 或者类似的文章 的介绍。。。 如 我查询 “北京 天气”,假设 使用 并且 的查询,就是 两个词语 都必须包含; 那 lucene 内部 肯定是 先查询 "北京",再查询 "天气",然后 合并 的结果。 相知道 这个结果 的合并的过程的原理。。。...

6
0
发表了问答
2015/12/10 11:12

java爬虫-请问这个网站怎么搞?

http://www.site-digger.com/html/articles/20110516/proxieslist.html 下面的ip 都加了密。。。

1
0
发表了问答
2016/03/24 19:01

请问怎么获取这个 测试的(百度地图API) 返回的经纬度?

这是html代码,使用百度地图的API ,输入一个地址,获取 改地址的经纬度,直接复制到html文件中 查看就可以了。 <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>根据地址查询经纬度</title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <script type="text/javascr...

4
0
发表了问答
2016/03/24 18:31

(爬虫)请问 如何抓取JS生成的网页?——返回结果是对象诶。。。。

js 获取到数据 然后write或者innerHTML的方式 生成的页面,源码中是看不到这些内容的 一般来说,我们会直接 找到js请求的地址,然后 获取该网站的 接口数据 比如: 国有资产、信息牌项目信息 - http://xinjinqiao.tprtc.com/admin/main/flrpro.do 但是 我发现了一个问题,返回的结果 不是JSON、xml 或者 其他 可以看到的...

9
0
发表了问答
2016/03/23 16:41

怎么获取 某些网站 使用 百度地图定位时的 目标地址的坐标?

类似于这样的: http://m.yyk.99.com.cn/dongcheng/102777/map.html 我想获取 这个 定位的目标点的坐标,然后 看了下源码 看到这段 JS 似乎是 调用百度地图api 的 <script type="text/javascript">var addr='北京市东城区建国门内大街18号恒基中心办公楼三座610室';var map=new BMap.Map('allmap');var poi=new BMap.Poi...

2
0
发表了问答
2016/03/10 12:02

求大神,爬虫(Java)能实现 百度快照吗?还是离线版的。。

不知道 是个 什么思路,首先 直接 把 整个 网页的源码 保存下来 不靠谱 因为 相对路径的样式、图片 等,很多 自己打开的时候 直接 就 乱的没法看了,更别提 离线了。 难道是把 文件 自己拼上地址 下载下来?这个 能实现吗? 要不就 简单一点,其他的不管了,只 抽取文字的正文。 如果 能实现自动 抽取的话 那也能 基本满...

7
0
发表了问答
2015/09/22 12:25

nutch 2.3不再支持MySQL数据库了吗?

最近想研究下爬虫nutch,但是网上有说nutch2.3不支持MySQL数据库了,现在只能用NoSQL相关的数据库了吗?比如HBase

1
0
发表了问答
2015/11/12 17:15

Nutch Job failed! Nutch在Eclipse启动时报错了

已经修改./src/plugin 还是报错 检查过正则 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration>   <property> <name>http.agent.name</name> <value>My</value> </property> ...

1
0
发表了问答
2015/09/20 17:26

nutch抓取网页数据是把数据存储在本地还是直接就进入数据库?

初步接触搜索引擎方面的知识,打算用nutch作为爬虫来抓取指定的网页,我是在Cygwin下执行nutch命令的,出现如下错误: 一个错误就是cygpath:can`t convert empty path,一个错误就是Failed to set permissions of path... 我是通过local本地运行模式来执行,还没用那个deploy分布式的执行,但是却报有关Hadoop相关错误,不...

1
1
发表了问答
2015/09/11 13:18

网站内网页互相循环链接造成nutch无限循环抓取

@杨尚川 你好,想跟你请教个问题: 我们用nutch2.3抓取一个测试网站。网站里面有4个页面:A,B,C,D。其中A->B->C->D->A。nutch抓取的时候就造成了无限循环抓取。我在网上也没找到相关资料,所以来请教下您。

4
0
发表了问答
2012/03/20 13:53

nutch运行时的问题?Job failed 以及 Bad Request!

Bad Request request: http://localhost:8080/solr/update?wt=javabin&version=2   at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:430)   at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:244)   at org.apache.solr....

2
0
发表了问答
2015/08/07 15:16

nutch 访问手机页面问题

工作需要爬取手机端浏览的网页,而nutch在pc上用直接跳转到pc版的页面,而且手机版的和pc版的网页url不一样,请问如何去修改UA来实现此功能

2
0
发表了问答
2015/08/07 11:38

如何实现nutch伪装成手机爬取手机端访问的网页

工作需要爬取手机端浏览的网页,而nutch在pc上用直接跳转到pc版的页面,而且手机版的和pc版的网页url不一样,如何伪装成手机去爬取手机上访问的url

4
0
发表了问答
2015/07/04 12:36

Nutch&Solr定向采集解析和索引搜索报错

@S2JH 你好,想跟你请教个问题:我参照你的基于Nutch&Solr定向采集解析和索引搜索的整合技术..文档操作,build.xml的resolve出现下面的错误,不知道是什么原因? Buildfile: D:\tool\nutch-ajax-master\nutch-ajax-master\apache-nutch-2.3\build.xml Trying to override old definition of task javac [taskdef] Could ...

2
1
发表了问答
2014/08/07 15:12

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件

之前提供了一个版本,是直接把plugin形式的源码放到代码库,后来发现有不少人反馈说自己集成到apache nutch中编译或运行,遇到这那的问题。因此这次干脆基于Apache Nutch 1.8源码工程,把所有插件源码/依赖/运行参数等预置好,使大家能更简洁全面的使用这个插件。 http://www.oschina.net/p/nutch-htmlunit http://git.o...

10
7
发表了问答
2014/05/29 22:18

Nutch实现sina weibo登陆的问题

@杨尚川 你好,想跟你请教个问题: 对于sina weibo的模拟登陆这种需要访问多个网址,从前次访问中获取参数构造POST请求访问下一个网址,再从该响应中获得下一次访问的网址实现最后登陆的情况,如何使用Nutch实现。 我使用的是Nutch 2.2.1

1
0
发表了问答
2015/03/13 19:39

Nutch建立搜索引擎实战与运营

中国马上进入信用时代,利用大数据为社会行为主体进行信用评估。 设想:1、使用nutch建立搜索引擎,索引关键词,建立大数据库。 2、根据数据库反映的数据为社会行为主体建立模型。 3、根据已建立的模型进行多维度的比对为社会行为主体进行评分。 4、在社会活动过程中,如政府决策、行政审批、招标采购、金融活动中将上述...

1
0
发表了问答
2014/11/19 10:51

solr+Nutch 搜索服务器我没搞定,谁能帮我搞定?

solr+Nutch 搜索服务器我没搞定,谁能帮我搞定?我自已没安装成功,搞了3个晚上没搞定。寻 帮我安装与设置 Solr+Nutch 搜索服务器 的人专职或是兼职都可以。或是把活全包出,有意接的联系我。 有意请联系:sosyao@sosyao.com 或是qq:16284884 专职的工作地址可以在国内(大连或厦门),也可以在欧洲 Web爬虫...

8
1
发表了问答
2015/01/17 23:51

如何用solr实现网页快照?

最近我用nutch进行网页爬虫,采集到数据提交给solr建索引。根据这个地址:http://williamx.blog.51cto.com/3629295/722707 进行了配置,并在索引上形成了catche_content字段有值,但是这个值是一段很长的字符串(下面的图片), 不知道如何在网页上使用这个值?请高手们指教!谢谢...

6
0
发表了问答
2014/11/28 16:53

Nutch爬取文件内容

请问一下大神们,nutch可以爬取网站中的word文档内容吗? 比如网站中一个提供了文档链接的那种。

3
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页