如何使Lucene分布式索引与搜索

昵称不见了 发布于 2011/12/15 18:54
阅读 2K+
收藏 2

您好,之前在讨论区也提问过,不过没什么人会,所以就冒昧地给您提问,请求指导。

现在正准备做个项目,但是之前只是在项目中简单用Lucene实现搜索模块功能,当时只是对同类型数据进行索引。

现在可能数据源不同类,并且数据量非常大,所以想通过分布式索引和搜索。但是这方面没什么经验,网上查到可以通过Hadoop来配合Lucene。

Google也有个项目Nut,貌似是这方面的,不过里面涉及的很多知识没接触过,需要给个方案来处理分布式索引搜索,

之前做得系统类似于JIRA的搜索问题吧,现在的项目主要是数据比较多,用户量也增加了,同时是针对不同用户,可能要销售、运营、技术支持、等等。

谢谢了

加载中
0
l
luoxj2012
windows 下Apache和tomcat整合 负载均衡session共享 准备工作: 1、 Apache 2.2.4 下载地址:http://cztele1.skycn.com/down/apache_2.2.4-win32-x86-no_ssl.zip 2、 Tomcat 6.0.16 下载地址:http://apache.mirror.phpchina.co ... e-tomcat-6.0.16.zip 3、 JDK 下载地址:http://cds.sun.com/is-bin/INTERS ... -windows-i586-p.exe 如果只是应用的话,也可以选择安装JRE,因为JRE比较小:) 4 JK-1.2.26-httpd-2.2.4 下载地址:http://www.apache.org/dist/tomca ... 2.26-httpd-2.2.4.so 注意JK的版本一定要与Apache版本相同。如果你的版本与我的不同,可以去官网下载,有多种版本,适用于各种操作系统,下载适用的既可,地址: http://www.apache.org/dist/tomcat/tomcat-connectors/jk/binaries/ 开始安装: 软件的安装顺序可以适当调整,但是JDK(JRE)一定要在Tomcat之前安装: 1、安装JDK(JRE) 此处默认、自定义安装均可。安装完成以后按下面的示例设置你的系统环境变量:我的电脑 -> 属性 -> 高级 -> 环境变量 (这里要添加的是系统变量,非用户变量) JAVA_HOME = D:\Program Files\Java\jdk1.6.0_07 CLASSPATH = .;%Java_Home%\lib\tools.jar;%Java_Home%\lib\dt.jar; PATH = %Java_Home%\bin 注意JAVA_HOME的路径改为你的实际安装路径。其它两个不变。 2、安装Apache 安装完成之后,如果apache用的是80端口,那么在浏览器中输入 http://localhost ,如果使用的是其它端口例如81,则输入 3、安装Tomcat 将Tomcat解压到 D:\Program Files\Tomcat 下,设置环境变量: CATALINA_BASE = D:\Program Files\tomcat CATALINA_HOME = D:\Program Files\tomcat CLASSPATH = %CATALINA_HOME%\lib\servlet-api.jar 最后系统环境变量path为: PATH =.;java_home%\lib\dt.jar;%java_home%\lib\tools.jar;%java_home%\bin;%tomcat_home%\common\lib\servlet.jar 运行 D:\Program Files\Tomcat\bin\startup.bat 启动Tomcat,出现Tomcat页面则表示安装成功。 4、安装JK 把 mod_jk-1.2.26-httpd-2.2.4.so 拷贝到 D:\Program Files\Apache2.2\modules 下。 第一部分引用:http://hi.baidu.com/fif%B7%E7%D4%C6/blog/item/7e56cd37a206cacda2cc2b7e.html 第一部分:负载均衡 负载均衡,就是apache将客户请求均衡的分给tomcat1,tomcat2....去处理 1.安装apche,tomcat http://httpd.apache.org/ 下载Apache 2 http://tomcat.apache.org/下载tomcat zip版本(解压即可,绿色版) http://apache.justdn.org/tomcat/tomcat-connectors/jk/binaries/win32/jk-1.2.15/ 下载mod_jk,注意和 apache版本匹配 2.修改Apache配置文件http.conf 在apache安装目录下conf目录中找到http.conf 在文件最后加上下面一句话就可以了 include "E:\ide\apache\Apache2\conf\mod_jk.conf" 2. http.conf 同目录下新建mod_jk.conf文件,内容如下 #加载mod_jk Module LoadModule jk_module modules/mod_jk-apache-2.0.55.so#指定 workers.properties文件路径 JkWorkersFile conf/workers.properties #特别注意此处 conf 是指apache的conf 目录#指定那些请求交给tomcat处理,"controller"为在workers.propertise里指定的负载分配控制器JkMount /*.jsp controller3.在http.conf同目录下新建 workers.properties文件,内容如下worker.list = controller,tomcat1,tomcat2 #server 列表#========tomcat1========worker.tomcat1.port=8009 #ajp13 端口号,在tomcat下server.xml配置,默认8009 worker.tomcat1.host=localhost #tomcat的主机地址,如不为本机,请填写ip地址 worker.tomcat1.type=ajp13 worker.tomcat1.lbfactor = 1 #server的加权比重,值越高,分得的请求越多#========tomcat2========worker.tomcat2.port=9009 #ajp13 端口号,在tomcat下server.xml配置,默认8009 worker.tomcat2.host=localhost #tomcat的主机地址,如不为本机,请填写ip地址 worker.tomcat2.type=ajp13 worker.tomcat2.lbfactor = 1 #server的加权比重,值越高,分得的请求越多 #========controller,负载均衡控制器======== worker.controller.type=lb worker.controller.balanced_workers=tomcat1,tomcat2 #指定分担请求的tomcat worker.controller.sticky_session=14.修改tomcat配置文件server.xml如果你在不同电脑上安装tomcat,tomcat的安装数量为一个,可以不必修改tomcat配置文件我这里是在同一台电脑上安装两个tomcat,所以需要更改其中一个的设置打开tomcat2/conf/server.xml文件5.编写一个测试jsp建立一个目录test.里面新建一个test.jsp,内容为<% System.out.println("==========================="); %>把test放到tomcat1,tomcat2的webapps下6.启动apache,tomcat1,tomcat2,进行测试通过 http://localhost/test/test.jsp 访问,查看tomcat1的窗口,可以看到打印了一行"=========="再刷新一次,tomcat2也打印了一条,再刷新,可以看到请求会被tomcat1,tomcat2轮流处理,实现了负载均衡第二部分,配置集群 只配置负载均衡还不行,还要session复制,也就是说其中任何一个tomcat的添加的session,是要同步复制到其它tomcat, 集群内的tomcat都有相同的session1. 修改tomcat1, tomcat2的server.xml,将集群部分配置的在注释符删掉,并将tomcat2的4001端口改为4002,以避免与tomcat冲突,当然,如果是两台电脑,是不用改端口的,去掉注释符即可 <Server port="9005" shutdown="SHUTDOWN"> <Connector port="9080" protocol="HTTP/1.1" <Connector port="9009" protocol="AJP/1.3" redirectPort="8443" />2,修改测试项目test修改test.jsp,内容如下<%@ page contentType="text/html; charset=GBK" %> <%@ page import="java.util.*" %> <html><head><title>Cluster App Test</title></head> <body> Server Info: <% out.println(request.getLocalAddr() + " : " + request.getLocalPort()+"<br>");%> <% out.println("<br> ID " + session.getId()+"<br>");// 如果有新的 Session 属性设置 String dataName = request.getParameter("dataName"); if (dataName != null && dataName.length() > 0) { String dataValue = request.getParameter("dataValue"); session.setAttribute(dataName, dataValue); }out.print("<b>Session 列表</b>");Enumeration e = session.getAttributeNames(); while (e.hasMoreElements()) { String name = (String)e.nextElement(); String value = session.getAttribute(name).toString(); out.println( name + " = " + value+"<br>"); System.out.println( name + " = " + value); } %> <form action="index.jsp" method="POST"> 名称:<input type=text size=20 name="dataName"> <br> 值:<input type=text size=20 name="dataValue"> <br> <input type=submit> </form> </body> </html>然后在test 新建WEB-INF目录,WEB-INF下新建web.xml,内容如下<web-app xmlns="http://java.sun.com/xml/ns/j2ee" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://java.sun.com/xml/ns/j2eehttp://java.sun.com/xml/ns/j2ee/web-app_2_4.xsd" version="2.4"> <display-name>TomcatDemo</display-name> <distributable/> </web-app>注意:在你的应用的web.xml加入 <distributable/>即可ok,讲test复制到tomcat1,tomcat2的webapps下,重启apache,tomcat1,tomcat2,输入网址 http://localhost/test/test.jsp 新建一个 名称为 xiaoluo ,值为 cdut 的session,提交查询,新开一个ie窗口,再提交查询,如图,可以看到,两个tomcat 是负载均衡,并且session同步的我的补充:以上的集群我在window2003+apache_2.2.11-win32-x86-openssl-0.9.8i.msi+tomcat6下是正常的。只有session 不能共享。解决方法是在:第二种方法,比较简单(不知道出处,引用如下):目标: 使用 apache 和 tomcat 配置一个可以应用的 web 网站,要达到以下要求: 1、 Apache 做为 HttpServer ,后面连接多个 tomcat 应用实例,并进行负载均衡。 2、 为系统设定 Session 超时时间,包括 Apache 和 tomcat 3、 为系统屏蔽文件列表,包括 Apache 和 tomcat 注:本例程以一台机器为例子,即同一台机器上装一个apache和4个Tomcat。 一、前期准备工作:安装用的程序(前提保证已安装了JDK1.5以上的版本) APAHCE 2.2.8下载:apache_2.2.8-win32-x86-no_ssl.msi TOMCAT6.0.14下载:apache-tomcat-6.0.14.zip直接解压。 二、安装过程 APAHCE安装目录:D:\Apache。 四个TOMCAT目录:自行解压到(D:\Tomcat集群服务器\)下。分别为 tomcat6.0,tomcat6.01,tomcat6.02,tomcat6.03 这几个安装过程就不详细说明了。 三、配置 1、Apache配置 1.1、httpd.conf配置 修改APACHE的配置文件D:\Apache \conf\httpd.conf 将以下Module的注释去掉,这里并没有使用mod_jk.so进行apache和tomcat的链接,从2.X以后apache自身已集成了 mod_jk.so的功能。只需简单的把下面几行去掉注释,就相当于以前用mod_jk.so比较繁琐的配置了。这里主要采用了代理的方法,就这么简单。 LoadModule proxy_module modules/mod_proxy.so LoadModule proxy_connect_module modules/mod_proxy_connect.so LoadModule proxy_ftp_module modules/mod_proxy_ftp.so LoadModule proxy_http_module modules/mod_proxy_http.so LoadModule proxy_ajp_module modules/mod_proxy_ajp.so LoadModule proxy_balancer_module modules/mod_proxy_balancer.so 再找到<IfModule dir_module></IfModule>加上index.jsp修改成 <IfModule dir_module> DirectoryIndex index.html index.jsp </IfModule> 1.1.1、 在最下面加入 ProxyRequests Off <proxy balancer://cluster> BalancerMember ajp://127.0.0.1:8009 loadfactor=1 route=jvm1 BalancerMember ajp:// 127.0.0.1:9009 loadfactor=1 route=jvm2 BalancerMember ajp:// 127.0.0.1:9001 loadfactor=1 route=jvm3 BalancerMember ajp:// 127.0.0.1:9003 loadfactor=1 route=jvm4 </proxy> 上面的四个BalancerMember成员是我们配置的tomcat集群。后面会说明的。 1.2、httpd-vhosts.conf设置 接下来进行虚拟主机的设置。APACHE的虚拟主机设置如下: 首先要修改 conf/httpd.conf找到(#Include conf/extra/httpd-vhosts.conf) 把注释去掉。 # Virtual hosts Include conf/extra/httpd-vhosts.conf 在文件(extra/httpd-vhosts.conf)最下面加入 <VirtualHost *:80> ServerAdmin [email]weijie@126.com[/email] ServerName localhost ServerAlias localhost ProxyPass / balancer://cluster/ stickysession=jsessionid nofailover=On ProxyPassReverse / balancer://cluster/ </VirtualHost> 其中的域名和路径根据你自己情况设置 然后再设置TOMCAT虚拟主机 2 配置 tomcat 2.1. 配置 server 的关闭 我们需要在一台机器上跑 4 个不同的 tomcat ,需要修改不同的 tomcat 的关闭口,避免出现端口被占用的情况。其中tomcat6.0用默认值,不修改。其他三个修改。在tomcat6.01\conf, tomcat6.02\conf下和tomcat6.03\conf下的 server.xml 中找到 server, 将: <Server port="8005" shutdown="SHUTDOWN"> 改为 <Server port="XXXX" shutdown="SHUTDOWN"> XXXX 在这里表示不同的端口:我的其它三个 tomcat 分别使用 9005,8006 , 9007 2.2. 配置 Engine 把原来的配置注释掉,把下面一句去掉注释。并标明jvmRoute="jvm2". <Engine name="Standalone" defaultHost="localhost" jvmRoute="jvm2"> 以下是原来的配置。 <!-- <Engine name="Catalina" defaultHost="localhost"> --> 其他(tomcat6.02和tomcat6.03)也要同样 配置。注意:jvmRoute配置不要一样。 <Engine name="Standalone" defaultHost="localhost" jvmRoute="jvm3"> <Engine name="Standalone" defaultHost="localhost" jvmRoute="jvm4"> 2.3. 配置 Connector 原来的默认配置。 <!-- Define an AJP 1.3 Connector on port 8009 --> <Connector port="8009" protocol="AJP/1.3" redirectPort="8443" /> 这里是apache和tomcat链接的关键,前台apache就是通过AJP协议与tomcat进行通信的,以完成负载均衡的作用。也可以用HTTP协议。大家注意它们是如何连接通信的,上面的红色部分(port="8009")就是连接的接口了。 把其他三个tomcat的<Connector port="XXX" />port分别改成与上面 <proxy balancer://cluster> #与tomcat6.0对应,route与<Engine jvmRoute="jvm1">对应。 BalancerMember ajp://127.0.0.1:8009 loadfactor=1 route=jvm1 #与tomcat6.01对应,route与<Engine jvmRoute="jvm2">对应。 BalancerMember ajp:// 127.0.0.1:9009 loadfactor=1 route=jvm2 #与tomcat6.02对应,route与<Engine jvmRoute="jvm3">对应。 BalancerMember ajp:// 127.0.0.1:9001 loadfactor=1 route=jvm3 #与tomcat6.03对应,route与<Engine jvmRoute="jvm4">对应。 BalancerMember ajp:// 127.0.0.1:9003 loadfactor=1 route=jvm4 </proxy> 中的端口对应,tomcat6.01 的ajp端口port:9009. tomcat6.02 的ajp端口port:9001。tomcat6.03 的ajp端口port:9003.一定要与上面的一致。同时也要把redirectPort的值改成唯一的,确保四个tomcat的都不一样。 2.5.配置Cluster(每个tomcat中都要修改) 原来的配置。 <Cluster className="org.apache.catalina.ha.tcp.SimpleTcpCluster"/> 修改为以下的代码:<Receiver port=”XX”/>port也要保证唯一性。 <Cluster className="org.apache.catalina.ha.tcp.SimpleTcpCluster" channelSendOptions="6"> <Manager className="org.apache.catalina.ha.session.BackupManager" expireSessionsOnShutdown="false" notifyListenersOnReplication="true" mapSendOptions="6"/> <!-- <Manager className="org.apache.catalina.ha.session.DeltaManager" expireSessionsOnShutdown="false" notifyListenersOnReplication="true"/> --> <Channel className="org.apache.catalina.tribes.group.GroupChannel"> <Membership className="org.apache.catalina.tribes.membership.McastService" address="228.0.0.4" port="45564" frequency="500" dropTime="3000"/> <Receiver className="org.apache.catalina.tribes.transport.nio.NioReceiver" address="auto" port="5001" selectorTimeout="100" maxThreads="6"/> <Sender className="org.apache.catalina.tribes.transport.ReplicationTransmitter"> <Transport className="org.apache.catalina.tribes.transport.nio.PooledParallelSender"/> </Sender> <Interceptor className="org.apache.catalina.tribes.group.interceptors.TcpFailureDetector"/> <Interceptor className="org.apache.catalina.tribes.group.interceptors.MessageDispatch15Interceptor"/> <Interceptor className="org.apache.catalina.tribes.group.interceptors.ThroughputInterceptor"/> </Channel> <Valve className="org.apache.catalina.ha.tcp.ReplicationValve" filter=".*\.gif;.*\.js;.*\.jpg;.*\.png;.*\.htm;.*\.html;.*\.css;.*\.txt;"/> <Deployer className="org.apache.catalina.ha.deploy.FarmWarDeployer" tempDir="/tmp/war-temp/" deployDir="/tmp/war-deploy/" watchDir="/tmp/war-listen/" watchEnabled="false"/> <ClusterListener className="org.apache.catalina.ha.session.ClusterSessionListener"/> </Cluster> 这个设置是主要用以tomcat的集群。 四、启动服务,测试tomcat自带的例子 1、测试apache和tomcat协作。 先在每个tomcat中的\webapps\ROOT下的index.jsp下面加上以下的测试代码部分:(X代表不同的tomcat的输出不同的信息),把index.html删除,以免影响测试效果。在最后面的加上.即</table></body>之间。 <% System.out.println("tomcat6.0X deal with request"); %> 然后再通过http:// 127.0.0.1来访问一下,就会出现大家熟悉的猫猫。 然后再通过分别访问 http:// 127.0.0.1:8080, http:// 127.0.0.1:9080,http:// 127.0.0.1:8081,http:// 127.0.0.1:9002它们访问的内容和上面的http:// 127.0.0.1是一样的。 这样就说明apache和TOMCAT整合成功! 2、测试均衡器 通过http:// 127.0.0.1多次访问,要想看到真正的效果,必须用一些压力测试工具,可用微软Microsoft Web Application Stress Tool进行简单压力测试,不然你靠不停刷新是体现不出来的,你只会在一个tomcat的控制台有输出结果。只用用压力测试工具模拟大量用户同时访问,你会发现四个tomcat控制台均有打出控制信息,说明均衡器工作正常。 以上本人测试通过完全没有问题的!心得经验:负载均衡与 session共享完全是两个独立性的配置。为此开始一直让自己有点误解,走了不少弯路。此处配置好的session 共享,负载均衡改用其它的也是可以用的,如用nginx配置它负载均衡都是没问题的,本人也已经测试通过。对此有什么好的意见、问题或是看法的欢迎大家留言。

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部