Apache Lucene 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache Lucene 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Apache Lucene 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Apache Lucene 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Apache Lucene 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache-2.0
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发搜索引擎
开源组织 Apache
地区 不详
投 递 者 不详
适用人群 未知
收录时间 2008-09-07

软件简介

Apache Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

Lucene最初是由Doug Cutting所撰写的,是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎的主要开发者,后来在Excite担任高级系统架构设计师,目前从事 于一些INTERNET底层架构的研究。他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。

OSChina 使用 Lucene 实现全文搜索。

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=lucene-3.6.0

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (333)

加载中
@红薯 能把 yukjin 禁了吗?灌水灌了几十页
2019/12/28 08:57
回复
举报
该评论暂时无法显示,详情咨询 QQ 群:912889742
@红薯 什么时候更新一下osc开源的搜索框架?
2019/03/22 00:54
回复
举报
#ElasticSearch# OR #Lucene# 如果模糊查询出有库存的商品?es找出所有ID->RDBMS列出库存且是这些ID的行 ,如果ID很多是个麻烦事。
2018/09/27 14:54
回复
举报
#Lucene# 的Analysis插件 和 #ElasticSearch#的Analysis、Similarity插件升级都是一个费脑的事儿,每次都得下载相应版本的源码看个差不多。
2018/04/26 11:24
回复
举报
可以用elasticsearch 也是基于lucene开发的
2017/10/18 17:17
回复
举报
打分: 力荐
该评论暂时无法显示,详情咨询 QQ 群:912889742
打分: 力荐
感觉版本变动的太快,而且不向下兼容。现在用的是5.5X,感觉升级到最新要出大问题
2017/03/07 15:11
回复
举报
今天搞定了annotation方式的#struts 2.x# 学习了一下LuceneCompass.明天继续努力吧78
2011/03/28 00:48
回复
举报
Lucene 每次版本升级都跟上一个版本多多少少有点不兼容,这点挺讨厌的。
2012/08/14 23:03
回复
举报
更多评论
发表了资讯
11/19 07:34

Apache Lucene 8.11.0 发布,Java 全文检索引擎架构

Apache Lucene 8.11.0 已发布,Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本增加了多项新功能,以及其他优化和错误修复。 更新亮点: 在累计所有文档的 facet count 计数时,facet 支持忽略已删除的文档 支...

2
3
发表了资讯
09/30 07:15

Apache Lucene 8.10.0 发布,Java 全文检索引擎架构

Apache Lucene 8.10.0 已发布,Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本增加了多项新功能,以及其他优化和错误修复。 新特性 数值型的 range facet 计数现已支持多值字段 (Multi-valued) 为 Telugu 添加...

0
4
发表了资讯
06/24 07:25

Apache Lucene 8.9.0 发布,Java 全文检索引擎架构

Apache Lucene 8.9.0 已发布,Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 发布公告显示,此版本修复了许多错误,同时包含其他的功能优化和改进。 SortedSet DocValues 添加了压缩功能,可以显着减少它们在磁盘上...

1
3
发表于网络技术专区
02/25 07:46

Apache Lucene 8.8.1 发布,Java 全文检索引擎架构

Apache Lucene 8.8.1 已发布,Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本主要是修复自 8.8.0 以来的部分错误,同时包含其他优化和改进。不过 Changelog 暂未显示更新。 8.8.0 部分新特性 LatLonPoint 查询...

4
5
02/02 11:51

Apache Lucene 8.8.0 发布,Java 全文搜索服务器

Apache Lucene 8.8.0 已发布,Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本包含许多错误修复、优化和改进。 部分更新内容 接受 LatLonGeometries 数组的新 LatLonPoint 查询 LatLonPoint 查询支持空间关系 ...

2
7
发表于数据库专区
2020/11/06 11:03

Apache Lucene 8.7.0 发布,最受欢迎的 Java 全文搜索引擎工具包

开发者疯狂挑选自己心仪的开源项目中>>> https://www.oschina.net/project/top_cn_2020 Apache Lucene 8.7.0 已发布,Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本修复了许多 bug,以及对功能进行优化和改进...

1
7
发表于服务端专区
2020/08/17 08:05

Apache Lucene 8.6.1 发布,Java 全文搜索引擎

Apache Lucen 8.6.1 已发布,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 这是一个 bugfix 版本: LUCENE-9443: 当有多个 term-vector 字段时,高亮组件 UnifiedHighlighter 会关闭 underlying reader。这是 8.6.0 中的一个回归错误 详情查看发布...

3
5
发表于软件架构专区
2020/07/20 07:14

Apache Lucene 8.6.0 发布,Java 全文搜索引擎

Apache Lucene 8.6.0 发布了,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 新版本的亮点包括: API 更改:SimpleFSDirectory,IndexWriterConfig,MergeScheduler,SortFields,SimpleBindings,QueryVisitor,DocValues,CodecUtil 新增:Index...

2
5
发表于AI & 大数据专区
2020/05/30 07:37

Apache Lucene 8.5.2 发布,Java 全文搜索引擎

Apache Lucene 8.5.2 已发布,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本修复了无法在模糊查询(FuzzyQuery)中缓存 automata 的错误。 LUCENE-9350:在模糊查询中使用 Levenshtein Automata 最终会导致使用查询对象作为缓存键的查询缓存占...

1
3
发表于开发技能专区
2020/05/02 07:39

Apache Lucene 7.7.3 发布,Java 全文搜索引擎

Apache Lucene 7.7.3 已发布,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本修复了一个 bug: LUCENE-9300:修复当 doc 值更新应用于外部创建的 segment 上并使用 IndexWriter#addIndexes(Directory) 添加到索引中时,新的 gen 字段信息损坏...

1
7
发表于软件架构专区
2020/04/18 08:45

Apache Lucene 8.5.1 发布,Java 全文搜索引擎

Apache Lucene 8.5.1 已发布,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本修复了 doc 值更新和 addIndexes 时出现的索引损坏问题。 LUCENE-9300:修复当 doc 值更新应用于外部创建的 segment 上并使用 IndexWriter#addIndexes(Directory...

1
3
发表于AI & 大数据专区
2020/03/26 07:50

Apache Lucene 8.5.0 发布,Java 全文搜索引擎

Apache Lucene 8.5.0 发布了,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 新版本的亮点包括: XYPointField 允许在平面 X,Y 空间中建立点索引,并有效地查找边界框、距离或任意多边形内的文档 LatLonShape 上的新查询构建器可以有效地查找与点...

0
5
发表于开发技能专区
2019/12/31 06:46

Apache Lucene 8.4.0 发布,Java 全文搜索引擎

Apache Lucene 8.4.0 发布了,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 新版本的亮点包括: LatLonShape 现在支持 “CONTAINS” 关系,该关系可以查找包含查询形状的所有索引形状 并发搜索通过允许收集器跨线程共享信息,以更有效地跳过非竞争...

3
5
发表于开发技能专区
2019/07/30 07:18

Apache Lucene 8.2.0 发布,Java 全文搜索引擎

Apache Lucene 8.2.0 发布了,Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 新版本的亮点包括: API 更改 间隔查询已从沙箱移动到查询模块 新特性 用于索引和查询一般笛卡尔几何的新 XYShape 字段和查询 用于爱沙尼亚语的雪球干扰器/分析仪 提供 ...

7
4
发表于服务端专区
2019/06/07 07:51

Apache Lucene 7.7.2 发布,6 项 bug 修复

Apache Lucene 7.7.2 发布了。Lucene 是一款高性能、功能齐全的全文搜索引擎,完全使用 Java 编写。 此版本带来 6 项 bug 修复: LUCENE-8726:ValueSource.asDoubleValuesSource() 可能泄漏对 IndexSearcher 的引用。 LUCENE-8735:FilterDirectory.getPendingDeletions 现在转发给代理,即使该方法在超类中不是抽象的。 LUCENE-8688:TieredMergePolicy#findForcedMerges 现在尝试创建开销最低的合并,允许索引下降到“maxSe...

0
3
发表于服务端专区
2019/03/21 12:07

Apache Lucene 8.0.0 发布,Java 全文搜索引擎

Lucene PMC 宣布推出 Apache Lucene 的最新版本 8.0.0,可在生产环境中使用。 Lucene 是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 新版本的亮点包括: 查询执行 新版本对术语查询、短语查询和布尔查询进行了优化,在不需要总点击数的时候,可以有效地跳...

4
14
发表于软件架构专区
2019/02/12 07:51

Apache Lucene 7.7.0 发布,Java 全文搜索引擎

Lucene PMC 今天宣布推出 Apache Lucene 的最新版本 7.7.0,可在生产环境中使用。 7.7.0 下载地址:http://lucene.apache.org/core/downloads.html 完整变更日志:https://lucene.apache.org/core/7_7_0/changes/Changes.html Apache Lucene 是一款高性能、功能齐全的全文搜索引擎,完全使用 Java 编写。最新发布的 7.7.0 版本包含许多错误修复、优化和改进,其中包括: 优化和改进 通过仅在索引的维度上进行排序,加快节点片段...

1
6
发表于服务端专区
2018/12/17 07:26

Apache Lucene 7.6.0 发布,Java 全文搜索引擎

Apache Lucene 7.6.0 发布了,下载地址 >>> http://lucene.apache.org/core/downloads。 Lucene 是 Apache 软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此版本包含许多错误修复、优化和改进,值...

0
5
发表于服务端专区
2018/09/25 14:08

Apache Lucene 7.5.0 发布,Java 全文搜索引擎

Apache Lucene 7.5.0 已发布。Lucene 是 Apache 软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 Bug Fixes IndexWriter#deleteDocs(Query... query) applies deletes to wrong documents if the i...

1
2
2018/06/27 21:44

Apache Lucene 7.4.0 发布,Java 全文搜索引擎包

Apache Lucene 7.4.0 发布了,Lucene 是 Apache 软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 此次更新包含许多 bug 修复、优化和改进,详情见更新日志。 下载地址:http://lucene.apache.org/...

2
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2018/09/20 10:22

[lucene] lucene的HelloWorld程序

一.全文检索 1.1全文检索的定义:全文检索,即全文搜索,是对文本数据进行索引搜索。 1.2全文检索的特点:做了索引;对关键字做了高亮显示;摘要截取;搜索效果更加准确;只关注文本,不关注语意。 1.3使用场景:替换数据库的模糊查询,提高查询效率;全文检索是搜索引擎的基础;垂直搜索;在word,pdf等格式的内容 中检索内容;用在各种输入法中。 二.全文检索的核心 2.1创建索引:建立单词与句子之间的对应关系,以便通过单词搜索到对...

0
0
2018/03/01 13:46

lucene

lucene、solr全文搜索 lucene是一款搜索引擎技术,并非产品,而solr是搜索引擎所在服务器。 应用场景: 1:网站头部的搜索 2:APP端头部搜索 3:做成搜索产品 搜索原理: 简介: Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。

0
0
发表了博客
2018/06/23 09:23

Lucene

概述及应用场景 1、Lucene:是一个世界上最流行的开源的全文检索框架 官网网址:http://lucene.apache.org 版本:7.3.3 Jdk要求:1.8 ▲1、Lucene的作用? 1、比如购物商城:假设通过传统的SQL语句进行书籍查询的时候 ,输入关键字‘Lucene实战’,进行查询的时候,查询字段中的数据必须有 ‘Lucene实战’这些关键字必须连在一块。 这是通过sql语句搞不定的 2、性能问题:在对大数据进行检索时,lucene的检索速度明显快于传统的s...

0
0
发表了博客
2018/09/26 17:30

Lucene

Lucene简介   Lucene最初由鼎鼎大名Doug Cutting开发,2000年开源,现在也是开源全文检索方案的不二选择,它的特点概述起来就是:全Java实现、开源、高性能、功能完整、易拓展,功能完整体现在对分词的支持、各种查询方式(前缀、模糊、正则等)、打分高亮、列式存储(DocValues)等等。   而且Lucene虽已发展10余年,但仍保持着一个活跃的开发度,以适应着日益增长的数据分析需求,最新的6.0版本里引入block k-d trees,全...

0
0
发表了博客
2012/09/06 10:02

Lucene

如何使用compass 定义要搜索的javaBean 实例化compass 使用compassSession,CompasTransaction 使用Compass实现全文搜索 什么是Compass 封装了Lucene的OSEM Compass简化了Lucene的API 使用Lucene好比使用JDBC 使用Compass好比使用Hibernate 简化多线程同步的问题 Java全文搜索引擎Lucene 纯Java编写的全文搜索引擎 可以嵌入到任何Java应用程序 集成Lecene的Java应用程序 Eclipse JIRA 网站http://www.theServerSide.com...

0
3
2020/04/16 10:41

lucene

一、概述 1.1 lucene解决了什么问题 以前要实现搜索功能,通常是用MySQL通过like模糊查询来实现。如果用户比较少而且数据库的数量也比较小,那么这种方式实现搜索功能在企业中是比较常见的。但是数据量过多时,数据库的压力就会变得很大,查询速度会变得非常慢 1.2 数据查询方法 1.2.1 顺序扫描法 1、算法描述 所谓顺序扫描法,例如要查找包含一个字符串的文件,就是一个文档一个文档的查询,对于每一个文档从头遍历到尾,如果包...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2015/04/22 15:33

Lucene模糊查询结果不准确

直接描述现实情况: 现有两个产品: A 杭州西溪湿地西区 B 西溪湿地黑根蜡像馆 用“西溪”做模糊查询(WildcardQuery),A搜不出来,B可以搜出来,这是神马情况? 其他补充: 分词器用的IKAnalyzer,词库中也有“西溪”这个词。

4
0
发表了问答
2015/01/07 09:56

Solr4长时间不用后,第一次查询速度达秒级,如何优化,跪等回复!

Solr4单机测试环境,数据1100w,用于经纬度搜索,使用geohash,一般正常搜索均在30-50毫秒之内,但是隔了一宿没用,第一次搜索时间需要秒级,今天的第一次搜索达3秒,但是后面怎么查询都会很快,只有在长时间不用的情况后的第一次查询慢。这是不是和Jvm垃圾回收是不是释放了索引缓存,然后长时间不用需要从硬盘上加载?

1
1
发表了问答
2014/11/19 16:33

Elasticsearch查询字段为long时,有时候无法查询到结果

在用es做查询时候,发现一个奇怪的问题,一个字段为long型的数组,如果用短的long查询可以有结果,但长点的就不行. 例如:这条数据为 我分别用这条数据的 505 开头的和 644 开头的两个数据查询,结果一个能查询到结果,一个查询不到结果,如下图: 是ES对long型有什么处理??

4
0
2018/07/14 12:17

Hanlp分词器的停用词无效

使用lucene测试hanlp的分词效果,发现hanlp配置的停用词根本不生效,请问有遇到过这问题的吗? hanlp的停用词 路径说是不用改 #停用词词典路径 CoreStopWordDictionaryPath=data/dictionary/stopwords.txt 我的路径也是对的,因为其余的配置没问题,但是stopwords.txt文件中 的停用词根本没有作用,lucene在创建索引库的时候,还是会将停用词 分词存储...

1
0
发表了问答
2017/12/20 00:54

高手问答第 182 期 —— 来聊聊老牌开源全文检索引擎 Solr

OSCHINA 本期高手问答(12 月 20 日 - 12 月 26 日)我们请来了@vnetoolxw 兰小伟和大家一起探讨关于 Solr 的问题。 兰小伟(网名:益达),资深 Java 工程师,在 Java 技术上有很深的积累和造诣。国内较早接触 Solr 的技术专家之一,长期致力于 Solr 的技术研究、实践和生产环境部署,是 Solr 社区的积极参与者和实践者,以能让 Solr 技术能够在中国得到广泛应用不遗余力并乐此不疲。 现就职于国美金融,曾混迹于各种大大小小的创...

78
23
发表于运维专区
2019/01/15 12:10

spark+lucene 构建大数据存查的可行性

@震秦 你好,想跟你请教个问题:希望构建一个千亿级别的大数据存查系统 希望能做到复杂查询的快速响应 个人倾向于lucene系列(Lucene solr elasticsearch katta)+spark体系构建 您有过这方便的尝试和思路吗?

1
0
发表于AI & 大数据专区
2018/12/27 17:28

java.lang.NoSuchFieldError: LUCENE_5_5_2

Exception in thread "main" java.lang.NoSuchFieldError: LUCENE_5_5_2 at org.elasticsearch.Version.<clinit>(Version.java:75) at org.elasticsearch.common.logging.DeprecationLogger.<clinit>(DeprecationLogger.java:159) at org.elasticsearch.search.builder.SearchSourceBuilder.<clinit>(SearchSourceBuilder.java:74)...

4
0
发表了问答
2014/09/10 14:05

使用lucene检索新闻,找出关键词出现次数大于三次的新闻列表

RT,lucene支不支持以词频为条件的检索方式呢?

1
0
发表了问答
2016/03/03 11:20

lucene 工具 luke 添加 索引 路径时报 Could not load codec 'Lucene54'

生成 索引后,打开 luke 工具,查看情况,添加目录时,报 这个错误,表示纠结啊? 后面的 控制台中 报: 但是我项目中有加入 这个jar 这个是怎么会呢?好心人,指导哈,谢谢啦!

2
0
发表了问答
2013/07/25 10:36

Lucene搜索速度过慢

最近用Lucene的最新版本,具体是这样的:1000W数据,64G大小,分盘储存,然后合并搜索,standar分词,三个域,其中内容域为网页爬虫采集的HTML(去掉了标签)所以索引文件略大。 现在搜索标题保持在1S以内,但是初次搜索速度略慢。重要的是内容更慢,第一次搜索会超过十秒以上,而后都是超过3秒以上,很蛋疼啊。 求各位大大的优化建议..

2
0
发表了问答
2017/11/28 18:18

高手问答第 179 期 —— 全文检索技术分享:从 Lucene 到 Elasticsearch

OSCHINA 本期高手问答(11 月 29 日 - 12 月 5 日)我们请来了@napoay 姚攀为大家解答关于全文检索技术的问题。 姚攀,中国科学院大学硕士,热爱撰写技术博客、翻译文档。研究生期间因选修信工所王斌老师的信息检索课程而接触了搜索技术,对搜索技术的底层原理有着深刻的理解,熟悉信息检索模型、搜索技术、Lucene、Elasticsearch、ELK 日志处理、ES—Hadoop 等搜索技术栈,实现过基于 Lucene 的文件检索项目、基于 Elasticsearc...

138
61
发表了问答
2017/11/16 20:53

Lucene7 setBoost方法被移除后,用什么来给field加权呢?

如题,翻API发现好像只能给查询加权,可是给查询加权,岂不是所有的都加权了?

1
0
2018/01/29 14:05

solr date类型排序优化 求解

solr某个core大概几千万数据集,sort时按照时间类型(date)desc排序,process阶段处理时间特别长,大概10秒以上,然而去掉sort,采用solr的默认score排序,1秒即可。请问怎么优化,下面配图

2
0
发表了问答
2017/12/26 21:24

elasticsearch span near qurey中的slop计算方法

elasticsearch中的span near query的slop是如何计算的?被绕晕了,例如:我拿实际数据测试,结果如下: 明明两个term挨的很近,,可slop最小7才有数据,下面3个term,slop最小是9才有数据 从理论上来讲,两个term的slop不应该是0,3个应该是2么?

1
0
发表了问答
2017/11/05 13:53

lucene在NFS的环境中搜索导致JVM崩溃

我们使用了3台服务器部署了tomcat,使用阿里云的SLB做了负载均衡。 至于索引的构建,添加另外使用了一台JOB服务器,定时向挂载的NFS盘commit,这里用的也是阿里云NAS服务,以NFS协议挂载。3台应用服务器以只读模式挂载NFS磁盘,用于响应搜索请求。配置看上去已经完成了,只需要根据特性在代码上做些调整。 我使用了lucene提供的搜索器管理类(SearcherManager)用于近时搜索,定期调用SearcherManager.maybeRefresh()方法检测索引...

11
0
发表了问答
2017/09/28 14:23

lucene DuplicateFilter 多segment去重问题

GroupingSearch groupingSearch = new GroupingSearch("logTimeGroup"); // groupingSearch.setGroupSort(new Sort(SortField.FIELD_SCORE)); // groupingSearch.setFillSortFields(true); // groupingSearch.setCachingInMB(16.0, true); groupingSearch.setAllGroups(true); // groupingSearch.setAllGroupHeads(true); groupingSearch.setGroupDocsLimit(10); Boolea...

1
0
发表了问答
2017/07/06 11:15

solr 对文件增量更新索引(不是数据库哦)

问题:solr 如何对文件增量更新索引(不是数据库哦)。由于项目中的文件有上万个,每次全量导入会花费大量时间,如何对文件增量更新索引?急!

2
0
发表了问答
2015/06/01 18:08

求教:如何能提高solr重建索引的速度,谢谢

有三个字段:id(int),typeId(int),content(text_general),content纯内容大小大概在500K,这三个字段都有indexed,store。在页面上展示时,需要对typeId进行facet 现在问题是:需根据业务不定时对content按某关键字搜索,然后对检索到的所有doc更新typeId字段,如果搜索到的记录数有1W条的话,如何批量将这些记录的typeId从1变成2呢? 我现在的做法是取到这1W条的id,然后用solr的部分更新功能,将这些id对应的typeId设置成2。虽然...

1
0
发表了问答
2009/05/26 10:42

Lucene查询语法详解

Lucene提供了丰富的API来组合定制你所需要的查询器,同时也可以利用Query Parser提供的强大的查询语法解析来构造你想要的查询器。本文章详细的介绍了Lucene的查询语法。通过Java语法分析器把一个查询字符串解析成 Lucene的查询器。在你选择使用Query Parser前,请考虑以下事项: 如果你打算在程序中拼接查询语法串然后再利用Query Parser转换,那么强烈建议你利用相应的API来自己构造查询器。也就是说,Query Parser是为手工输入...

7
39
发表了问答
2014/12/23 22:50

Solr,SolrCloud,一个Collection怎么配置多个数据存储目录?

在使用SolrCloud,但是Collection的配置文件中,只是配置了一个data目录,但是空间不足了,怎么才能配置多个目录?我试了用逗号,空格等隔开多个路径,都没有用。

1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
333 评论
1K 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部