Lucene / Solr 4.0 的新特性

红薯 发布于 2012/07/07 10:37
阅读 8K+
收藏 27

Lucene 和 Solr 4.0 是一个非常重要的里程碑,包含大量的新特性以及性能的提升,本文主要介绍值得关注的一些改进。

Lucene:

  • ColumnStrideFields: DocValues 存储在每个文档中,每个文档的域可包含一个给定类型的值
  • Facet search, 这个功能已经包含在 Solr 中,现在 Lucene 也提供了
  • 通过 灵活的索引 用户可自行修改 fields, terms, docs 和 positions 在索引的编码方式
  • 增加了不同的相关排名系统
  • 增加了用于支持 append-only 文件系统的编码 (例如 Hadoop DFS).
  • 增加 DirectSpellChecker 可直接从 Levenshtein 自动字典检索校正
  • 文本词条使用 UTF-8 编码存储,而不再是 UTF-16
  • 大幅提升搜索时使用过滤器的性能
  • FuzzyQuery 性能提升 100-200 倍
  • 增加索引统计,包括词条的关键字数等
  • 增加 RegexpQuery 正则表达式查询

Solr:

Solr 4.0-alpha 包含更多 NoSQL 特性,适用于很多人将 Solr 做为数据存储解决方案。

  • 分布式索引设计,提供近乎实时的操作和 NoSQL 特性,如 realtime-get, 乐观锁和持续更新。
  • 高可用性,无单点故障
  • 集成 Apache Zookeeper 用于分布式协调、元数据集群以及配置存储
  • 发往集群节点中的更新操作将自动转到正确的分片以及复制到冗余节点
  • 发往任意节点的查询会自动执行全分布式搜索,提供负载均衡和故障自动迁移
  • 事务日志确保不会丢失任何一个未提交的文档
  • Real-time Get ? 可快速获取文档的最新版本,无需提交或者打开一个新的 Searcher
  • 原子更新,可添加、删除、修改和增加已存在文档的字段值,无需再次传送整个文档
  • Pivot Faceting ? 多层次约束每一个不同 field 的顶级约束。
  • Pseudo-Join 功能? 可基于关联度来选择一组文档
  • 新的 Web 管理界面,支持 SolrCloud.

参考:
http://lucene.apache.org/core/4_0_0-ALPHA/changes/Changes.html
http://lucene.apache.org/solr/

加载中
0
zplswf
zplswf
FuzzyQuery 这个模糊能提高吗?
mj4738
mj4738
强大
zplswf
zplswf
研究下!谢谢
红薯
红薯
FuzzyQuery 性能提升 100-200 倍
0
飞天奔月
飞天奔月

Pseudo-Join 功能? 可基于关联度来选择一组文档 


这条貌似比较强大  等看 example

0
FoxHu
FoxHu
谢谢分享,学习下!
0
0day
0day
我喜欢~~
0
黄平俊
黄平俊
Facet search在3.6就提供了~~~用起来相当不方便~~~
lindent
lindent
facet solr1.x时就有了,效果很好
0
东旭nginx
东旭nginx

关注,solr用起来还是很方便的。

0
jeff-dou
jeff-dou
目前 稳定版的lucene 是那个版本呢?
返回顶部
顶部