lucene搜索结果排序问题

yukjin 发布于 2014/10/15 16:07
阅读 501
收藏 0

@红薯 你好,想跟你请教个问题:

使用的是默认的通过document的打分结果影响排名,现在有个问题,当我搜索关键字android sdk时含有android sdk关键字的文档却排在了含有android关键字的后面,如何解决?在中文关键字方面,比如我检索“本文档”,含有“文档”关键字的文档排名排在了含有“本文档”关键字文档的前面。

我感觉是因为分词将android sdk分成了两个词,在检索android sdk时由于没有这个词需要一定的编辑距离得到,因此使打分降低。

如果通过改变打分策略来让结果更加合理,或者有没有其它方法实现我的需求?

加载中
0
红薯
红薯
我没什么办法:)
0
Tanweijie
Tanweijie

包含android的句子比包含android sdk 的句子是不是短很多?

Tanweijie
Tanweijie
回复 @yukjin : 可以用setOperateXXX(AND)的条件限制过滤搜索结果,不过这样只包含“android”的搜索结果就没了,不知道怎么来比较好==。
yukjin
yukjin
回复 @小檀 : 是会影响,但我感觉关键是虽然你搜的是android sdk,但是其实分成两独立的词然后检索的,索引里存的是android,android打分自然高,我想可以通过扩展词库来解决,见索引的时候不要让分词把android sdk分开了,这样应该就可以了
Tanweijie
Tanweijie
回复 @yukjin : 比如说包含“android”的句子只有200个字,但是包含“android sdk”的句子有一千个字好像这样也是会有影响的
yukjin
yukjin
你是说词频影响了结果?我之前试着把在打分里去掉词频的影响,排名还是不变
0
刀剑千秋
刀剑千秋
路过 我没出现过这样的问题
返回顶部
顶部