detect_mode分词错误以及动态添加词库问题

沁夜 发布于 2015/05/21 10:43
阅读 645
收藏 0

@狮子的魂 你好,想跟你请教个问题:

我在使用DETECT_MODE模式分词时,发现一个很严重的错误,分词后词的offset不对,term的startOffset始终为0,如下图所示。

这种错误会导致FastVectorHighlighter无法正常高亮。

另外还有一个问题,如何在索引过程中动态的添加词库。如有两个待索引的文本doc1,doc2,两个文本按照某种规则(可以是正则)分别提取到词汇word1,word2(jcseg词库中均不包含该词)要求:在对doc1进行索引时,对文中出现的word1不进行分词(相当于将“word1”当作jcseg中的“CJK_WORDS”词库,但不将其添加进词库文件中,而是添加至Dictionary.dics中),对doc2进行索引时,同样对word2不进行分词,但是对doc2中出现的word1进行分词,  请问有没有好的实现办法?

加载中
0
狮子的魂
狮子的魂

下载使用的最新的代码,前不就提交了修复代码。

至于你的第二个需求,肯定是可以实现,需要你自己去二次开发对Jcseg的词库进行操作。

ADictionary dic = ASegment.getDict();

然后调用set,add,delete等方法来操作词库即可。

0
沁夜
我用的就是最新的代码,还是出现了这人问题。
狮子的魂
狮子的魂
好,我确认下。可以先使用complex或者simple模式来代替,那两种模式没有问题。
返回顶部
顶部