ikanalyzer 自定义分词没有效果

lufeng 发布于 2013/01/14 12:48
阅读 561
收藏 0

代码如下:

我想把“e本通”分成一个词,使用了loadExtendWords方法来自定义分词,但是实际分出来的词还是"e","本","通", 便是"你呢“却可以分成一个词,不知道有没有知道是什么问题。

       ArrayList<String> dictWords = new ArrayList<String>();

        dictWords.add("沃尔沃cx60");
        dictWords.add("你呢");
        dictWords.add("e本通");
        org.wltea.analyzer.dic.Dictionary.loadExtendWords(dictWords);


        String content = "沃尔沃cx60 我们来了,你呢e本通";
        InputStreamReader input = new InputStreamReader(new ByteArrayInputStream(content.getBytes()));
        IKSegmentation segmentation = new IKSegmentation(input, true);


        Lexeme lex = segmentation.next();


        while (lex != null) {
            String word = lex.getLexemeText();
            lex = segmentation.next();
            System.out.println("W:"+word);

        }

}

加载中
0
此号已注销
此号已注销
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">ext.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">stopword.dic;</entry> 
	
</properties>
lufeng
lufeng
我是动态加入扩展词的,可以不用字典吗? 难道这个接口有问题,还是我用的方法不对。我用的是ikanalyzer 2012 u2。谢谢。
返回顶部
顶部