2
回答
我想使用Jcseg做同义词合并,请教一下这部分是要怎么实现?
利用AWS快速构建适用于生产的无服务器应用程序,免费试用12个月>>>   

@狮子的魂 你好,想跟你请教个问题:最近在做文本分类,分词过程中我想将同义词进行合并,或者同义词统一用一个词来进行替代,这样方便后面的词频统计,请问一下Jcseg来进行分词的时候,怎样进行同义词合并,这部分是要怎么实现?

<无标签>
举报
lily_wang555
发帖于9个月前 2回/126阅

哈哈,这个你问到我了,Jcseg目前只有同义词展开使用,还确实没考虑过要把同义词合并,我尝试看能否加入到版本计划。

目前你可以按照如下方式来实现:

1,整理一份同义词词库,格式可以如下:词根/同义词1,同义词2... (同义词都会被合并成词根这个词条)。

2,构建一个Hash,存储如下映射:

同义词1 => 词根,同义词2 => 词根 ... 

3,对Jcseg切分出来的词条进行同义词合并,基本逻辑如下:

IWord word = null;
while ( (word = seg.next()) != null ) {
    String value = word.getValue();
    String newVal = synWordHash.get(value);
//如果newVal有,就是这个词应该替换成的根词,这样下来全部的同义词都替换成了根词条了
}

//剩下的问题就是收集同义词词库,Jcseg集成了部分,也不是很全,可以参考!

 

顶部