jieba 词性标注是怎么实现的?

zrz55661 发布于 2013/07/03 18:08
阅读 4K+
收藏 0

@sunjunyi 你好,想跟你请教个问题:

1. 最近在做分词相关的工作,看到jieba支持词性标注,不知道是怎么实现的?

2. 反观java的实现方式,你的代码量相当少,你是怎么做到的?有什么神奇的算法么?

加载中
0
fxsjy
fxsjy
结巴分词的词性标注很简单:1)如果词典中有,就从词典中读取该词的词性;2)如果词典中没有该词,用viterbi算法来估计,viterbi算法中的状态是复合状态(位置+词性),比如('B','n')表示名词的开始。详见:https://github.com/fxsjy/jieba/blob/master/jieba/posseg/prob_trans.py
0
zrz55661
zrz55661

我爱你  词性标注结果:我爱你/l 

我爱她  词性标注结果:我/r 爱/v 她/r

这个原因是? 

返回顶部
顶部