ikanalyzer 分词如何保留完整html标签

zqb666 发布于 2014/07/14 22:02
阅读 710
收藏 0

ikanalyzer 分词的时候 比如这种:<p>发送佛挡杀佛第三方第三方的手</p><br/><br/>法国放松放松的辅导书

分出来会变成这样:p|发....br|...

就是标签会被去掉 < >这种符号

我工作中的需求是给文章中关键字添加关键字而已 如果按照ik的这种方式 会破坏文章的样式结构

请问该如何做? 


以下是问题补充:

@zqb666:坐等大神 回答 (2014/07/14 22:03)
加载中
0
zqb666
zqb666
自己顶一下
0
CraneH
CraneH
没用过分析,但照你这个问题来看,个人觉得应该先去除html标签然后分词,分词后根据分词结果再去匹配关键字给他们添加关键字吧,个人拙见
0
zqb666
zqb666

问题解决了 还是ik的 CharacterUtil类里 identifyCharType方法 默认把CHAR_USELESS改成返回 CHAR_CHINESE就不会有问题

问题是我已经改了还是有问题结果 我调试断点进去看了下 发下调试这么一跑完这个问题就没了,标点符号什么的也回来了 ,奇怪了 难道java有缓存?

0
zqb666
zqb666
 一度绝望的我
就这样看到了曙光
难道是命运对我的考验
让我坚持到底
返回顶部
顶部