lucene分词如何实现

Poland 发布于 2012/08/14 14:09
阅读 366
收藏 0

例如  (提问 ; 技术分享 ; IT大杂烩 ; 职业生涯 ; 站务/建议)

在text中输入上面的中文在用分号隔开同时实现索引所有相关联的数据,大师要如何实现?

加载中
0
鉴客
鉴客
用分号进行分词,可用 StringTokenizer 类来实现。
0
十一文
十一文

分词 是指 把稳占切分成一个个词,

例如把楼主这句“在text中输入上面的中文在用分号隔开同时实现索引所有相关联的数据,大师要如何实现?”

分成:

teext 输入 中文 分号隔开 索引 关联


lucene 是索引工具 ,但是其自带有分词功能。你可以查看哈lucene自带的示例貌似是有的。

但是其分词功能业界都说不好。你得找专门的中文分词工具看看!自己google一下还是很多的!


0
曾杰
曾杰
建议你去看看Analyzer和TokenStream的作用和实现源码后你就知道了
返回顶部
顶部