我想问的是这个IKAnalyzer必须和lucene搭配吗?能否独立进行分词的?

冰封情 发布于 2011/03/24 17:32
阅读 1K+
收藏 5

解读下一代网络:算力网络正从理想照进现实!>>>

 如题

加载中
0
红薯
红薯

似乎不行吧,加个lucene的jar包就可以了啊

0
小鸵鸟
小鸵鸟

可以独立.

IKSegmentation iks = new IKSegmentation(read);

while (true) {

Lexeme lex = null;

...

lex = iks.next();

lex.getLexemeText();

....

}

0
冰封情
冰封情

引用来自#3楼“小鸵鸟”的帖子

可以独立.

IKSegmentation iks = new IKSegmentation(read);

while (true) {

Lexeme lex = null;

...

lex = iks.next();

lex.getLexemeText();

....

}

 非常感谢你的答复:

我看了用这个方法,分词出来是不是还需要进行处理呢?

我分出来是这样的

我 | 想问 | 的 | 是 | 这个 | ikanalyzer | 必须 | 和 | lucene | 搭配 | 吗 | 能否 | 独立 | 进行 | 分词 | 的 |

再经过怎么样的方法从上面得到关键词呢?

谢谢

0
小鸵鸟
小鸵鸟

#4:

lex.getLexemeText()

这个不就是获得了单个分词嘛?  没明白你意识.

0
冰封情
冰封情

可能楼上有点误解,也许是我没说清楚,其实我想表达的意思是中title中提取关键词,现在我知道了这个实现有点困难,不是一般就可以实现的

0
冰封情
冰封情

打个比方:我的文章标题是《2011年地税局党组书记在三八妇女节致辞讲话》

经过分词处理后的结果:
//调用了SmartChineseAnalyzer方法
2011 | 年 | 地税局 | 党组 | 书记 | 在 | 三 | 八 | 妇女节 | 致辞 | 讲话
//直接用IKSegmentation
2011 | 年 | 地税局 | 地税 | 税局 | 党组书记 | 党组 | 书记 | 记在 | 在三 | 三八妇女节 | 三八 | 八 | 妇女节 | 妇女 | 致辞 | 讲话

按照上面显然肯定不是最好的,合理的应该是:
2011年 | 地税局 | 党组书记 | 三八妇女节 | 致辞 | 讲话
如果能这样切割出来,那中间估计不是这样简单就能实现了,所以这个问题估计有点深度。不知道哪位童鞋有研究过呢?

0
小鸵鸟
小鸵鸟

引用来自#8楼“冰封情”的帖子

打个比方:我的文章标题是《2011年地税局党组书记在三八妇女节致辞讲话》

经过分词处理后的结果:
//调用了SmartChineseAnalyzer方法
2011 | 年 | 地税局 | 党组 | 书记 | 在 | 三 | 八 | 妇女节 | 致辞 | 讲话
//直接用IKSegmentation
2011 | 年 | 地税局 | 地税 | 税局 | 党组书记 | 党组 | 书记 | 记在 | 在三 | 三八妇女节 | 三八 | 八 | 妇女节 | 妇女 | 致辞 | 讲话

按照上面显然肯定不是最好的,合理的应该是:
2011年 | 地税局 | 党组书记 | 三八妇女节 | 致辞 | 讲话
如果能这样切割出来,那中间估计不是这样简单就能实现了,所以这个问题估计有点深度。不知道哪位童鞋有研究过呢?

new IKSegmentation(read, true)

这样试试, 这是以最大词长切分, 相对来说要好点.

你需要的这种对结果要求太完美了, 可能无法实现. 毕竟中文分词本来就是根据词库来的.

添加自定义词库有可能能达到你的要求. 但是这个的工作量是很庞大的, 还不如在录入数据时就给把关键词给定好.

以上纯属个人意见, 如果找到合适的解决方法, 请PM我/

0
栗子太重举不动
栗子太重举不动

这个需要语义识别...

0
冰封情
冰封情

引用来自#9楼“小鸵鸟”的帖子

引用来自#8楼“冰封情”的帖子

打个比方:我的文章标题是《2011年地税局党组书记在三八妇女节致辞讲话》

经过分词处理后的结果:
//调用了SmartChineseAnalyzer方法
2011 | 年 | 地税局 | 党组 | 书记 | 在 | 三 | 八 | 妇女节 | 致辞 | 讲话
//直接用IKSegmentation
2011 | 年 | 地税局 | 地税 | 税局 | 党组书记 | 党组 | 书记 | 记在 | 在三 | 三八妇女节 | 三八 | 八 | 妇女节 | 妇女 | 致辞 | 讲话

按照上面显然肯定不是最好的,合理的应该是:
2011年 | 地税局 | 党组书记 | 三八妇女节 | 致辞 | 讲话
如果能这样切割出来,那中间估计不是这样简单就能实现了,所以这个问题估计有点深度。不知道哪位童鞋有研究过呢?

new IKSegmentation(read, true)

这样试试, 这是以最大词长切分, 相对来说要好点.

你需要的这种对结果要求太完美了, 可能无法实现. 毕竟中文分词本来就是根据词库来的.

添加自定义词库有可能能达到你的要求. 但是这个的工作量是很庞大的, 还不如在录入数据时就给把关键词给定好.

以上纯属个人意见, 如果找到合适的解决方法, 请PM我/

 首先非常感谢你的答复

另外我设置了read,true参数,

我也弄了自定义的词库

现在唯一有点问题的就是怎么在前面已经出现的单词,后续不需要再次组匹配

经济学院学生工作2003工作总结>>>经济学院 | 学院学生

直接让他滚到 学生工作 这个匹配上来,这样就完美了

返回顶部
顶部