java中有什么关键词提取的第三方jar包

开源中国首席煤工 发布于 2013/08/20 09:32
阅读 3K+
收藏 0
如题,现在做一个项目要用到关键词提取的功能,要提取到一段文字中能反应主题的几个关键词。由于时间比较紧急,哪位大神给介绍一个!
加载中
0
liangtee
liangtee
这位同学你好!对于这种问题基本流程是: 1.分词,工具有很多,比如ik 2.tf-idf算法计算词的权重,然后排序
0
红薯
红薯
使用 IKAnalyzer 对文章内容进行分词,然后提前词频最高的那些词
0
开源中国首席煤工
开源中国首席煤工

引用来自“红薯”的答案

使用 IKAnalyzer 对文章内容进行分词,然后提前词频最高的那些词
因为之前我试过结巴分词的关键词提取功能,所以想了解下有没有java的关键词提取的包。非常感谢,就按照你说的做。
0
开源中国首席煤工
开源中国首席煤工

引用来自“红薯”的答案

使用 IKAnalyzer 对文章内容进行分词,然后提前词频最高的那些词

老大,还有一个问题,就是我提取到词频最高的词,是一些无用的,不能代表这篇文章的特点,比如
网络             的次数为40
名人             的次数为18
底线             的次数为13
社会             的次数为13
信息             的次数为12,


红薯
红薯
思路是这样,具体你要根据实际情况去考虑
0
开源中国首席煤工
开源中国首席煤工

引用来自“大杨杨杨”的答案

引用来自“红薯”的答案

使用 IKAnalyzer 对文章内容进行分词,然后提前词频最高的那些词

老大,还有一个问题,就是我提取到词频最高的词,是一些无用的,不能代表这篇文章的特点,比如
网络             的次数为40
名人             的次数为18
底线             的次数为13
社会             的次数为13
信息             的次数为12,


好的,谢谢
IdleMan
IdleMan
信息增益 开方检验 可能适合你
0
开源中国首席煤工
开源中国首席煤工

引用来自“liangtee”的答案

这位同学你好!对于这种问题基本流程是: 1.分词,工具有很多,比如ik 2.tf-idf算法计算词的权重,然后排序
非常感谢提供的思路,目前我用的是ik,现在在找一个合适的词库。
0
liangtee
liangtee

引用来自“大杨杨杨”的答案

引用来自“liangtee”的答案

这位同学你好!对于这种问题基本流程是: 1.分词,工具有很多,比如ik 2.tf-idf算法计算词的权重,然后排序
非常感谢提供的思路,目前我用的是ik,现在在找一个合适的词库。
文章的关键词要用tf-idf算法去计算。。。
返回顶部
顶部