Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!
Jcseg 2.0.0更新如下:
1. 增加自定义词库开发文档(查看README)。
2. 完善关键字提取,关键短语提取,关键句子,自动摘要提取的自定义开发文档(查看README)。
3. 文档增加词库自动加载lex-autoload.todo权限提示(启动时检测权限,如果权限不够会提示)
4. DictionaryFactory增加如下两个接口方便自定义词库开发
createDefaultDictionary(JcsegTaskConfig config, boolean sync, boolean loadDic) createSingletonDictionary(JcsegTaskConfig config, boolean loadDic) /* * loadDic 用于控制工厂是否自动从config检测并且加载词库,兼容旧版本的默认是自动监测加载 * 方便用户自定义加载自己的设置的词库 */
5. 修复了并发情况下IWord#position可能的污染bug,这个bug会导致lucene的高亮错误。
6. 优化了复杂英文组合的二次切分,确保返回词条后者的startOffset大于等于前者的,这个bug也会导致lucene默认的高亮机制错误。
maven仓库同步中,下载/git仓库:https://github.com/lionsoul2014/jcseg
引用来自“554330833a”的评论
自己实现的分词算法吗?准确率高吗😃