jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.8.9发布了: 具体更新如下: 1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了). 2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jcseg的词性标注主要依赖词库来实现. jcseg词性 3. IStringBuffer#deleteCharAt bug修复. 这个感谢...
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.8.8版本发布了, 这次的更新项比较多, 主要如下: 1. 中英混合词的识别: 不是已经支持中英混合词的识别了吗? 哈, 只能说是我说错了, 那是英中混合词的识别, 例如: b超, x射线. 这次的词是诸如: 卡拉ok, 奇都ktv, 漂亮mm等中文在前, 英文在后的词. jcseg专门为此类词条建立了一个词库分类, 存放在lex-cemixed.lex词库中. 原来的lex-m...
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg 1.8.7版本发布了: 1. 更改了内部设计, 加入JcsegTaskConfig类描述一次分词任务中的配置. 可以更好的适用多线程环境或者说多配置需求. 2. 发布了一份完整的开发帮助文档"Jcseg开发帮助文档.pdf". 很多网友发邮件或者在Issue里面留言说能不能有一份完整的开发文档. 赶紧写了一份帮助文档, 请到Download中下载, 并且里面的例子是围绕1...
关于jcseg 1.8.6版本: 1. 修复些许词条(些许词库在切分过程中会进入中文数字识别程序中, 默认情况下jcseg没有追加中文数字的同义词)无法追加同义词的bug. 2. 加入所有类别词库停止词过滤功能, 先前版本只支持CJK词条切分停止词过滤. 3. 词库中加入了些许新词. 感谢网友的关注和反馈. 特别是uu...@qq.com
最近连续升级3个版本了, jcseg 1.8.5来了: 1. 加入了中文分数转阿拉伯分数的开关选项. 因为1/3会导致lucene的parser错误, 不得不说lucene很霸道. 2. 修复停止词过滤时, 数字开头的词条无法过滤的bug. 3. 加入solr分词工厂JcsegTokenizerFactory, jcseg正式支持为solr服务. 如何配置 4. 加入了README.txt文档. 5. 加入了LISENSE.txt Apache lisence授权文档. 6. 去除了某些词库类型词条加载长度限制, 例如stopwords的英文词长就不...
今天早上发布的1.8.2版. 很快就有网友发来Issue, 这让我想起了几个一直没有解决的小问题, 干脆一鼓作气. jcseg 1.8.3版改进如下: 1. 修复了姓名识别方法里面因lex-chars.lex中找不到对应的词而抛出NullPointerException的bug, 这是个老问题了, 以前有网友提醒过, 总忘记了, 今天彻底消灭了. 2. 加上中文数字转阿拉伯数字的开关选项, 默认开启. 修改jcseg.properties文件中jcseg.cnnumtoarabic选项为0来关闭该功能, 想想有的项目...
jcseg 1.8.2版发布了: 1. 新加入英文停止词过滤, 虽然在1.8.1版中就加入了停止词过滤功能, 但是那是中文的, 忘记把英文的加上去了. ^_^. 2. 去除同义词长度大于Config.MAX_LENGTH的同义词加载. 词条同义词集合中, 长度大于Config.MAX_LENGTH的同义词没有必要追加到词库中. 3. 应网友要求, 升级JcsegAnalyzer到JcsegAnalyzer4X, 用于支持最新版lucene4.3, 在此感慨下lucene API更新太快了, 而且变化也挺大的. 用法: Analyzer jc...
jcseg 发布 1.8.1版: 1. 修复因为IStringBuffer而导致姓名识别时出现的错误切分. 2. 修复了IStringBuffer的IStringBuffer(String) 构造方法错误(不影响使用,目前这个方法还没用到). 3. 优化了词库, 加入了一些新词. 感谢zhuzhiyunzzy兄的反馈, 同时感谢广大网友的支持.
jcseg发布1.8.0版了: 1.加入了停止词过滤功能,jcseg为该类词条专门加了lex-stopword.lex词库文件。并且在jcseg.properties中加入了jcseg.clearstopword开关选项。1开启停止词去除功能,0关闭该功能,默认是关闭的。 2.优化了字符串缓冲的使用,原本的jcseg中频繁的创建StringBuilder,可想而知会造成不必要的内存申请和回收资源消耗,这个版本中Jcseg引入了IStringBuffer类,主类切分过程中,所有的方法中重复利用一个全局的I...
jcseg 1.7.2版发布了: 1。去除了英文无用标点的切分。 2。新加入字母和标点组合词的识别,例如:c++, g++, c#等等。 (为此jcseg新加入了一个词库 lex-en-pun.lex,专门用于存放该类词条。) 3。加入中文数字单字单位的识别,例如:五折,十年……,并且jcseg会自动将其转换成阿拉伯数字和单位的组合加入到分词结果中,例如上述会转换为:5折,10年 。 4。为了统一和方便,将英文的切分结果全部转换了为小写,并且lex-mixed.l...
jcseg 1.7.0版发发布了。 1。词库整合了《现代汉语词典》和cc-cedict词库的所有词条。 2。增加了词条的同义词功能。只要在词库词条中加入该词的同义词集合,在jcseg.properties中配置加载同义词,jcseg会自动将同义词加入到分词结果中。(当然也可以配置不加载同义词,节省内存)。jcseg新词库 3。增加了词条的拼音功能。只要在词条中加入该词的拼音(目前所有的词条都已经标注上了拼音),在jcseg.properties中配置加载词条拼音。...