Java分布式中文分词组件 word分词

GPL
Java
跨平台
2014-04-26
杨尚川

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

的码云指数为
超过 的项目
加载中

评论(1)

l
liuyuan3
elasticsearch 2.4.4版本,该用word分词器哪个版本的,v1.2 1.3 1.4都试过都报错

word v1.3.1 发布,Java 分布式中文分词组件

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名...

2015/10/05 18:22

word v1.3 发布,Java 分布式中文分词组件

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名...

2015/08/29 04:14

Java分布式中文分词组件word分词v1.2发布

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名...

2015/04/11 09:30

Java 中文分词组件 word 分词 v1.0 发布了

word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录...

2014/05/01 00:53

没有更多内容

加载失败,请刷新页面

没有更多内容

5
回答
freemaker生成word,不能在线浏览
chy111 的回答 2016/06/21 15:32
最佳答案
http://www.zhuozhengsoft.com/ 推荐试用一下卓正软件的pageoffice,可以轻松实现在线编辑浏览word文档
7
回答
java 操作word相关问题?

目前大家做过的java操作word的第三方工具有哪些啊? 我需要实现的功能比较复杂,需要读取word里面的类容,当然也包括格式,然后替换里面的类容,并用这...

2015/04/05 19:39
7
回答
关于java poi读取word段落内容疑问

word1打印的段落内容 word2打印的段落内容 代码如下     /** * 替换段落中的内容 * @param paragrap...

2016/01/07 14:09
3
回答
word分词器的数据维护

@杨尚川 川哥你好,请教一个问题。 目前我们公司自己的垂直搜索,用的就是你的word分词器,效果也比较好,也比较稳定。目前我们采用的算法是最大Ngram分...

2017/05/25 15:09
1
回答
word2010保存时候卡顿白屏求解决

win7系统,内存充足(4+8) word2010粘贴、修改保存的时候都出现卡顿白屏,没有错误提示,求解

2017/01/10 13:49
4
回答
Solr6.3.0 采用word1.3分词器 高亮显示异常

@杨尚川 你好,想跟你请教个问题: 我在Solr6.3.0上采用word.1.3.jar作为分词器,相应的配置也都按github上的改了,分词没问题,但是...

2016/12/13 10:09
9
回答
win10 装了libreOffice 打开之前用WPS编写的word文档全乱码

win10 装了libreOffice 打开之前用WPS 编写的word文档全乱码 请给个详细解决方法,别让我去找度娘了,全是ubuntu版本的 郑重声明...

2016/10/21 18:04
1
回答
jsp 页面怎么完美转为word,PDF?

最近在做一个简历的网站,怎么把在线的JSP页面转为word,PDF呢,保持CSS跟图片效果。有没有成熟的框架呢

2016/08/29 13:42

没有更多内容

加载失败,请刷新页面

Leet Code 72 Edit Distance - 编辑距离 - Java

Leet Code 72 Edit Distance - 编辑距离 - Java

2016/06/25 20:41
114
0
php实现文档在线预览

<?php /* * 必须将 php.ini 中的 com.allow_dcom 设为 TRUE */ function php_Word($wordname,$htmlname,$content) { //获取链接地址 $url = $_SERVER['HTTP_HOST'];//主机地址,类似localho...

2014/04/25 14:03
168
0
CSS技巧:word-wrap同word-break的区别

本文列举了兼容 IE 和 FF 的换行 CSS 推荐样式,详细介绍了word-wrap同word-break的区别。

2015/01/27 17:36
42
0
php导出word格式数据

发布:thatboy 来源: 脚本学堂 【 大 中 小 】 分享一例php导出word格式文件的代码,一个导出内容为word文档的php类,分享给大家,感兴趣的朋友参考学习下。 本节内容: 一个php 导出word文...

2013/11/14 16:22
218
0
python三国演义人物出场统计

import jieba excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何", "主公","军马","左右",} txt = open("./三国演义.txt", "r", encoding='utf-8').read(...

2019/02/12 10:55
112
0
在矩阵中查找字符串 Word Search

问题: Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those...

2017/09/17 10:30
20
0
BYTE,WORD,DWORD的大小及一些特殊的"高低位宏"

一、定义 在VC6.0的Microsoft Visual Studio/VC98/Include/windef.h 里,定义了BYTE,WORD,DWORD typedef unsigned long DWORD; typedef unsigned char BYTE; typedef unsigned short WORD; 在...

2017/07/27 16:58
322
0
python处理word文件:win32com用法详解

目标:用python处理doc文件 方法:引入win32com模块 ************************************************************************** 一、安装 ********************************************...

2014/07/21 19:29
1.8W
1
使MySQL查询区分大小写的实现方法

1、一种方法是可以设置表或行的collation,使其为binary或case sensitive。在MySQL中,对于Column Collate其约定的命名方法如下: *_bin: 表示的是binary case sensitive collation,也就是说...

2015/05/21 21:09
32
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部