word分词 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
word分词 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
word分词 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
word分词 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
word分词 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 GPL
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
提 交 者 杨尚川
适用人群 未知
收录时间 2014-04-26

软件简介

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (1)

加载中
打分: 力荐
elasticsearch 2.4.4版本,该用word分词器哪个版本的,v1.2 1.3 1.4都试过都报错
2017/03/28 09:43
回复
举报
更多评论
发表了资讯
2015/10/05 00:00

word v1.3.1 发布,Java 分布式中文分词组件

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同...

9
86
发表了资讯
2015/08/29 00:00

word v1.3 发布,Java 分布式中文分词组件

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同...

0
51
发表了资讯
2015/04/11 00:00

Java分布式中文分词组件word分词v1.2发布

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。 自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、支持资源变化自动检测、新增了全切分算法、支持三元模型、支持L...

5
114
发表了资讯
2014/05/01 00:00

Java 中文分词组件 word 分词 v1.0 发布了

word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。 word分词提供了简单易用的分词接口,支持Lucene、Solr、ElasticSearch,支持用户显式指定分词算法,支持用户自定义配置文件、自定义用户词库,支持自动检测词库变化。此外,还提供了分词...

9
63
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于大前端专区
2015/01/28 21:26

word-break:break-all和word-wrap:break-word

word-break:break-all和word-wrap:break-word都是能使其容器如DIV的内容自动换行. 它们的区别就在于: 1,word-break:break-all 例如div宽200px,它的内容就会到200px自动换行,如果该行末端有个英文单词很长(congratulation等),它会把单词截断,变成该行末端为conra(congratulation的前端部分),下一行为tulation(conguatulation)的后端部分了. 2,word-wrap:break-word 例子与上面一样,但区别就是它会把congratulation整个单词看...

0
0
发表了博客
2018/08/21 15:10

word-break 与 word-warp

  MDN对两者定义如下:   word-break: 指定了怎样在单词内换行。   word-wrap: 当一个不能被分开的字符串太长,而不能填充其包裹盒子时,为防止溢出,浏览器是否是否允许这样的单词中断换行。   CSS3 现在的文本规范草案中已经被重名为 overflow-wrap 。 word-wrap 现在被当作 overflow-wrap 的 “别名”。    word-break语法: word-break: normal word-break: break-all // 对于non-CJK (CJK 指中文/日文/韩文)...

0
0
发表了博客
2018/02/23 23:53

word-wrap:break-word;和word-break:break-all;的区别

如何区分word-wrap:break-word;和word-break:break-all;?????   刚看到了这两个属性,心里一万句草泥马,怎么还有这么像的属性,不仅像还拗口,死记硬背肯定记混.所以就问了度娘把我的理解整理一下. 首先 总说一下这两个属性的作用:断句!   这两个属性作用于英文还有数字 ,浏览器把数字和长串的英文包括url地址会当做一个单词处理,如果该单词所在的行显示不下的话,就会整体换行处理. 如果对于特别长单词不加上面的属性的样式,显...

0
0
发表于软件架构专区
2013/12/14 23:55

word

------------------ +++++++++++++++ http://www.ibm.com/developerworks/cn/aix/library/1007_wuxh_libtool/index.html ------------------

15
0
发表了博客
2016/07/05 22:33

poi操作word模板(word2003,word2007)

近期老师给了个任务,要通过Word模版生成各类文档,主要就是将类似%title%,%name%,%content%等标签,通过类的方法,查询数据库并替换标签,上网查了一下,发现POI对文档操作比较不错,Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。Word2003的方法比较简单,大致通过Range替换文本,Word2007比较复杂点,遍历替换文本,参考了网上的案例,写了个demo,直接上代...

0
0
发表了博客
2019/11/26 16:34

Word打印技巧:word如何打印?

Word给用户提供了用于创建专业而优雅的文档工具,帮助用户节省时间,并得到优雅美观的结果。一直以来,Microsoft Office Word 都是最流行的文字处理程序。Word作为最常被使用的文本编辑工具在日常工作学习中被广泛使用。随之对于文档打印自然也有着不小的需求。下面就给大家分享几条Word打印技巧。 Word打印技巧一: 如果你有一篇很多页的文档需要打印,按照Word中的默认设置总是从第一页打印到最后一页,所以整篇文档打印完后是...

0
0
发表了博客
2018/07/09 17:11

读取word到二进制,再转成word

static void Main(string[] args) { try { var strParams = new Dictionary<string, string>(); string base64 = string.Empty; var userName = ConfigurationManager.AppSettings["UserName"]; PDFSourceBaseGenerator instance = new PDFSourceBaseGenerator(); var pdfgen = new GeneratePDF(); ...

0
0
发表了博客
2018/09/12 09:50

Word VBA(批量复制Excel表格和Word表格到Word中)

Word VBA(批量复制Excel表格和Word表格到Word中) Function Test() '使用双字典 SearchPath = FolderDialog("请选择文件夹") If SearchPath = "" Then Exit Function End If WordName = SplitPath(CStr(SearchPath), 1) Dim sFile As Object, fso As Object Set fso = CreateObject("Scripting.FileSystemObject") Set logFile = fso.CreateTextFile(SearchPath & WordName & "日志.txt", True) Dim MyWord As Word.Application...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2015/03/27 14:47

研究了好几天,如何通过java将多个word文档合成一个word文档?

23
0
发表了问答
2016/06/07 14:28

freemaker生成word,不能在线浏览

用office软件把doc文档另存为xml,再把xml变为freemarker模板,然后通过freemarker替换里面的变量数据。生成的doc文档不是真正的word,虽然能用wps或office正常打开。但不能在线浏览。用文本编辑器打开看文档结构,根本不是ms word的文档结构,还是xml的文档结构,请问怎样才能转换成ms word 标准文档呢?

5
1
2015/04/05 19:39

java 操作word相关问题?

目前大家做过的java操作word的第三方工具有哪些啊? 我需要实现的功能比较复杂,需要读取word里面的类容,当然也包括格式,然后替换里面的类容,并用这些内容生成一个新的PDF文件,有操作word经验的出来说句哈,要真正做的哟,能获取到word的类容和样式。

9
0
发表了问答
2016/01/07 14:09

关于java poi读取word段落内容疑问

word1打印的段落内容 word2打印的段落内容 代码如下     /** * 替换段落中的内容 * @param paragraphList 段落集合 * @param param 要替换的内容map集合 * @param doc CustomXWPFDocument对象 */ public static void processParagraphs(List<XWPFParagraph> paragraphList,Map<String, Object> param,CustomXWPFDocument doc){ if(paragraphList != null && pa...

7
0
发表了问答
2017/06/21 09:04

word完美转pdf 不安装插件 .exe文件的前提下

1
0
发表了问答
2017/05/25 15:09

word分词器的数据维护

@杨尚川 川哥你好,请教一个问题。 目前我们公司自己的垂直搜索,用的就是你的word分词器,效果也比较好,也比较稳定。目前我们采用的算法是最大Ngram分值算法。 这里想问一下的是,最大Ngram算法需要依赖2个点(1.词库,2.语料库),这些数据如何进行维护呢,或者说有没有哪个地方有提供下载,这样每隔一段时间我能够更新一次基础数据?

3
0
发表了问答
2017/01/10 13:49

word2010保存时候卡顿白屏求解决

win7系统,内存充足(4+8) word2010粘贴、修改保存的时候都出现卡顿白屏,没有错误提示,求解

1
0
发表了问答
2016/12/13 10:09

Solr6.3.0 采用word1.3分词器 高亮显示异常

@杨尚川 你好,想跟你请教个问题: 我在Solr6.3.0上采用word.1.3.jar作为分词器,相应的配置也都按github上的改了,分词没问题,但是高亮出现了很多偏差,在网上搜了很多方案,基本都是说分词器有问题。 并且确定是solr产生的高亮错位,不是内容有什么特殊HTML字符导致的错位 请问这到底是什么原因?该如何修复和调整?是1.3的bug吗? 参考资料:http://www.zihou.me/html/2009/04/16/314.html...

7
0
发表了问答
2016/10/21 18:04

win10 装了libreOffice 打开之前用WPS编写的word文档全乱码

win10 装了libreOffice 打开之前用WPS 编写的word文档全乱码 请给个详细解决方法,别让我去找度娘了,全是ubuntu版本的 郑重声明 我的系统是 WIN10 WIN10 WIN10 中要的事说三遍

11
0
发表了问答
2016/08/29 13:42

jsp 页面怎么完美转为word,PDF?

最近在做一个简历的网站,怎么把在线的JSP页面转为word,PDF呢,保持CSS跟图片效果。有没有成熟的框架呢

3
0
发表了问答
2014/12/11 16:16

java poi怎么读取word 文档每段自动生成的序号,读取word目录结构急

poi3.8 hwpfdocument 读取word 文档,没法独到word 文档每段开头的自动生成的序号

5
0
发表了问答
2016/01/06 19:00

动态替换word模板内容思路

1.用户有这么一个需求: 到月度、季度、年度总结的时候,领导下发一个工作总结模板,等所有下属单位填写完成后,系统会将所有的word文件汇总到一个word文件中。 2.他们现在的做法是: 领导用邮箱将word模板发给各个下属单位,各个下属单位填写好后,发回邮件到领导,由领导来进行汇总操作(就是将各个单位发回的word文件汇总到一个word中)。操作非常繁琐,因为当有多篇总结模板下发到下属单位的时候,领导会不定时的收到各个下...

20
0
发表了问答
2015/12/16 07:58

请问分词器的词典里的词存在空格怎么处理?

@杨尚川 你好,想跟你请教个问题: 当想我使用Word想对一些文本进行分词时,我想能分出这样带空格的词,如:Uniform Server 但是,我即使把Uniform Server这个词加入到main_dic.txt主词典中,我也没有办法得到分词:uniform server。请问我有什么办法能得到这种带空格的词吗? 谢谢

7
0
发表了问答
2015/10/09 18:45

关于Word1.3

@杨尚川 你好,想跟你请教个问题: 我在是一个初学者 在使用您的分词包时 只写List<Word> words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者"); System.out.println(words); 编译没有错误 运行却说找不到 类 我的JDK版本是1.8 用的word1.3 不知道有什么错误 望指教! 除了需要BUILD PATH 以外还需要配置什么吗...

5
0
发表了问答
2015/06/23 22:34

git能对docx进行版本管理嘛

@蓝桥书生 你好,想跟你请教个问题: git对docx进行版本管理的时候 无法得到版本的批注信息

17
3
发表了问答
2015/04/22 16:21

word加入solr后,单个字母分不了。

@杨尚川 你好,想跟你请教个问题: 用demo-word.bat 输入 任意单个字母可以出来 例如:a --> [a] 加入到solr后并更改schema文件后,测试出不来(其他中文分词正常使用,word分词器已启用)

1
0
发表了问答
2014/11/24 10:45

itext操作word,怎么加入横线?

基本操作都没问题 字体啊样式啊,对齐方式啊什么什么的。 但是我的需求是文档中要插入很多段落,每个段落直接我想放一条横线,部知道有没有这种对象? 有没有大神用到过?

1
0
发表了问答
2014/11/14 13:07

请问java上有什么方法可以在word中选择勾选框。

网上的使用freemaker的例子我看了一下,都是插入一些简单的值。 如果word文档中包含勾选框,请问怎么用java代码控制。

4
0
发表了问答
2014/11/07 17:08

word,ppt的全文索引

公司组织的一个考试,是开卷的,发了7,8十个ppt和word文档是考试范围,让回去看,可我等码农哪里有空看的完啊, 考试的时候也不可能全打开ctrl+F啊 于是乎我就想弄个可以全文索引的工具来找,是不是要快一点点,至少能缩小范围什么的, 有没现成的东西能快速搭建一个这样的平台,我导进去,有个界面可以查询就行的?

2
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
1 评论
85 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部