ansj_seg 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
ansj_seg 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
ansj_seg 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
投 递 者 首席测试
适用人群 未知
收录时间 2021-12-24

软件简介

Ansj中文分词

使用帮助

摘要

这是一个基于n-Gram+CRF+HMM的中文分词的java实现。

分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。

目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。

可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。

maven

        
        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>
    

调用demo

如果你第一次下载只想测试测试效果可以调用这个简易接口


 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.parse(str));
 
 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

Join Us

想了很久,不管有没有人帮忙吧。我写上来,如果你有兴趣,有热情可以联系我。

  • 补充文档,增加调用实例和说明
  • 增加一些规则性Recognition,举例身份证号码识别,目前未完成的有 时间识别IP地址识别邮箱识别网址识别词性识别等...
  • 提供更加优化的CRF模型。替换ansj的默认模型。
  • 补充测试用例,n多地方测试不完全。如果你有兴趣可以帮忙啦!
  • 重构人名识别模型。增加机构名识别等模型。
  • 增加句法文法分析
  • 实现lstm的分词方式
  • 拾遗补漏...
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
0 评论
0 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部
返回顶部
顶部