ChineseWordSegmentation 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
ChineseWordSegmentation 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
ChineseWordSegmentation 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
ChineseWordSegmentation 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
ChineseWordSegmentation 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 未知
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开发厂商
地区 国产
提 交 者 红薯
适用人群 未知
收录时间 2013-12-04

软件简介

这是一个简单的中文分词程序,可以在没有语料库的情况下通过各个词语的相关度将中文词汇抽取出来 具体的理论可以参看Matrix67的博客文章: http://www.matrix67.com/blog/archives/5044 

我只是把这个算法进行了实现而已。 

该程序写得比较着急,还有很多地方可以进行速度上的优化。


展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表于AI & 大数据专区
2016/04/26 01:24

一种没有语料字典的分词方法

前几天在网上闲逛,看到一篇美文,说的是怎么在没有语料库的情况下从文本中提取中文词汇,理论部分讲得比较多,但都还是很浅显易懂的,其中涉及一部分信息论的理论,其实只要大学开过信息论这门课的话,看起来还是挺简单的。 信息论我忘得差不多了,但是其中主要的内容还记得,信息论最主要的就是信息其实是可以度量的,...

2
25
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
4 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部