中文分词库 PHPCWS

BSD
PHP
跨平台
2009-03-19
红薯

PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为 HTTPCWS,此项目不再继续维护

PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命 名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度 98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。

ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的 一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。

由于 ICTCLAS 3.0 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。

加载中

评论(0)

暂无评论

暂无资讯

暂无问答

linux 数据恢复 ext3grep rm -rf

linux 数据恢复 ext3grep rm -rf 1、先安装ext3grep软件: yum install ext3grep -y 2、umount /data0分区: umount /data2 如果提示busy,先kill正在使用这个目录的进程,再umount: fuser ...

2012/06/25 18:00
450
0
php自动文章关键字提取

现在, 很多web系统都用到了不少的自然语言处理技术来提高客户体验. 主要技术: 1. 文章关键字提取. 2. 相关文章(产品)推荐. 最近有不少网友问道, 这里以php为例子讲解下php的"关键字提取"的实...

2013/07/08 17:28
1K
1
中文分词原理

一、 为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词...

2014/12/11 17:36
72
0
linux 数据恢复 centos 下数据恢复 ext3grep extundelete

ext3grep 和 extundelete 恢复被删除的数据 。其中--restore-file 和 --restore-directory 的参数都是相对与目录的地址。在centos7上均测试通过....

2015/05/11 18:19
165
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部