中文分词工具包 smallseg

未知
Java Python
跨平台
2009-10-15
fxsjy

smallseg -- 开源的,基于DFA的轻量级的中文分词工具包

特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码:

s3 = file("text.txt").read()
words = [x.rstrip() for x in file("main.dic") ]

from smallseg import SEG
seg = SEG()
print 'Load dict...'
seg.set(words)
print "Dict is OK."

A,B = seg.cut(s3) #A是识别出的登录词列表,B是未登录词列表
for t in A:
    try:
        print t.decode('utf-8')
    except:
        pass
print "============================"
for t in B:
    try:
        print t.decode('utf-8')
    except:
        pass

Java 示例代码: 

Seg seg = new Seg();
seg.useDefaultDict();
System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>
r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]
u:[Java, 草泥马, 泥马]
(因为“草泥马”并没有在词库中)
加载中

评论(0)

暂无评论

暂无资讯

没有更多内容

加载失败,请刷新页面

没有更多内容

在Hadoop上运行基于RMM中文分词算法的MapReduce程序

我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分 词算法进行研究。这个实验报告是我做高性能计...

2012/01/29 23:56
2.6K
0
AIX详细查看用户/进程使用内存

问题描述:通过topas发现%comp内存已使用98% 问题分析: 1,从大到小排列10个内存使用率进程 ps aux | head -1 ; ps aux | sort -rn +3 | head -10 如详细查看进程: ps -ealf | head -1 ; ps ...

2013/08/12 12:04
4.4K
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部