SCWS:相当优秀的分词程序

宏哥 发布于 2011/04/24 21:13
阅读 5K+
收藏 9

http://www.ftphp.com/scws/

这位兄弟,很令人敬佩,这个程序,相当优秀

中文分词,无出其右,多年锻造

俺当时为了找到那个溢出,花了整整两天时间

C语言调试,绝对是杀人不用刀的活

加载中
0
周翼翼
周翼翼

看着累人.都不知道你是褒还是贬,你是觉得这个东西好还是不好.能不能直白一点.看你们论战也累,想学点东西都不行...

0
jingshishengxu
jingshishengxu

您老先生就吹吧,别当我们都不懂分词。看下面他自己的测评(http://www.ftphp.com/scws/),这样也算无出其右。顶多也就在开源的分词里可能是,那些不开源的分词程序准确率和召回率您老知道吗?

准确: 95%, 召回: 91%, 速度: 1.2MB/sec 
PHP扩展分词速度: 250KB/sec


0
宏哥
宏哥

引用来自#3楼“jingshishengxu”的帖子

您老先生就吹吧,别当我们都不懂分词。看下面他自己的测评(http://www.ftphp.com/scws/),这样也算无出其右。顶多也就在开源的分词里可能是,那些不开源的分词程序准确率和召回率您老知道吗?

准确: 95%, 召回: 91%, 速度: 1.2MB/sec 
PHP扩展分词速度: 250KB/sec


好的意见说来听听,您是什么标准?

0
jingshishengxu
jingshishengxu

别的不说,单就准确率来说,在97%以上的就很多。再者,您老知道华建吗,您确定这个比华建的分词要好吗?更别提google,微软,baidu,网易有道,腾讯搜搜,这个分词能超的过那些公司内部的分词系统吗。当然作为开源软件,大家免费拿来用用,这样的准确率,召回率也就可以了

0
jingshishengxu
jingshishengxu

另外,这个分词用的什么算法,什么原理,您老先生知道吗?

0
宏哥
宏哥

引用来自#6楼“jingshishengxu”的帖子

另外,这个分词用的什么算法,什么原理,您老先生知道吗?

请赐教

0
jingshishengxu
jingshishengxu

引用来自#7楼“宏哥”的帖子

引用来自#6楼“jingshishengxu”的帖子

另外,这个分词用的什么算法,什么原理,您老先生知道吗?

请赐教

自己看代码吧,凭您的能力,看懂是不成问题的

0
宏哥
宏哥

引用来自#8楼“jingshishengxu”的帖子

引用来自#7楼“宏哥”的帖子

引用来自#6楼“jingshishengxu”的帖子

另外,这个分词用的什么算法,什么原理,您老先生知道吗?

请赐教

自己看代码吧,凭您的能力,看懂是不成问题的

代码看过了,那个buf溢出就是我找到的,花了两天时间

想听听看,到底为什么这么做,就是这个算法的初衷是什么?

您说的准确率,是什么意思?怎样的结果叫做准确率?我的理解,词汇在不同环境会相差比较大,所以没有唯一的准确率标准,不知道是否正确。

以及其他的做法还有哪些?

0
jingshishengxu
jingshishengxu

引用来自#9楼“宏哥”的帖子

引用来自#8楼“jingshishengxu”的帖子

引用来自#7楼“宏哥”的帖子

引用来自#6楼“jingshishengxu”的帖子

另外,这个分词用的什么算法,什么原理,您老先生知道吗?

请赐教

自己看代码吧,凭您的能力,看懂是不成问题的

代码看过了,那个buf溢出就是我找到的,花了两天时间

想听听看,到底为什么这么做,就是这个算法的初衷是什么?

您说的准确率,是什么意思?怎样的结果叫做准确率?我的理解,词汇在不同环境会相差比较大,所以没有唯一的准确率标准,不知道是否正确。

以及其他的做法还有哪些?

照您这么说就没法比较了,好吧,就算您说的对,那么既然没法比,“无出其右”又从何而来呢?

0
宏哥
宏哥

引用来自#10楼“jingshishengxu”的帖子

引用来自#9楼“宏哥”的帖子

引用来自#8楼“jingshishengxu”的帖子

引用来自#7楼“宏哥”的帖子

引用来自#6楼“jingshishengxu”的帖子

另外,这个分词用的什么算法,什么原理,您老先生知道吗?

请赐教

自己看代码吧,凭您的能力,看懂是不成问题的

代码看过了,那个buf溢出就是我找到的,花了两天时间

想听听看,到底为什么这么做,就是这个算法的初衷是什么?

您说的准确率,是什么意思?怎样的结果叫做准确率?我的理解,词汇在不同环境会相差比较大,所以没有唯一的准确率标准,不知道是否正确。

以及其他的做法还有哪些?

照您这么说就没法比较了,好吧,就算您说的对,那么既然没法比,“无出其右”又从何而来呢?

我对这个对错没有太多兴趣,也不重要,我说的“无出其右”只是是指它的稳定简单,我对它做了各种内存以及速度方面的测试

只是想了解,这个scws的不足主要是在哪个方面?

还有哪些更好的做法?

返回顶部
顶部