中文分词的同学们一起研究

刘理志 发布于 2011/05/25 18:20
阅读 1K+
收藏 5

因最近公司需要重相应的中文分词的处理,不知道哪位哥哥,姐姐,弟弟,妹妹,有好的方法呢??

虽然我对scws已经觉得做的很不错,但我还是想着有没有更好的能够让我们的技术得到提升。。。

 

谢谢!

加载中
0
blur
blur

分词算法比较复杂,不是说改进就能改进的。

中科院的LCTCLAS和谷歌都是基于隐马尔可夫链做的,前者的分词精度超过98%,好评不错。

0
刘理志
刘理志

引用来自#2楼“blur”的帖子

分词算法比较复杂,不是说改进就能改进的。

中科院的LCTCLAS和谷歌都是基于隐马尔可夫链做的,前者的分词精度超过98%,好评不错。

太感谢你所提出来的意见了,我也查看过中科院的那套,但好像是需要收费的,所以才开始想着使用scws方式来进行研究与相应的分词的建立。特别是专门针对一些指定的行业的词分析!

0
blur
blur

引用来自#3楼“steven.liu”的帖子

引用来自#2楼“blur”的帖子

分词算法比较复杂,不是说改进就能改进的。

中科院的LCTCLAS和谷歌都是基于隐马尔可夫链做的,前者的分词精度超过98%,好评不错。

太感谢你所提出来的意见了,我也查看过中科院的那套,但好像是需要收费的,所以才开始想着使用scws方式来进行研究与相应的分词的建立。特别是专门针对一些指定的行业的词分析!

行业词汇搞一个自定义词库就可以了,一般的分词引擎都支持自定义词库。至于词库的更新问题,则比较困难了,除非像谷歌那样拥有巨大的爬虫,不间断更新语料库内词语组合的概率分布,从而捕捉新词(即便这样,依然会滞后)。

0
刘理志
刘理志

引用来自#4楼“blur”的帖子

引用来自#3楼“steven.liu”的帖子

引用来自#2楼“blur”的帖子

分词算法比较复杂,不是说改进就能改进的。

中科院的LCTCLAS和谷歌都是基于隐马尔可夫链做的,前者的分词精度超过98%,好评不错。

太感谢你所提出来的意见了,我也查看过中科院的那套,但好像是需要收费的,所以才开始想着使用scws方式来进行研究与相应的分词的建立。特别是专门针对一些指定的行业的词分析!

行业词汇搞一个自定义词库就可以了,一般的分词引擎都支持自定义词库。至于词库的更新问题,则比较困难了,除非像谷歌那样拥有巨大的爬虫,不间断更新语料库内词语组合的概率分布,从而捕捉新词(即便这样,依然会滞后)。

对于自定义仓,我们是通过我们自己在仓库中所存放在的信息来建立起来的,并且通过一定的格式,不断的把仓库给维护的,也会借助于互联网中的信息来协助我们维护相应的字典信息,用户在我们网站中的操作也会帮助我们操作来着。

0
blur
blur

引用来自#5楼“steven.liu”的帖子

引用来自#4楼“blur”的帖子

引用来自#3楼“steven.liu”的帖子

引用来自#2楼“blur”的帖子

分词算法比较复杂,不是说改进就能改进的。

中科院的LCTCLAS和谷歌都是基于隐马尔可夫链做的,前者的分词精度超过98%,好评不错。

太感谢你所提出来的意见了,我也查看过中科院的那套,但好像是需要收费的,所以才开始想着使用scws方式来进行研究与相应的分词的建立。特别是专门针对一些指定的行业的词分析!

行业词汇搞一个自定义词库就可以了,一般的分词引擎都支持自定义词库。至于词库的更新问题,则比较困难了,除非像谷歌那样拥有巨大的爬虫,不间断更新语料库内词语组合的概率分布,从而捕捉新词(即便这样,依然会滞后)。

对于自定义仓,我们是通过我们自己在仓库中所存放在的信息来建立起来的,并且通过一定的格式,不断的把仓库给维护的,也会借助于互联网中的信息来协助我们维护相应的字典信息,用户在我们网站中的操作也会帮助我们操作来着。

现在的主流分词算法基本都是个概率模型,已经研究了许多年,基本上趋于完善了,想做较大的改进已经不容易了。

而基于规则的分词算法已经被事实证明逊于基于概率的分词算法。

所以我劝你不要再这上面多花心思了。你现有的这一套维护和更新的策略,已经足够了。

0
宏哥
宏哥

引用来自#6楼“blur”的帖子

引用来自#5楼“steven.liu”的帖子

引用来自#4楼“blur”的帖子

引用来自#3楼“steven.liu”的帖子

引用来自#2楼“blur”的帖子

分词算法比较复杂,不是说改进就能改进的。

中科院的LCTCLAS和谷歌都是基于隐马尔可夫链做的,前者的分词精度超过98%,好评不错。

太感谢你所提出来的意见了,我也查看过中科院的那套,但好像是需要收费的,所以才开始想着使用scws方式来进行研究与相应的分词的建立。特别是专门针对一些指定的行业的词分析!

行业词汇搞一个自定义词库就可以了,一般的分词引擎都支持自定义词库。至于词库的更新问题,则比较困难了,除非像谷歌那样拥有巨大的爬虫,不间断更新语料库内词语组合的概率分布,从而捕捉新词(即便这样,依然会滞后)。

对于自定义仓,我们是通过我们自己在仓库中所存放在的信息来建立起来的,并且通过一定的格式,不断的把仓库给维护的,也会借助于互联网中的信息来协助我们维护相应的字典信息,用户在我们网站中的操作也会帮助我们操作来着。

现在的主流分词算法基本都是个概率模型,已经研究了许多年,基本上趋于完善了,想做较大的改进已经不容易了。

而基于规则的分词算法已经被事实证明逊于基于概率的分词算法。

所以我劝你不要再这上面多花心思了。你现有的这一套维护和更新的策略,已经足够了。

果然是懂的人

+1

分词就好像中文输入一样,那种人工“智能”出来的结果都很差,基于数据分析的才好。

像scws这样简简单单很好。给你提供了一个分析的基础。至于如何建词库,根据需要了。

0
刘理志
刘理志

引用来自#7楼“宏哥”的帖子

引用来自#6楼“blur”的帖子

引用来自#5楼“steven.liu”的帖子

引用来自#4楼“blur”的帖子

引用来自#3楼“steven.liu”的帖子

引用来自#2楼“blur”的帖子

分词算法比较复杂,不是说改进就能改进的。

中科院的LCTCLAS和谷歌都是基于隐马尔可夫链做的,前者的分词精度超过98%,好评不错。

太感谢你所提出来的意见了,我也查看过中科院的那套,但好像是需要收费的,所以才开始想着使用scws方式来进行研究与相应的分词的建立。特别是专门针对一些指定的行业的词分析!

行业词汇搞一个自定义词库就可以了,一般的分词引擎都支持自定义词库。至于词库的更新问题,则比较困难了,除非像谷歌那样拥有巨大的爬虫,不间断更新语料库内词语组合的概率分布,从而捕捉新词(即便这样,依然会滞后)。

对于自定义仓,我们是通过我们自己在仓库中所存放在的信息来建立起来的,并且通过一定的格式,不断的把仓库给维护的,也会借助于互联网中的信息来协助我们维护相应的字典信息,用户在我们网站中的操作也会帮助我们操作来着。

现在的主流分词算法基本都是个概率模型,已经研究了许多年,基本上趋于完善了,想做较大的改进已经不容易了。

而基于规则的分词算法已经被事实证明逊于基于概率的分词算法。

所以我劝你不要再这上面多花心思了。你现有的这一套维护和更新的策略,已经足够了。

果然是懂的人

+1

分词就好像中文输入一样,那种人工“智能”出来的结果都很差,基于数据分析的才好。

像scws这样简简单单很好。给你提供了一个分析的基础。至于如何建词库,根据需要了。

各位提供的意见确实很足了。。。我现在的想法也是基于scws做好相应的字典仓库,暂时性这样操作来着,会更加快速完成。并且后期的维护性也会更简便些。刚朋友推荐我一款 http://www.coreseek.com/ 还请各位分析下。。分词效果如何??

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部