中文分词库 ICTCLAS 的问题

你条草 发布于 2012/07/02 15:46
阅读 6K+
收藏 0

近2个月都一直使用这个就行中文分词……

7月份一到,结果今天发现无论如何,中文分词的模块,初始化都一直是失败的,后来直接运行官网提供的Demo程序,都是提示初始化失败的……重新下载,也试过了……就连官网上的在线中文分词,都测试过了,同样是无效,有出现同样问题的人不?

不会是闰秒的问题吧……估计是不可能的,但7月之前,我的项目,一直在做,一直都运行如常……真想不到是神马原因了,联系了官方,但似乎也没有回复……

官网 http://www.ictclas.org/index.html

加载中
0
你条草
你条草

感谢以上各位的帮助!!!

其实昨天我一直怀疑问题所在,应该跟系统时间有关……今日突然灵机一动,为何昨天没有想到此方法呢!?!??

http://www.ictclas.org/ictclas_download.aspx  在这里下载ICTCLAS的相关文件

我下的是window C++版本,项目需要,解压后……打开demo文件,修改系统时间,2011.7月前的任意时间即可,打开之后,程序终于提示Init OK,终于都可以实现分词了。但如果将时间调回到今年7月份,再重启程序,那就死活都初始化失败,当然就无法分词啦……

http://www.ictclas.org/ictclas_download.aspx  这个在线分词,估计都是因为后台服务器时间所致……问题尚算清晰了,但还有待解决!!为减少代码的修改,我只能在ICTCLAS分词模块初始化的时候,将系统时间调整,一旦初始化结束,将时间修正……暂时的解决方法,估计是分词作者(两个中科院的研究生)留的后门所致的

你条草
你条草
软件作者的回复,是软件注册期限的问题,以下为 ICTCLAS2012版本SDK发布(u0106版本修正了UTF8下的bug) http://www.nlpir.org/?action-viewnews-itemid-229 暂未测试,应该OK的
你条草
你条草
官方终于都回复了…… 原因在于user.lic这个注册文件……内部有个时间校验之类的 而且……商用的话要付费,还是直接通过代码修改系统时间,再恢复正常时间就可以了,那个注册文件,估计一定时间之后就又到期了
你条草
你条草
时间搞错了,修改时间的时候是调整到2012.7月前任意时间
0
你条草
你条草

找到两位作者的邮箱地址啦,都发邮件了……暂时也没有回音

以下是ICTCLAS的在线分词,一直都无效啊

http://www.ictclas.org/ictclas_demo.html

0
luluback
luluback
确实不行,而且不能用ie6
你条草
你条草
对……我是下载它的dll,C++的项目里面需要……7月份之前都好好的,今天就出问题啦
0
luluback
luluback
我们用的是java 的 mmseg4j
luluback
luluback
回复 @RickyFeng : 不过用mmseg4j 还是有问题的,1,词库存储结构现在词库大小,2,缺乏词性标准
RickyFeng
RickyFeng
不错
0
你条草
你条草

引用来自“zhanglu(张露)”的答案

我们用的是java 的 mmseg4j
嗯,我是C++的项目,其实之前用这个 http://www.oschina.net/p/libmmseg 都是C/C++环境,但相比之下这个MMseg速度要慢得多,而且对字符格式有限制……后来才换了ICTCLAS,就看中它的速度,以及词性划分(可去掉标点、助词等没营养的词)

……而且是接近完成了,就7月第一个工作日就出现问题

……那7月份之前一直都正常的,难道正的是7月的闰秒问题,但……本地化的dll,也不至于吧,不过它的数据文件似乎是加密的……

还是等候官方、两位作者的解答吧……

0
luluback
luluback
源代码 下下来调试 啊
0
你条草
你条草
MMseg是对字符编码有限制,不是格式限制,手误打错了。因此经常性要进行编码转换……而且我是本地程序的编写,蛋疼的MFC做界面,底层就有N个相关的数据处理类……真累趴下啦
0
luluback
luluback
以前的版本怎么 没有备份呢
0
luluback
luluback
到网上找找应该可以找到以前的版本的
0
luluback
luluback
lz也可以考虑下 复旦分词
你条草
你条草
哦,这样子,感谢提醒!
返回顶部
顶部