mseg4j的BUG??

liclD 发布于 2013/08/09 18:05
阅读 395
收藏 1

@chenlb 你好,想跟你请教个问题:

Hi, 我最近在使用mmseg4j。
用来在mahout进行文本的分类。
文本向量化的过程中需要指定分词器。
使用mmseg4j的时候出现的异常
由于作业是运行在hadoop集群上,很有可能产生了线程安全问题。
java.io.IOException: Stream closed
at java.io.StringReader.ensureOpen(StringReader.java:56)
at java.io.StringReader.read(StringReader.java:90)
at java.io.BufferedReader.fill(BufferedReader.java:154)
at java.io.BufferedReader.read(BufferedReader.java:175)
at java.io.FilterReader.read(FilterReader.java:65)
at java.io.PushbackReader.read(PushbackReader.java:90)
at com.chenlb.mmseg4j.MMSeg.readNext(MMSeg.java:42)
at com.chenlb.mmseg4j.MMSeg.next(MMSeg.java:64)
at com.chenlb.mmseg4j.analysis.MMSegTokenizer.incrementToken(MMSegTokenizer.java:63)
at org.apache.mahout.vectorizer.document.SequenceFileTokenizerMapper.map(SequenceFileTokenizerMapper.java:49)
at org.apache.mahout.vectorizer.document.SequenceFileTokenizerMapper.map(SequenceFileTokenizerMapper.java:38)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:214)


加载中
返回顶部
顶部