关于并行分词的使用问题

Yemy 发布于 2013/08/25 15:53
阅读 815
收藏 0

@sunjunyi 你好,想跟你请教个并行分词的使用问题:

主页上说并行分词“将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果”。如果我有N个字符串,每个字符串是一句话,存在N个变量中,那么为了对这N个字符串(即N句话)进行并行分词,我是否应将这N个字符串连接成一个字符串,每句话中间用换行符\n隔开,然后将这个连接好的字符串传给cut函数,cut函数就会在内部自动依据\n分解成N个字符串,然后多线程进行分词,最后返回N句话的所有分词,是这样吗?谢谢!

加载中
0
fxsjy
fxsjy
@Yemy ,可以这样做。
0
Y
Yemy

我的代码如下:

jieba.enable_parallel(2)

seg_list=jieba.cut("北京清华大学")

到这儿都没问题,但是就是无法取出seg_list中的分词结果,无论用list(seg_list), seg_list.__next__()还是"/ ".join(seg_list)都会报错:

Traceback (most recent call last):
  File "<pyshell#51>", line 1, in <module>
    seg_list.__next__()
  File "/usr/local/lib/python3.3/dist-packages/jieba/__init__.py", line 312, in pcut
    parts = re.compile(b'([\r\n]+)').split(sentence)
TypeError: can't use a bytes pattern on a string-like object

如果用

for i in seg_list:
 print(i)

则没有任何结果出来。请问这是怎么回事?我用的是ubuntu+python3.3。

谢谢!

返回顶部
顶部