yaha 不知道怎么使用!!

新时代 发布于 2014/04/26 09:34
阅读 308
收藏 0

【DevOps必读】产品经理与程序员之间如何破局?>>>

@余争 你好,想跟你请教个问题:

您好 不知道你这个工具怎么使用  菜鸟一枚


要运行那个文件   要把待处理的文件放到哪里?

加载中
0
余争
余争

你是说python的分词库还是workmaker自动生词工具?

得马上出门,过后回复你:)

新时代
回复 @余争 : python的分词库 页讲下吧
新时代
@余争 W8 系统的,
余争
余争
回复 @新时代 : 看到我的回复了吗?
新时代
workmaker自动生词工具
0
余争
余争

回复 @新时代
编译:
mkdir build
cd build
cmake ..
make
编译完成之后在build/bin目录下有两个可执行文件:
./bin/workmaker  --> 针对普通大小文件
./bin/hugemaker  --> 针对特大文件,计算过程会产生中间文件

运行命令:
./bin/wordmaker input.txt output.txt 

input.txt为输入的文本,一定要为gbk格式,输出为计算得到的词语。(说明:自动生词工具是从大文本里自动计算出词语,所以只需要一个输入文件,不需要其它人为的标注了)

又来了两个问题,如何将utf-8转换成gbk格式的文本?
iconv -f "gbk" -t "utf-8//IGNORE" < input.utf8.txt> input.txt

如何将目录input下的所有文件转换成了个文本文件?

cat input/* > input.txt

测试语料下载:http://pan.baidu.com/s/1mgoIPxY



返回顶部
顶部