"结巴"分词的Node.js版本 nodejieba

MIT
JavaScript
跨平台
2014-12-13
吴延毅

NodeJieba "结巴"分词的Node.js版本

Introduction

NodeJieba只是CppJieba简单包装而成的node扩展,用来进行中文分词。

详见NodeJiebaBlog

Install

npm install nodejieba

因为npm速度很慢而且经常因为墙的原因出现莫名其妙的问题,在此强烈建议使用cnpm,命令如下:

npm --registry=http://r.cnpmjs.org install nodejieba

Usage

默认分词算法

初始化

var segment = require("nodejieba");
segment.loadDict("./node_modules/nodejieba/dict/jieba.dict.utf8", "./node_modules/nodejieba/dict/hmm_model.utf8");

阻塞式调用

var wordList = segment.cutSync("阻塞模式分词"); if (wordList.constructor == Array) // just for tutorial, this is always be true  {
    wordList.forEach(function(word) { console.log(word);     
    });
}

非阻塞式调用

segment.cut("非阻塞模式分词", function(wordList) {
    wordList.forEach(function(word) { console.log(word);     
    });
});

搜索引擎分词算法

初始化

var segment = require("nodejieba");
segment.queryLoadDict("./node_modules/nodejieba/dict/jieba.dict.utf8", "./node_modules/nodejieba/dict/hmm_model.utf8");

阻塞式调用

var wordList = segment.queryCutSync("阻塞模式分词"); if (wordList.constructor == Array) // just for tutorial, this is always be true  {
    wordList.forEach(function(word) { console.log(word);     
    });
}

非阻塞式调用

segment.queryCut("非阻塞模式分词", function(wordList) {
    wordList.forEach(function(word) { console.log(word);     
    });
});

具体用法可以参考 test/segment.js test/query_segment.js

Testing

在node v0.10.2下测试通过

Demo

http://cppjieba-webdemo.herokuapp.com/ (chrome is suggested)

Thanks

Jieba中文分词

加载中

评论(1)

c
cnmrdp
在自然语言处理语意分析方面很有帮助!

暂无资讯

暂无问答

nodejieba 的安装

//首先安装python环境,安装完成后重新起动cmd,让python环境变量起作用 1、npm install --global --production windows-build-tools 2、npm install --g node-gyp //安装node-gyp 3、cnpm ...

10/02 18:59
10
0
开源项目的那点事

上周受到一位[CppJieba]使用者的邮件咨询所启发 (我也很好奇为什么那么多人还是偏向于邮件咨询,而不是通过issue发问。), 重构了[CppJieba]的代码,高度集成了一下各个api, 对于用户来说...

2015/08/11 16:36
3K
8

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部