看我这个分词方案怎么样?

yak 发布于 2011/08/10 18:56
阅读 823
收藏 1
$dict=parse_ini_file("tag.ini");

$content=file_get_contents('6035011407876x.shtml');

$a=array();
foreach  ($dict as $v){

  if(strpos ($content,$v) > 1 ){
     array_push($a,$v);
  }


}
print_r($a);

做个了简单的比较

 
 0.0024089813232422    scws 单字
 0.23736310005188       scws + dict
 0.0046257972717285    ini  + strpos
加载中
0
blur
blur

无意义。

首先,你ini文件里能存储多少?

其次,请用你的分词方法来解析这句话“北京大学生前来报到”。

分词没有这么简单。

0
yak
yak

1 关于存储多少的问题,我不会把所有的词库全部装成一个ini文件,会根据词频分成N级,比如 dict_1.ini

dict_2.ini  dict_3.ini  ... dict_N.ini  然后根据词语跟业务需求的相关性分别加到不同的词库里,若果相应的某个词库发生变动,只用变动的词库对纪录重建索引

2 关于这个识别准确性的的问题,取绝于我词库的内容,关于岐义的问题,这个目前有完美的方案吗,比如

"中国陕西安全部门"  这个你觉得应该怎么样查才算对呢?

0
blur
blur

的确没有100%的消除歧义的方案,但是你的这套方案太过粗陋,简单的foreach而已。好的分词方法都是基于负责的概率模型来建立的。建议多了解一下相关内容。

 

0
游而不击
游而不击
楼主是来求表扬的,楼上的你就不能说两句好的?
0
Andre.Z
Andre.Z
好吧,我来说,“两句好的”。。。至于哪两句,自己找吧
0
whatcq
whatcq

这个有一定应用场景的,我赞成

返回顶部
顶部