发表了博客
2014/01/03 17:25

深圳和创科技 (hczm.cn) , 十年潜心PHP研发

业务范围 企业管理系统 无论您的企业是跨国公司还是本地企业,无论您想管理的是中国大陆员工还是香港员工,无论您的企业处于何种行业和发展阶段,HRM 8.0 都可以满足您的管理需求,帮助您的企业实现统一集中化管理、标准化管理流程、提升企业管理效率。 HRM 8.0 采用了更多领先的技术和更为灵活的架构,完全基于浏览器架构(B/S架构),让您随时随地访问您的系统,基于实时的信息作出分析和决策。同时,为您的企业 管理降低成本...

0
1
发表了博客
2018/09/04 22:23

趣味编程-现代诗词中的高频词语

提起诗词,大家首先想到的,都是唐诗宋词。 相信任何一个人都能随口朗诵出“床前明月光,疑是地上霜”的诗句。 诗词作为古代文学的经典载体,浓缩了作者太多了的感情和思想,很多都值得现在的我们去品味,去学习。 然而,今天我们不说古代诗词,谈一谈不为人熟知的现代诗词。 现代诗词,顾名思义,就是现代人所写,按照平仄押韵做的诗词。 因为古字和今字有所不同,所以用的平仄押韵也有所变化。 古代诗词,一般使用的都是平水韵...

0
0
发表了博客
2018/02/11 14:22

什么是词性标注(POS tagging)

词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。 维基百科对POS Tagging的定义: In corpus linguistics, part-of-speech tagging (POS tagging or POST), also called grammatical tagging or word-category disambiguation, is the process of marking up the words in a text (corpus) as corresponding to a particular part of speech, based on both its definition, as well as its context —ie. r...

0
0
发表于AI & 大数据专区
2014/06/24 17:58

关于全文搜索的技术方案

一、 MySQL FULLTEXT 1. 介绍: Fulltext是全文索引,mysql支持英文的全文索引(通过寻找某些分隔符来确定单词的起 始位置和结束位置),是mysql的一部分,如果需要建立中文的全文索引需要安装插件。 2. 使用: CREATE TABLE 时或之后使用 ALTER TABLE 或 CREATE INDEX 在 CHAR、VARCHAR 或 TEXT 列上创建。全文搜索时通过 MATCH() 函数完成。 3. 优点: Mysql自带,实现简单 4. 缺点: 仅支持MyISAM引擎表;对中文支持差;效率可...

2
20
发表了博客
2019/10/07 16:58

MySQL 中文全文检索

php 中文分词 splitword SCWS 中文分词 VicWord一个纯php的分词 在MySQL 5.7.6之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分词器把中文段落预处理拆分成单词,然后存入数据库。 从MySQL 5.7.6开始,MySQL内置了ngram全文解析器,用来支持中文、日文、韩文分词。 本文使用的MySQL 版本是5.7.22,InnoDB数据库引擎。 ngram全文解析器 ngram就是一段文字里面连续的n个字的序列。ngram全文解析器能够对文本进行...

0
0
发表了博客
2018/06/15 17:13

一个很好的php分词类库

一位网友推荐了SCWS分词系统,看着挺不错,在这里记一下。 最近做实验,苦于php分词的问题,从网上找了很多,但都不行,导致试验结果不是很好,今天早晨抱着不放弃的努力,又试着重网上找开源的php分词词库,终于功夫不负有心人。 发现了一个很好的分词类库phpanalysis2.0。 原文连接地址:http://www.phpbone.com/phpanalysis/ 分词系统简介:PHPAnalysis分词程序使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更...

0
0
发表于数据库专区
2016/11/19 22:27

使用Libevent编写高并发Http Server

libevent库使得高并发响应HTTP Server的编写变得很容易。整个过程包括如下几部:初始化,创建HTTP Server, 指定callback, 进入事件循环。另外在回调函数中,可以获取客户端请求(request的HTTP Header和参数等),进行响应的处理,再将结果发送给客户端(response的HTTP Header和内容,如html代码)。 libevent除了设置generic的callback,还可以对特定的请求路径设置对应的callback(回调/处理函数)。 示例代码(方便日后参考编写需要...

0
3
发表于服务端专区
2016/11/23 14:05

PHP使用中文分词初步接触

PHP使用中文分词学习 因工作上需要,要求在excel表格提交后,对其中的数据进行自动识别,先根据条形码一栏和模板库里的商品进行比对,若是没有条形码,则根据输入的商品名进行比对,此时就需要使用中文分词技术。 中文分词 所谓的中文分词(Chinese Word Segmentation) ,既CWS指的是将一个汉字序列切分成一个一个单独的词。我们知道,在英文的行文中,单词之间是以空格作为分界符的,而中文只是字、句和段能通过明显的分界符来简...

0
1
发表了博客
2013/05/20 11:42

[网站运营] 小议SEO数据分析III – 维护词库

前言 具体上一篇SEO数据分析文章已经隔了很久了,今天有个朋友网上问我,有了词库怎么维护。正好借这个机会谈谈这个问题。 在获取到大量关键词后,首先要对这些词进行处理,在我实际工作中,总结以下几个项目我做过或者觉得有必要做的事情。 提取实体(通俗点讲就是找关键词中的重点词) 去重 受控词表 分类 提取实体 提取实体的概念就是找关键词中的重点词。比如 “北京温泉哪里好”,那这个词中的”北京 “和”温泉”这两个词是...

1
3
2018/10/10 09:18

HanLP代码与词典分离方案与流程

之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来, 其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录 data与hanlp.properties合成一个data.jar文件. 1. pom.xml 过滤资源文件的配置 <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-jar-plugin</artifactId> <version>${maven-jar-plugin.version}</version...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页