2019/04/03 10:45

使用PostgreSQL进行中文全文检索

前言 PostgreSQL 被称为是“最高级的开源数据库”,它的数据类型非常丰富,用它来解决一些比较偏门的需求非常适合。 前些天将 POI 点关键词查询的功能迁到了 PgSQL,总算对前文 空间索引 - 各数据库空间索引使用报告 有了一个交代。 由于 PgSQL 国内的资料较少,迁移过程踩了不少坑,这里总结记录一下,帮助后来的同学能顺利使用 PgSQL。而且目前在灰度测试刚布了一台机器,后续可能还要添加机器,整理一下流程总是好的。 文章经...

0
2
2016/03/08 12:25

资料搜集:11款开放中文分词引擎大比拼【转】

来自: IT十年 - CSDN博客 链接:http://blog.csdn.net/matthewei6/article/details/50610882 在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。 一提到自动分词,通常会遇到两种比较典型的质疑。一种...

0
1
发表了博客
2016/01/06 12:16

php网页文本分词

mark一下先 开源免费的中文分词系统,PHP分词的上乘之选 http://www.xunsearch.com/scws/download.php#dll

0
0
发表了博客
2019/05/22 19:58

Laravel5.8 使用结巴中文分词的简单教程_php中文分词

1.首先用composer加载结巴中文分词-PHP composer require fukuball/jieba-php:dev-master 2.在composer.json 中引用, 让他自动加载 3.执行 composer dump-autoload 加载 4.使用方法 1 ini_set('memory_limit', '1024M'); 2 3 $jb = new \Fukuball\Jieba\Jieba; 4 $fg = new \Fukuball\Jieba\Finalseg; 5 6 Jieba::init(); 7 Finalseg::init(); 8 $seg_list = Jieba::cut("怜香惜玉也得要看对象啊!"); 9 ...

0
0
发表了博客
2019/11/07 18:14

laravel5下全文搜索和中文分词:TNTSearch+jieba-php

这套组合可以在不依赖第三方的情况下实现中文全文搜索,项目演示; ``` laravel new tntsearch ``` Bash 创建一个文章表和文章模型; ``` php artisan make:model Models/Article -m ``` Bash 新建数据库,数据表(略); 修改 .env 数据库配置项; ``` DB_DATABASE=homestead DB_USERNAME=homestead DB_PASSWORD=secret ``` PHP 生成测试数据; 注意:**一定要是用模型方法,否则会导致插入的内容不被会搜索,因为没有更新索引(...

0
0
发表了博客
2012/11/22 17:42

使用数据库做匹配搜索

目的 做一个内容关键词匹配搜索搜索,这里涉及到搜索的准确度和速度, 我先说下我的思路 给题库内容做关键词匹配, 将关键词存储到关键词表 将匹配的关键词和问题答案进行关联 搜索时候根据最多关键词的匹配进行文章的匹配准确度搜索 涉及到的数据表 1. 题库 (pre_question) 2. 关键词库(pre_keyword) 3. 关系库(pre_relation) 过程 使用分词工具(scws),将内容关键词进行提取然后存储到关键词数据表, 这里为了准确度,使用自己的分词...

0
1
发表了博客
2018/01/05 15:39

php+中文分词scws+sphinx+mysql打造千万级数据全文搜索

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。 Sphinx创建索引的速度为:创建100万条记录的索引只需3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重...

0
0
发表了博客
2020/11/05 07:32

教训!!! 为php 添加一些常用扩展

一、添加scws扩展 php的一些扩展×××地址:https://pecl.php.net/ 1、下载scws源码 #wget  http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 2、编译安装scws 先安装一些编译依赖包 #yum install gcc gcc-c++ make  -y #tar xf scws-1.2.3.tar.bz2 #mkdir -pv /opt/app/      #软件统一安装到/opt/app 目录 #cd scws-1.2.3/ #./configure --prefix=/opt/app/scws  # make && make install ...

0
0
2019/05/11 23:07

deepIn 系统安装XunSearch

deepin 安装迅搜(XunSearch)遇到一些问题,整理出来供各位兄弟参考。 一、安装C++: 使用 /usr/bin/g++ 来在自动模式中提供 /usr/bin/c++ (c++) # apt-get install g++ 命令行这里有的包下载失败,可以复制链接,通过浏览器下载,然后复制到:/var/cache/apt/archives 目录下。然后再重新执行命令:apt-get install g++ 如果缺少c++、gcc版本太低了,就会报错: ./configure CXX=/opt/bin/c++ ERROR: failed to configure xapi...

0
1
发表了博客
2019/05/07 21:29

自然语言中的词法分析、语法分析、句法分析

1.词法分析 词是自然语言中能够独立运用的最小单位,是自然语言处理的基本单位。词法分析就是利用计算机对自然语言的形态 (morphology) 进行分析,判断词的结构和类别等。 词法分析的主要任务是:①:能正确的把一串连续的字符切分成一个一个的词 ②:能正确地判断每个词的词性,以便于后续的句法分析的实现。 常见的中文分词算法:(分为三类,1.基于字符串匹配(机械分词)的分词方法、2.基于理解的分词方法、3.基于统计的分词...

0
0
发表了博客
2013/07/08 17:28

php自动文章关键字提取

现在, 很多web系统都用到了不少的自然语言处理技术来提高客户体验. 主要技术: 1. 文章关键字提取. 2. 相关文章(产品)推荐. 最近有不少网友问道, 这里以php为例子讲解下php的"关键字提取"的实现, 同时这个也是实现"相关文章推荐"的前提. 基本分以下几个步骤: 一. 对文章进行分词: php的中文分词程序还是有不少的, 从前辈的scws, 到用纯php实现的phpAnalysis, phpcws(phpcws)以及本人开发的robbe扩展. 这里的讲解是使用"robbe分词...

0
5
发表了博客
2018/07/02 17:10

xunsearch基本使用

[TOC] 基本实践 <?php // 引入 require_once './sdk/xs/lib/XS.php'; // 创建对象 $xs = new XS('demo'); // 查询 $docs = $xs->search->search('测试'); // 输出 print_r($docs); 异常捕获 try { $xs = new XS('demo'); $docs = $xs->search->setQuery('测试')->setLimit(5)->search(); foreach ($docs as $doc) { echo $doc->rank() . ". " . $doc->subject . " [" . $doc->percent() . "%]\n"; ...

0
0
发表于大前端专区
2014/10/03 12:07

各种有用的PHP开源库精心收集

1.html2ps and html2pdf 下载地址: http://www.tufat.com/script19.htm html2ps能够把带有图片,复杂表格(包含rowspan/colspan) ,layer/div和css样式的HTML转换成Postscript与PDF。html2ps对CSS2.1支持非常好,并且很好地兼容不正确的HMTL。 2.Sphider 下载地址: http://www.sphider.eu/download.php Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。...

16
272
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页