PHP基于elasticsearch全文搜索引擎的开发 php使用es搜索引擎

   2023-02-09 学习力0
核心提示:1.概述:全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene,必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装,提供了 REST API 的操作接

1.概述:
全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene,必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。Elasticsearch中涉及到的重要概念

1)Cluster:集群。
ES可以作为一个独立的单个搜索服务器。不过,为了处理大型数据集,实现容错和高可用性,ES可以运行在许多互相合作的服务器上。这些服务器的集合称为集群。

2)Node:节点。
形成集群的每个服务器称为节点。

3)Shard:分片。
当有大量的文档时,由于内存的限制、磁盘处理能力不足、无法足够快的响应客户端的请求等,一个节点可能不够。这种情况下,数据可以分为较小的分片。每个分片放到不同的服务器上。 
当你查询的索引分布在多个分片上时,ES会把查询发送给每个相关的分片,并将结果组合在一起,而应用程序并不知道分片的存在。即:这个过程对用户来说是透明的。

4)Replia:副本。
为提高查询吞吐量或实现高可用性,可以使用分片副本。 
副本是一个分片的精确复制,每个分片可以有零个或多个副本。ES中可以有许多相同的分片,其中之一被选择更改索引操作,这种特殊的分片称为主分片。 
当主分片丢失时,如:该分片所在的数据不可用时,集群将副本提升为新的主分片。

5)全文检索。
全文检索就是对一篇文章进行索引,可以根据关键字搜索,类似于mysql里的like语句。 
全文索引就是把内容根据词的意义进行分词,然后分别创建索引,例如”你们的激情是因为什么事情来的” 可能会被分词成:“你们“,”激情“,“什么事情“,”来“ 等token,这样当你搜索“你们” 或者 “激情” 都会把这句搜出来。

好了,本文主要讲Elasticsearch环境搭建,以及中文分词的用法。下面讲Elasticsearch环境搭建以及使用。

2.环境搭建
1.安装 JAVA JDK 8

sudo apt-get update
sudo apt-get install openjdk-8-jre
查看jdk安装信息:

2.下载最新的 elasticsearch安装包:
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.6.2.tar.gz
tar -zxvf elasticsearch-6.6.2.tar.gz
cd elasticsearch-6.6.2
启动
./bin/elasticsearch
启动会打印启动的包信息:

3. 安装IK中文分词插件.
在ik分词的git(https://github.com/medcl/elasticsearch-analysis-ik
)上找到相应的ES对应的版本:


我这里安装的是最新的版本6.6.2:

看到上面的信息,那么我们的环境就搭建 好了。

3.使用。
我本地建立一张书本信息表,里面4个字段,其中attr_text是英文存储的,其他几个字段是中文


接下来创建索引:

先设置索引参数:

$params = [

    'index' => 'huazia',

    'body' => [

        'settings' => [

            'number_of_shards' => 3,

            'number_of_replicas' => 2,

            'analysis' => [

                'filter' => [

                    "ngram_filter" =>  [

                        "type" => "ngram",

                        "min_gram" => 2,

                        "max_gram" => 20

                    ]

                ],

                'analyzer' => [

                    "ngram_analyzer" => [

                        "type" => "custom",

                        "tokenizer" => "whitespace",

                        "filter" => [

                            "lowercase",

                            "asciifolding",

                            "ngram_filter"

                        ]

                    ]

                ]

            ]

        ],

        'mappings' => [

            'dd_book' => [

                '_source' => [

                    'enabled' => true

                ],

                'properties' => [

                    'book_name' => [

                        'type' => 'text',

                        'analyzer' => 'ik_max_word',

                        'search_analyzer' => 'ik_max_word',

                    ],

                    'book_author' => [

                        'type' => 'text',

                        'analyzer' => 'ik_max_word',

                        'search_analyzer' => 'ik_max_word',

                    ],

                    'book_desc' => [

                        'type' => 'text',

                        'analyzer' => 'ik_max_word',

                        'search_analyzer' => 'ik_max_word',

                    ],

                    'attr_text' => [

                        'type' => 'text',

                        'analyzer' => 'ngram_analyzer',

                        'search_analyzer' => 'standard',

                    ],

                  

                ]

            ]

        ]

    ]

];

 

其中book_name,book_author,book_desc都中文,使用了中文分词器IK分词器。attr_text是英文的,所以使用ngram分词器(elasticsearch自带的分词器)

接下来我们创建索引:

 

看到已经创建完成

紧接着我们把mysql的书本信息表数据生成索引数据:

 

好了,以上准备工作已经做完了,接着我们去创建我们的搜索

 

这里搜索3个字段,书名,描述,英文描述;并且对关键字进行高亮标红处理。

打开浏览器我们开始搜索:

 

看到book_name这个字段搜索出来了高亮显示了。接着可以搜索英文描述字段attr_text;

 

可以看到这个英文字段信息也搜索出来了,英文搜索用的ngram切词器,本例中设置的最小粒度为2个词,也就是少于2个词是搜索不出来的,当然了粒度越小越耗性能。本例中数据的索引分了3片,查看其中的信息:

 

查看所有索引的信息:

 

 

以上介绍了Elasticsearch中文分词和英文分词的基本使用。接下来我们可以对Elasticsearch启动进程进行管理,本文讲的是supervisor来管理进程。

在supervisor配置文件里面设置如下:

接着重启服务,看到服务已经启动。

 

可以查看启动信息:

本文针对Elasticsearch中文搜索就介绍到这里了,后面再介绍分库分表索引构建,以及内存管理

 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • php-fpm进程管理的三种模式 phpfpm子进程
    php-fpm进程管理的三种模式 phpfpm子进程
    php-fpm解读-进程管理的三种模式—程序媛大丽标明转载以示尊重 感谢原作者的分享。php-fpm进程管理一共有三种模式:ondemand、static、dynamic,我们可以在同一个fpm的master配置三种模式,看下图1。php-fpm的工作模式和nginx类似,都是一个master,多个worke
    03-08
  • nginx和php-fpm 是使用 tcp socket 还是 unix s
    tcp socket允许通过网络进程之间的通信,也可以通过loopback进行本地进程之间通信。unix socket允许在本地运行的进程之间进行通信。分析从上面的图片可以看,unix socket减少了不必要的tcp开销,而tcp需要经过loopback,还要申请临时端口和tcp相关资源。但是
    03-08
  • [PHP8] 我参加了PHP8工程师认证初学者考试beta考试
    [PHP8] 我参加了PHP8工程师认证初学者考试beta
    前几天,2022/08/05,PHP工程师认证机构PHP8 技术员认证初级考试宣布实施考试将于 2023 年春季开始。和 beta 测试完成于 2022/09/11所以我收到了。一般社团法人BOSS-CON JAPAN(代表理事:Tadashi Yoshimasa,地点:东京都世田谷区,以下简称“BOSS-CON JAPAN
    03-08
  • 将 PHP Insights 放入旧版 PJ 不是很好吗?谈论
    将 PHP Insights 放入旧版 PJ 不是很好吗?谈论
    介绍在最近的PHP系统开发中,感觉故事在理所当然包含静态分析工具的前提下进行。我的周围现有代码很脏,我很久以前安装了工具,但几乎没有检查已经观察到许多这样的案例。 (这是小说。而不是像 0 或 100 这样不允许单行错误的静态分析,一点一点,逐渐我想介
    03-08
  • php视图操作
    一、视图的基本介绍         视图是虚拟的表。与包含数据的表不一样,视图只包含使用时动态检索数据的查询。        使用视图需要MySQL5及以后的版本支持。        下面是视图的一些常见应用:        重用SQL语句;        简化复杂的S
    02-09
  • php中图像处理的常用函数 php图形图像处理技术
    php中图像处理的常用函数 php图形图像处理技术
    1.imagecreate()函数imagecreate()函数是基于一个调色板的画布。?php $im = imagecreate(200,80);                //创建一个宽200,高80的画布。$white = imagecolorallocate($im,225,35,180);     //设置画布的背景颜色imagegif($im);
    02-09
  • PHP安全之webshell和后门检测
    PHP安全之webshell和后门检测
    基于PHP的应用面临着各种各样的攻击:XSS:对PHP的Web应用而言,跨站脚本是一个易受攻击的点。攻击者可以利用它盗取用户信息。你可以配置Apache,或是写更安全的PHP代码(验证所有用户输入)来防范XSS攻击SQL注入:这是PHP应用中,数据库层的易受攻击点。防范
    02-09
  • php使用时间戳保存时间的意义 PHP获取时间戳
    时间戳记录的是格林尼治时间,使用date格式化的时候会根据你程序设置的不同时区显示不同的时间。如果使用具体时间,则还需要进行多一步转换。
    02-09
  • PHP 获取提交表单数据方法
    PHP $_GET 和 $_POST变量是用来获取表单中的信息的,比如用户输入的信息。PHP表单操作在我们处理HTML表单和PHP表单时,我们要记住的重要一点是:HTML页面中的任何一个表单元素都可以自动的用于PHP脚本:表单举例: htmlbodyform action="welcome.php" method
    02-09
  • php中file_get_contents与curl的区别 php get f
    做微信开发的时候,项目中需要用PHP去请求微信相关接口。刚开始使用的是file_get_contents这个函数,后来听朋友说最好用curl。自己尝试了下,也能成功请求微信的接口。这两个有什么区别呢?抱着好奇心查阅了相关资料后,才知道他们之间确实有很大的不同。1.fo
    02-09
点击排行