本文共 2711 字,大约阅读时间需要 9 分钟。
本节书摘来自华章计算机《深入理解Elasticsearch(原书第2版)》一书中的第2章,第2.2节,作者 [美]拉斐尔·酷奇(Rafal Ku)马雷克·罗戈任斯基(Marek Rogoziski),张世武 余洪淼 商旦 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
之前我们探讨了评分机制,这些知识非常珍贵,特别是当你尝试改进查询相关性时。我们还认为,在对查询进行调试时,也很有必要搞清楚查询是如何执行的。因此我们决定在本节介绍一下查询改写是如何工作的,为什么需要查询改写,以及我们应该如何控制它。
如果你之前使用过诸如前缀查询或通配符查询之类的查询类型,那么你会了解这些都是基于多词项的查询,它们都涉及查询改写。Elasticsearch使用查询改写是出于对性能的考虑。从Lucene的角度来看,所谓的查询改写操作,就是把费时的原始查询类型实例改写成一组性能更高的查询类型实例,从而加快查询执行速度。查询改写过程对客户端不可见,不过最好能够知道我们可以修改查询改写过程。举个例子,让我们看看Elasticsearch是如何处理前缀查询的。
演示查询改写过程的最好方式莫过于通过范例深入了解该过程的内部实现机制,尤其是要去了解原始查询中的词项是如何被改写成目标查询中那些词项的。假设我们索引了下面这些文档中的数据:
现在我们想找出索引中所有name字段以字母j开头的文档。简单起见,我们在clients索引中执行以下查询:
这里使用了一个简单的前缀查询,想检索出所有name字段以字母j开头的文档。我们同时也设置了查询改写属性以确定执行查询改写的具体方法,不过现在我们跳过该参数,具体的参数值将在本章的后续部分讨论。
执行前面的查询以后,我们将得到下面的结果:
如你所见,返回结果中有3个文档,这些文档的name字段以字母j开头。我们并没有显式设置待查询索引的映射,因此Elasticsearch探测出了name字段的映射,并将其设置为字符串类型并进行文本分析。可使用下面的命令进行检查:
Elasticsearch将返回类似下面的结果:
现在我们回到Lucene。如果你还记得Lucene倒排索引是如何构建的,你会指出倒排索引中包含了词项、词频以及文档指针(如果忘了,请重新阅读1.1节)。现在我们看看之前存储到clients索引中的数据大概是如何组织的。
Term这一列非常重要。如果我们去探究Elasticsearch和Lucene的内部实现,将会发现前缀查询被改写为下面这种查询:
我们可以用Elasticsearch API来检查重写片段。首先,使用Explain API执行如下命令:
执行结果如下:
可以看到,Elasticsearch对name字段使用了一个词项是joe的constant_score查询。当然,这一步发生在Lucene中,Elasticsearch实际上只是从缓存中获取这些词项。这一点可以用Validate查询API来验证。
Elasticsearch返回的结果如下:
当然,多词项查询的rewrite属性也可以支持除了“constant_score_boolean”之外的其他取值。我们可以通过这个属性来控制查询在Lucene内部的改写方式。我们可以将rewrite参数存放在代表实际查询的JSON对象中,例如,像下面的代码这样:
现在让我们来看看rewrite参数有哪些选项可以配置。
当rewrite属性设置为constant_score_auto或者没有设置时,Elasticsearch会根据查询的类型及其构造方式来决定是使用constant_score_filter还是constant_score_boolean。
现在,让我们再看一个例子。如果我们想在范例查询中使用top_terms_N选项,并且N的值设置为2,那么查询看起来与下面的代码类似:
从Elasticsearch返回的结果中可以看出,和我们之前使用的查询不同,这里的文档得分都不等于1.0。
这是因为top_terms_N需要保留得分最高的N个词项。
结束本节之前,读者应该会产生一个疑问,我们如何决定何时采用何种查询改写方法?该问题的答案更多地取决于您的应用场景。简单来说,如果您能接受较低的精度和相关性(但是追求更高的性能),那么可以采用top-N查询改写方法。如果您需要更高的查询精度和更好的相关性(同时可以接受较低的性能),那么应该采用布尔方法。
转载地址:http://rwmja.baihongyu.com/