Elasticsearch.Nest 教程系列 6-1 分析:Writing analyzers | 编写分析器
本系列博文是“伪”官方文档翻译(更加本土化),并非完全将官方文档进行翻译,而是在查阅、测试原始文档并转换为自己真知灼见后的“准”翻译。有不同见解 / 说明不周的地方,还请海涵、不吝拍砖 :)
官方文档见此:https://www.elastic.co/guide/en/elasticsearch/client/net-api/current/introduction.html
本系列对应的版本环境:ElasticSearch@7.3.1,NEST@7.3.1,IDE 和开发平台默认为 VS2019,.NET CORE 2.1
ES 中的“分析”是指将文本(如任何电子邮件的正文)转换为 tokens 或 terms 的过程,这些 tokens 或 terms 被添加到倒排索引中以进行搜索。分析是由分析器执行的,该分析器可以是内置分析器,也可以是自定义的分析器。
分词器由 3 部分组成:
-
Character Filters:处理原始文本,如去除 html。
- 一般有 0 个或多个
-
Tokenizer:按照规则切分为单词。
- 一般只有 1 个
-
Token filter:加工切分后的单词,如转小写、删除停用词,增加同义词等。
- 一般有 0 个或多个
- 一般有 0 个或多个