Создание пользовательских анализаторов Elasticsearch

Теперь пришло время посмотреть, как мы можем создать свой собственный анализатор. Для этого мы определим, из каких фильтров символов, токенизаторов и фильтров лексем должен состоять анализатор, и потенциально настроим их.

Elasticsearch

Приведенный выше запрос добавляет два анализатора и один фильтр лексем, который используется внутри пользовательского анализатора. Помимо пользовательского фильтра лексем используются встроенные символьные фильтры и фильтры лексем. И, конечно же, стандартный токенизатор. Список доступных вы можете найти в документации здесь.

Отлично, итак, индекс создан с нашими настройками. Давайте воспользуемся API Analyze, чтобы проверить, что анализатор работает так, как мы ожидаем.

Результат

Взглянув на результаты, мы увидим, что буква "i" в первом лексемном слове была записана в нижнем регистре. Мы также видим, что HTML-теги были удалены, а слово "drinking" было преобразовано в "drink". Отлично, анализатор работает, и теперь мы можем использовать его для сопоставления полей.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий