Использование словарей

Результаты работы инструментов автоматического анализа текста на естественном языке не всегда соответствуют ожиданиям пользователей. Используемые словари позволяют отладить работу инструментов текстового анализа и оптимизировать их результат. Например, пользователи могут указать синонимические отношения между словами, в результате два разных слова будут рассматриваться как одно слово. Также можно настроить алгоритм текстового анализа так, чтобы он игнорировал отдельные слова, какими бы значимыми они ни были с точки зрения формальных признаков.

Помните, что большие временные затраты на настройку словаря не всегда являются гарантией качества результата.

Что такое словарь?

Словарь в PolyAnalyst Grid – это список слов, содержащий характеристики этих слов. Словарь может содержать информацию об отношениях между словами, например, слова могут быть связаны синонимическими отношениями (словарь Синонимов) или быть объединенными по какому-либо общему признаку (словарь WordClasses).

Какие узлы в PolyAnalyst Grid используют словари?

Для узлов анализа текста в PolyAnalyst Grid использование словарей является обязательным условием эффективной работы. К таким узлам относится, например, узел Проверка орфографии. Для других узлов использование словарей опционально. Пользователи могут сравнить результаты работы таких узлов как с использованием словаря, так и без него.

Языки используемых словарей

Для каждого языка существует свой набор словарей. Каждый новый словарь, который создает пользователь, соответствует конкретному языку. По умолчанию это английский язык. В ходе анализа вы можете использовать словари для разных языков.

Дополнительные факты о словарях

Большинство словарей можно редактировать с помощью редактора словарей PolyAnalyst Grid, который называется Менеджер словарей. Вы можете выполнять такие действия, как удаление словаря, переименование и т.д.

Словари по умолчанию

В установочный пакет PolyAnalyst Grid входит несколько словарей.

Мы настоятельно рекомендуем пользователям редактировать только копии словарей, вместо того чтобы изменять сами предустановленные словари. Это гарантирует то, что вы сможете легко вернуться к исходному состоянию словарей PolyAnalyst Grid.

Кроме предустановленных словарей, вы можете создавать и использовать пользовательские словари. Вы можете получить и другие словари по умолчанию, включая словари на других языках. Из-за размеров файлов этих словарей и того факта, что не все словари актуальны для тех или иных пользователей, эти словари не входят в базовую установку PolyAnalyst Grid. Вы можете запросить другие словари, обратившись в техническую поддержку компании Мегапьютер.

Обычно узлы в системе PolyAnalyst Grid предварительно настроены на использование соответствующих предустановленных словарей. Вы можете выбрать необходимые словари на этапе настройки узла на вкладке Словари. На ней вы можете просмотреть, какие словари используются данным узлом, а также добавить нужные словари или отключить ненужные.

Так, например, выглядит вкладка Словари окна настроек узла Индекс текста:

dict tab example.rus

Как вы можете видеть на скриншоте выше, узел Индекс текста использует только один словарь, а именно Морфологический словарь. Другие узлы используют другое количество словарей. Конфигурация и типы словарей описаны далее.