Введение в логистическую регрессию

Логистическая регрессия – это вид классификации и часто используемое средство обработки данных. Если ввести данные о наблюдениях в алгоритм логистической регрессии, он обучит модель, которая сможет прогнозировать целевой класс (класс "да" или "нет") определенной целевой переменной при добавлении новых наблюдений. В бизнесе эту классификационную модель используют по-разному, алгоритм может выполнять различные задания. Это – форма неконтролируемого анализа, или анализ под управлением самих данных, где роль человека в разработке модели сведена к минимуму. Довольно часто модель полезна не только при классификации, выходные данные модели помогают понять систему или скрытую структуру таблицы данных. Правило регрессии показывает преимущества и недостатки выбранных независимых переменных, а также позволяет судить о том, насколько данные могут быть использованы для обучения модели, поскольку высокая точность модели позволяет полагаться на нее в процессе принятия решений.

Алгоритм логистической регрессии подробно описан и используется во многих программах анализа данных. При необходимости вы легко сможете найти информацию о нем в сети Интернет. Для того чтобы понять, как работает узел, пользователь должен хорошо знать математику и методы статистического анализа. Кроме того, важно понимать принцип действия линейной регрессии (не только в системе PolyAnalyst Grid).

Вот некоторые источники информации о логистической регрессии:

  • Alan Agresti, Categorical Data Analysis. New York: Wiley, 1990.

  • Amemiya, T., Advanced Econometrics, Harvard University Press, 1985.

  • David W. Hosmer and Stanley Lemeshow, Applied logistic regression., 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8

Пользователь может воспользоваться моделью при необходимости выполнения бинарной классификации (когда он имеет дело с двумя классами целевой переменной) или для изучения данных, для нахождения связей между переменными. Обычно узел используется ближе к концу проекта, после того как данные были загружены и подготовлены. Узел можно использовать вместе с другими классификационными моделями для того, чтобы можно было сравнить точность нескольких моделей. Узел также можно использовать в комбинации с узлом Применение моделей для того, чтобы применять обученную модель к новым данным и прогнозировать значения целевой переменной для каждой записи.

Логистическая регрессия – это метод классификации, предназначенный для работы с булевыми целевыми переменными и со случайным набором независимых переменных. Независимые переменные могут быть числовыми, булевыми или категориальными переменными. Во время выполнения алгоритм по сути преобразует категориальные независимые исходные переменные в новые колонки с булевыми данными для каждого значения категориальной переменной.

Логистическая регрессия должна быть обучена на выборке записей для того, чтобы разработать модель классификации, затем модель тестируется на отдельном наборе данных. На самом деле логистическая регрессия не прогнозирует значение целевой переменной. Значение вычисляется по формуле:

\[Logit(p)= \beta_{0}+ \beta_{1}X_{1}+...+\beta_{n}X_{n},\]

, где логистическое преобразование вероятности выполняется по формуле:

\[Logit(p)= \ln(\frac{p}{1-p})\]

В отличие от линейной регрессии, в которой сумма квадратов ошибок снижается до минимума, вычисление здесь основано на значении максимального правдоподобия. Числовые оценки производятся с помощью метода Ньютона—Рафсона.

Наиболее частая категория (класс целевой переменной, одно из уникальных значений целевой переменной) выбирается в качестве базовой категории. Выбранный класс также известен как опорная категория.

Стандартное отклонение и доверительный интервал вычисляются для каждой оценки параметров logit-функций. Коэффициент правдоподобия используется для оценки значимости каждой независимой переменной, включенной в модель. Проверка критерия согласия выполняется с помощью теста Пирсона. Алгоритмы ступенчатой регрессии основаны на проверке критерия правдоподобия.