Узел Логистическая регрессия
Узел Логистическая регрессия обучает модель логистической регрессии. Узел Логистическая регрессия требует одного входного соединения с любым узлом, который создает таблицу данных, например узел-источник данных, операции со строками, колонками или таблицами. Выходные данные узла представляют собой модель, которую можно соединить с узлом Применение моделей.
Важно отметить, что термин "логистическая регрессия" относится к общему алгоритму логистической регрессии, который используется во многих программных пакетах для анализа данных. PolyAnalyst Grid поддерживает два типа логистической регрессии: обычную и полиномиальную. Разница между ними обусловлена используемой целевой переменной. Целевая переменная обычной регрессии имеет двоичный характер. Это значит, что она должна быть булевой и содержать два класса значений ("истина" или "ложь"). Полиномиальная логистическая регрессия не ограничена двумя категориями и может использовать булевые, категориальные колонки и целочисленные ID в качество целевой переменной. Отчет полиномиальной логистической регрессии может содержать дополнительную информацию по отдельным классам целевой переменной. Другими словами, если имеется три уникальных значения целевой переменной (три класса), то отчет будет содержать информацию по каждому классу.
Логистическую регрессию иногда называют логит-регрессией. В то же время, термин "логит-регрессия" также описывает особый вид логистической регрессии. Мы же будем использовать его в общем значении исключительно для краткости.
Соединения на скрипте
Узел Логистическаяя регрессия требует одно входящее соединение с узлом, который производит таблицу данных, например узел-источник данных, операций со строками, колонками или таблицами. Результатом работы узла является модель, которая может быть использована в узле Применение моделей.
Производительность
Во время выполнения узла PolyAnalyst Grid обучает модель логистической регрессии. Это детерминируемый процесс, поэтому в списке задач будет отображаться индикатор выполнения задачи, показывающий, на какой стадии находится процесс обучения модели. По сравнению с другими моделями, обучение модели логистической регрессии требует меньше ресурсов и времени. Задание считается выполненным, когда завершается обучение модели.
Записи, в которых значение целевой переменной равно нулю, игнорируются.
Время обработки пропорционально числу независимых атрибутов. Каждое уникальное значение категориальных (строковых) переменных также является независимой переменной.
Максимальное число записей, которое может обработать узел, определяется размером таблиц, которые PolyAnalyst Grid способен хранить, но есть и некоторые другие ограничивающие факторы. Если вы работаете с крупной таблицей данных, возможно, имеет смысл создать выборку данных для того, чтобы избежать проблему недостатка памяти. Максимальный объем виртуальной памяти, выделенной для алгоритма, по умолчанию составляет 100 МB. Увеличение RAM до 300 МB и больше увеличит производительность узла логистической регрессии.
При вычислении размера выборки PolyAnalyst Grid следит за тем, чтобы ее размер был не меньше, чем число независимых переменных, включая различные значения категориальных переменных. Минимальный размер выборки равен произведению минимального числа независимых переменных и постоянного множителя больше 1. Согласно общему правилу статистики, размер выборки в идеале должен как минимум в 3-4 раза превышать количество независимых переменных.
Узел линейно масштабируется с количеством записей и переменных.
Время выполнения узла находится в линейной зависимости от числа независимых переменных. При 48000 записях и 46 действительных независимых переменных вычисление заняло 3 минуты 14 секунд.
Время применения модели линейно зависит от размера таблицы данных.