Критерий Фишера

Критерий Фишера используется для оценки значимости отдельных регрессионных термов, а также модели регрессии в целом. В первом случае используется коэффициент определения регрессии (R2); во втором случае алгоритм использует отношение квадрата коэффициента регрессии к ожидаемой дисперсии (F-критерий). F-тесты выполняются в двух режимах – автоматическом (настоятельно рекомендуемый режим) и ручном. Если подключить опцию Использовать скорректированный критерий Фишера, используется первый способ. В этом случае критические значения критерия Фишера устанавливаются автоматически и корректируются в соответствии с ожидаемым количеством тестируемых независимых гипотез.

Необходимость корректировки можно проиллюстрировать следующим примером.

Предположим, что мы пытаемся создать 1-мерную модель регрессии для таблицы, состоящей из 1000 колонок, заполненных случайными числами, и понимаем, что вряд ли нам удастся создать сколько-нибудь значимую модель регрессии. Мы устанавливаем часто используемое критическое p-значение 0.01 и находим около 10 значимых моделей. Это понятно: мы проверили 1000 независимых гипотез с вероятностью принятия ложной гипотезы, равной 0.01. Мы могли бы получить правильный нулевой результат, если бы увеличили свой критерий в 1000 раз.

Таким образом, мы настоятельно рекомендуем использовать автоматический режим, поскольку это - единственный способ гарантировать надежность создаваемой модели.

Для чего сохраняется вторая возможность? Представьте следующую ситуацию. Мы исследовали (используя автоматический режим) таблицу с тремя независимыми переменными и обнаружили значимую модель регрессии. Добавим 1000 колонок со случайными числами, выполним узел линейной регрессии снова и …​ ничего не обнаружим. Ничего не изменилось – зависимость между целевой переменной и теми тремя независимыми переменными по-прежнему существует, но мы не можем ее обнаружить, поскольку используем слишком строгие статистические критерии. В таком случае (когда мы не можем обнаружить значимую модель регрессии, хотя уверены в том, что она существует) мы можем попытаться отключить автоматический режим, убрав флажок. Тогда нам необходимо вручную ввести критическое значение критерия Фишера для коэффициентов регрессии в соответствующее поле окна настроек узла.

Критическое p-значение критерия Фишера для всей модели регрессии в таком случае равно 0.03. Установив для критического F-отношения приемлемо маленькую величину (например, 3), мы снова получаем модель регрессии. Правда, теперь она наверняка содержит некоторые дополнительные колонки со случайными числами, но мы увидим, что полученное F-отношение для истинных независимых переменных в несколько раз выше случайных колонок. Следовательно, эта модель позволяет понять факторы, которые влияют на целевые колонки. Но она подходит только для этой цели – она не может быть использована для оценки значений целевых колонок для новых записей, поскольку со статистической точки зрения, полученная модель ненадежна. Еще раз подчеркнем, что в этом случае было бы правильнее убрать ненужные колонки (используя какой-нибудь критерий корреляции колонок), вместо того, чтобы отключать автоматический режим.

Критическое значение критерия Фишера, равное 0, означает, что никаких проверок значимости выполнено не будет, а модель будет включать все имеющиеся исходные переменные.