Как рассчитывается метрика значимости
Значимость рассчитывается как абсолютное значение логарифма вероятности того, что рассматриваемая связь возникла случайно.
Так вычисляется вероятность. А то, что отображается на шкале в настройках узла Анализ связей, представляет собой значимость в общеупотребительном смысле этого слова. Если совместное появление значений \(a\) и \(b\) наблюдается редко, но мы все равно часто встречаем их вместе, это значит, что существует связь между значением \(a\) в колонке A, и \(b\) в колонке B. Чем меньше эта теоретическая вероятность, тем выше значимость связи, а точная формула значения на слайдере - \(-log(P)\) (знак "минус" гарантирует, что значение является положительным, и поэтому его легче визуализировать и понять).
Обратите внимание, что, строго говоря, абсолютно корректный способ вычисления упомянутой выше вероятности должен быть основан на более сложном типе распределения, а именно – на гипергеометрическом распределении, но для расчета при этом потребуется гораздо больше времени. Однако, различие между результатами двух вычислений становится незначительным тогда, когда число записей превышает несколько десятков. В связи с этим в PolyAnalyst Grid мы используем биномиальное распределение. При исследовании и целой таблицы данных, и десятка записей, этот подход гарантирует корректный качественный результат.