Как рассчитывается метрика значимости

Значимость рассчитывается как абсолютное значение логарифма вероятности того, что рассматриваемая связь возникла случайно.

Предположим, что у нас имеется всего \(N\) записей. Обозначим репрезентативное значение колонки A как \(a\), а репрезентативное значение колонки B как \(b\), количество записей со значением \(a\) в колонке A как \(N_{a}\), а количество записей со значением \(b\) в колонке B как \(N_{b}\). Количество записей со значением \(a\) в колонке A и со значением \(b\) в колонке B одновременно будет обозначено как \(N_{ab}\).

Если эти значения распределяются независимо друг от друга, то \(N_{ab}/N\) должно быть приблизительно равно \((N_{a}/N)*(N_{b}/N)\). Если \(N_{ab}\) значительно больше, чем \((N_{a}*N_{b})/N2\), то можно предположить, что случаи появления \(a\) и \(b\) в двух колонках зависят друг от друга.

Что означает "значительно"? С точки зрения независимости и учитывая частоту значений \(a\) и \(b\) a priori, мы можем сделать вывод о том, что выбирая некоторую запись случайно, вероятность того, что мы встретим в этой записи значение \(a\) в колонке A и значение \(b\) в колонке B равно \(P(ab) = (N_{a}/N)*(N_{b}/N)\). Фактически, поскольку у нас имеется \(N\) записей, мы выполняем \(N\) проверок с вероятностью успеха, равной \(P(ab)\). Вероятность \(P\), что мы получим \(N_{ab}\) или больше успешных попыток, определяется биномиальным распределением с параметрами \(N\) и \(P(ab)\), которое представляет собой сумму \(P_{биномиальное}(n; N, P(ab)\) для всех \(N>n >= Nab\). Если \(N_{ab} > (N_{a} * N_{b}) / N2\), то эта вероятность меньше, чем 0,5. По мере увеличения \(N_{ab}\) она будет сокращаться.

Так вычисляется вероятность. А то, что отображается на шкале в настройках узла Анализ связей, представляет собой значимость в общеупотребительном смысле этого слова. Если совместное появление значений \(a\) и \(b\) наблюдается редко, но мы все равно часто встречаем их вместе, это значит, что существует связь между значением \(a\) в колонке A, и \(b\) в колонке B. Чем меньше эта теоретическая вероятность, тем выше значимость связи, а точная формула значения на слайдере - \(-log(P)\) (знак "минус" гарантирует, что значение является положительным, и поэтому его легче визуализировать и понять).

Обратите внимание, что, строго говоря, абсолютно корректный способ вычисления упомянутой выше вероятности должен быть основан на более сложном типе распределения, а именно – на гипергеометрическом распределении, но для расчета при этом потребуется гораздо больше времени. Однако, различие между результатами двух вычислений становится незначительным тогда, когда число записей превышает несколько десятков. В связи с этим в PolyAnalyst Grid мы используем биномиальное распределение. При исследовании и целой таблицы данных, и десятка записей, этот подход гарантирует корректный качественный результат.