Просмотр результатов узла SVM-классификатор

Окно просмотра результатов узла SVM-классификатор включает следующие вкладки: Модель, Детали классификации, Матрица ошибок, Метрики классификации, ROC-анализ, Точность-Полнота, Gain-кривая, Lift-анализ, Важность признака и Настройки.

Вкладка Модель

Вкладка Модель отображает данные модели прогнозирования, используемой в узле:

В таблице в соответствующей колонке также указывается коэффициент классификации.

Вкладка Детали классификации

На вкладке Детали классификации отображается таблица уникальных значений целевой колонки и информация о точности для каждого целевого значения:

Целевая переменная – значение выбранной целевой колонки;
Количество записей – число записей (поддержка) во входных данных, содержащих указаное значение;
Доля – процентное соотношение записей во входных данных, содержащих указанное значение;
Ошибка - доля неправильной классификации в общем числе записей;
Точность – доля релевантных последовательностей среди обнаруженных последовательностей;
Полнота – доля обнаруженных релевантных последовательностей;
F-мера – мера точности, заимствованная из точности и полноты алгоритма;
Истинно-положительные - процент истинно-положительных результатов;
Ложно-отрицательные – процент ложно-отрицательных результатов;
Ложно-положительные – процент ложно-положительных результатов.

Вкладка Матрица ошибок

На вкладке Матрица ошибок суммируется информация о различиях между прогнозируемыми и действительными целевыми значениями:

Матрица ошибок отображает коэффициент ошибки классификации для каждого класса (каждого уникального значения) целевой переменной. В колонках представлено прогнозируемое значение, а в строках – действительное. Диагональ матрицы представляет частоту правильной классификации.

Каждая ячейка представляет собой число долей соответствующего класса. Последняя строка и колонка показывают общую сумму ошибок в колонках и строках соответственно (т.е. без учета случаев корректной классификации). Эти общие суммы обладают тем же значением, что и ложно-положительные и ложно-отрицательные на предыдущей вкладке, но вычисляются в абсолютных значениях без отношения к категориям.

Вкладка Метрики классификации

Вкладка Метрики классификации показывает критерии для оценки качества моделей классификации, которые определяют насколько хорошо модель справляется со своей задачей:

Уточнение - доля правильных предсказаний (как положительных, так и отрицательных) среди всех предсказаний. Значение вычисляется как сумма истинно положительных (TP) и истинно отрицательных (TN) значений, деленная на общее количество валидных записей в используемом наборе данных: (TP+TN)/(total predictions).
Точность - доля правильных предсказаний (как для положительных, так и для отрицательных классов) среди случаев, которые были классифицированы как положительные. Значение вычисляется как число истинно положительных значений (TP), деленное на сумму истинно положительных значений (TP) и ложноположительных значений (FP): TP/(TP+FP).
Полнота - доля истинно положительных предсказаний среди всех реальных положительных классов. Значение вычисляется как число истинно положительных значений (TP), деленное на сумму истинно положительных значений (TP) и ложноотрицательных значений (FN): TP/(TP+FN).
Специфичность - доля истинно отрицательных предсказаний среди всех реальных отрицательных классов. Значение вычисляется как число истинно отрицательных значений (TN), деленное на сумму истинно отрицательных значений (TN) и ложноотрицательных значений (FP): (TN)/(TN+FP).
F-мера - гармоническое среднее между точностью и полнотой. Значение вычисляется как Точность, умноженная на Полноту, умноженная на 2 и разделенное на сумму значений Точности и Полноты: (2*TP)/(2*TP+FP+FN).
P4 - расширение F1-меры, обладающее симметрией относительно инверсии классов. Рассчитывается следующим образом: (4*TP*TN)/(4*TP*TN+(TP+TN)*(FP+FN)). Диапазон значений от 0 до 1: чем ближе значение метрики к 1, тем лучше работает модель.
Площадь под ROC-кривой (Receiver Operating Characteristic Curve) часто обозначают как AUC (Area Under Curve). Этот показатель оценивает способность модели различать между положительными и отрицательными значениями. Кривая ROC отображает отношение между показателем истинно положительных ответов и ложноположительных ответов при различных пороговых значениях классификации и рассчитывается по формуле: 2*auc-1. Чем выше значение AUC, тем лучше модель способна различать. Для не бинарной модели AUC-ROC считается по усредненной кривой.

Джини представляет собой среднеквадратичный отступ от линии идеального равенства (или же случайного распределения), вычисляется по формуле:

\(Gini_{normalized} = \frac{Gini_{model}}{Gini_{perfect}} = 2 \cdot AUCROC - 1\)

Максимальный коэффициент Джини для текущего набора данных достигается идеальным алгоритмом и зависит только от истинного распределения классов: при равномерном распределении он равен 0.25. Форма фигуры для идеального алгоритма, образуемой Lift Curve и линией абсолютного равенства, всегда будет треугольником. Площадь фигуры для идеального алгоритма равна:

\(S = \frac{Число\enspace объектов\enspace класса\enspace 0\enspace в \enspaceвыборке}{2}\)

Коэффициент Джини случайного алгоритма равен 0, а его Lift Curve совпадает с линией абсолютного равенства. Коэффициент Джини обученного алгоритма всегда ниже идеального, и его нормализованные значения находятся в диапазоне [0, 1], где нормализованный коэффициент Джини максимизируется как метрика качества.

Обратите внимание, что все метрики для расчёта которых используются ложноотрицательные значения не могут быть вычислены для небинарных моделей.

Вкладка ROC-анализ

Вкладка ROC-анализ отображает ROC-график (соотношение чувствительности и 1-специфичности) и таблицу со следующими колонками. ROC-график показывает качество выбранной модели в соответствии с порогами классификации.

Вкладка Точность-Полнота

Вкладка Точность-Полнота отображает кривую Точности-Полноты, который представляет собой график со значениями Точности на оси y и со значениями Полноты на оси x.

Желательно, чтобы алгоритм характеризовался и высокой точностью, и высокой полнотой. Однако, большинство алгоритмов машинного обучения предлагают компромисс между этими двумя параметрами. Хороший результат на кривой Точности-Полноты обозначается большей площадью под кривой (AUC).

Вкладка Gain-кривая

Вкладка Lift-анализ

Gain и Lift - метрики SVM, помогающие понять преимущества используемой модели. Они рассчитываются следующим образом:

Gain

Lift

Прогнозируется вероятность Y = 1 (положительная) с использованием модели SVM и организуется наблюдение в нисходящем порядке прогнозируемой вероятности (т.е. P(Y = 1)).

Данные делятся на децили. Рассчитывается число положительных значений (Y = 1) в каждом дециле и совокупное число положительных значений до дециля.

Gain - отношение между совокупным числом положительных наблюдений до дециля и общим числом положительных наблюдений в данных.

Lift - отношение между числом положительных наблюдений до дециля i с использованием модели и ожидаемым числом положительных значений до дециля i на основе случайной модели.

\(\text{Gain}=\frac{\text{Совокупное число положительных наблюдений до дециля}}{\text{Общее число положительных наблюдений в данных}}\)

\(\text{Lift}=\frac{\text{Совокупное число положительных наблюдений до дециля i с использованием модели машинного обучения}}{\text{Совокупное число положительных наблюдений до дециля i с использованием случайной модели}}\)

Gain-кривая - это график, на вертикальной оси которого находится gain, а на горизонтальной - дециль.

Lift-кривая - это график, на вертикальной оси которого находитс lift, а на горизонтальной - соответствующий дециль.

Оба графика включают минимум два элемента: Gain/Lift-кривая и Исходные данные. Чем больше площадь Gain/Lift-кривой и Исходными данными, тем выше качество модели.

Вкладка Важность признака

При включении режима Рассчитать важность признака в окне настройки свойств узла SVM-классификатор его отчет будет включать дополнительный раздел – Важность признака. Данная вкладка содержит график, который отражает значимость факторов:

В правом верхнем углу области графика располагается панель инструментов, которая предоставляет доступ к следующим функциональным возможностям:

– сохранить текущий вид графика в PNG-файл.
– увеличить выбранную область графика. Определение области для более детального изучения осуществляется путем нажатия на график и перемещения по нему курсора.
– перемещайтесь по графику, перетаскивая его в соответствующем направлении.
– используйте инструмент выделения в форме прямоугольника для выбора объектов на графике.
– используйте инструмент выделения в виде лассо для выбора объектов на графике.
– увеличение масштаба на графике.
– уменьшение масштаба на графике.
– выполнить автоматическую настройку размера графика.
– восстановить исходный вид графика.