Просмотр результатов узла SVM-классификатор
Окно просмотра результатов узла SVM-классификатор включает следующие вкладки: Модель, Детали классификации, Матрица ошибок, Метрики классификации, ROC-анализ, Точность-Полнота, Gain-кривая, Lift-анализ, Важность признака и Настройки.
Вкладка Модель
Вкладка Модель отображает данные модели прогнозирования, используемой в узле:
В таблице в соответствующей колонке также указывается коэффициент классификации.
Вкладка Детали классификации
На вкладке Детали классификации отображается таблица уникальных значений целевой колонки и информация о точности для каждого целевого значения:
-
Целевая переменная – значение выбранной целевой колонки;
-
Количество записей – число записей (поддержка) во входных данных, содержащих указаное значение;
-
Доля – процентное соотношение записей во входных данных, содержащих указанное значение;
-
Ошибка - доля неправильной классификации в общем числе записей;
-
Точность – доля релевантных последовательностей среди обнаруженных последовательностей;
-
Полнота – доля обнаруженных релевантных последовательностей;
-
F-мера – мера точности, заимствованная из точности и полноты алгоритма;
-
Истинно-положительные - процент истинно-положительных результатов;
-
Ложно-отрицательные – процент ложно-отрицательных результатов;
-
Ложно-положительные – процент ложно-положительных результатов.
Вкладка Матрица ошибок
На вкладке Матрица ошибок суммируется информация о различиях между прогнозируемыми и действительными целевыми значениями:
Матрица ошибок отображает коэффициент ошибки классификации для каждого класса (каждого уникального значения) целевой переменной. В колонках представлено прогнозируемое значение, а в строках – действительное. Диагональ матрицы представляет частоту правильной классификации.
Каждая ячейка представляет собой число долей соответствующего класса. Последняя строка и колонка показывают общую сумму ошибок в колонках и строках соответственно (т.е. без учета случаев корректной классификации). Эти общие суммы обладают тем же значением, что и ложно-положительные и ложно-отрицательные на предыдущей вкладке, но вычисляются в абсолютных значениях без отношения к категориям.
Вкладка Метрики классификации
Вкладка Метрики классификации показывает критерии для оценки качества моделей классификации, которые определяют насколько хорошо модель справляется со своей задачей:
-
Уточнение - доля правильных предсказаний (как положительных, так и отрицательных) среди всех предсказаний. Значение вычисляется как сумма истинно положительных (TP) и истинно отрицательных (TN) значений, деленная на общее количество валидных записей в используемом наборе данных:
(TP+TN)/(total predictions)
. -
Точность - доля правильных предсказаний (как для положительных, так и для отрицательных классов) среди случаев, которые были классифицированы как положительные. Значение вычисляется как число истинно положительных значений (TP), деленное на сумму истинно положительных значений (TP) и ложноположительных значений (FP):
TP/(TP+FP)
. -
Полнота - доля истинно положительных предсказаний среди всех реальных положительных классов. Значение вычисляется как число истинно положительных значений (TP), деленное на сумму истинно положительных значений (TP) и ложноотрицательных значений (FN):
TP/(TP+FN)
. -
Специфичность - доля истинно отрицательных предсказаний среди всех реальных отрицательных классов. Значение вычисляется как число истинно отрицательных значений (TN), деленное на сумму истинно отрицательных значений (TN) и ложноотрицательных значений (FP):
(TN)/(TN+FP)
. -
F-мера - гармоническое среднее между точностью и полнотой. Значение вычисляется как Точность, умноженная на Полноту, умноженная на 2 и разделенное на сумму значений Точности и Полноты:
(2*TP)/(2*TP+FP+FN)
. -
P4 - расширение F1-меры, обладающее симметрией относительно инверсии классов. Рассчитывается следующим образом:
(4*TP*TN)/(4*TP*TN+(TP+TN)*(FP+FN))
. Диапазон значений от 0 до 1: чем ближе значение метрики к 1, тем лучше работает модель. -
Площадь под ROC-кривой (Receiver Operating Characteristic Curve) часто обозначают как AUC (Area Under Curve). Этот показатель оценивает способность модели различать между положительными и отрицательными значениями. Кривая ROC отображает отношение между показателем истинно положительных ответов и ложноположительных ответов при различных пороговых значениях классификации и рассчитывается по формуле:
2*auc-1
. Чем выше значение AUC, тем лучше модель способна различать. Для не бинарной модели AUC-ROC считается по усредненной кривой. -
Джини представляет собой среднеквадратичный отступ от линии идеального равенства (или же случайного распределения), вычисляется по формуле:
\(Gini_{normalized} = \frac{Gini_{model}}{Gini_{perfect}} = 2 \cdot AUCROC - 1\)
Максимальный коэффициент Джини для текущего набора данных достигается идеальным алгоритмом и зависит только от истинного распределения классов: при равномерном распределении он равен 0.25. Форма фигуры для идеального алгоритма, образуемой Lift Curve и линией абсолютного равенства, всегда будет треугольником. Площадь фигуры для идеального алгоритма равна:
\(S = \frac{Число\enspace объектов\enspace класса\enspace 0\enspace в \enspaceвыборке}{2}\)
Коэффициент Джини случайного алгоритма равен 0, а его Lift Curve совпадает с линией абсолютного равенства. Коэффициент Джини обученного алгоритма всегда ниже идеального, и его нормализованные значения находятся в диапазоне [0, 1], где нормализованный коэффициент Джини максимизируется как метрика качества.
Обратите внимание, что все метрики для расчёта которых используются ложноотрицательные значения не могут быть вычислены для небинарных моделей.
Вкладка ROC-анализ
Вкладка ROC-анализ отображает ROC-график (соотношение чувствительности и 1-специфичности) и таблицу со следующими колонками. ROC-график показывает качество выбранной модели в соответствии с порогами классификации.
Вкладка Точность-Полнота
Вкладка Точность-Полнота отображает кривую Точности-Полноты, который представляет собой график со значениями Точности на оси y и со значениями Полноты на оси x.
Желательно, чтобы алгоритм характеризовался и высокой точностью, и высокой полнотой. Однако, большинство алгоритмов машинного обучения предлагают компромисс между этими двумя параметрами. Хороший результат на кривой Точности-Полноты обозначается большей площадью под кривой (AUC).
Вкладка Lift-анализ
Gain и Lift - метрики SVM, помогающие понять преимущества используемой модели. Они рассчитываются следующим образом:
Gain |
Lift |
Прогнозируется вероятность Y = 1 (положительная) с использованием модели SVM и организуется наблюдение в нисходящем порядке прогнозируемой вероятности (т.е. P(Y = 1)). |
|
Данные делятся на децили. Рассчитывается число положительных значений (Y = 1) в каждом дециле и совокупное число положительных значений до дециля. |
|
Gain - отношение между совокупным числом положительных наблюдений до дециля и общим числом положительных наблюдений в данных. |
Lift - отношение между числом положительных наблюдений до дециля i с использованием модели и ожидаемым числом положительных значений до дециля i на основе случайной модели. |
\(\text{Gain}=\frac{\text{Совокупное число положительных наблюдений до дециля}}{\text{Общее число положительных наблюдений в данных}}\) |
\(\text{Lift}=\frac{\text{Совокупное число положительных наблюдений до дециля i с использованием модели машинного обучения}}{\text{Совокупное число положительных наблюдений до дециля i с использованием случайной модели}}\) |
Gain-кривая - это график, на вертикальной оси которого находится gain, а на горизонтальной - дециль. |
Lift-кривая - это график, на вертикальной оси которого находитс lift, а на горизонтальной - соответствующий дециль. |
Оба графика включают минимум два элемента: Gain/Lift-кривая и Исходные данные. Чем больше площадь Gain/Lift-кривой и Исходными данными, тем выше качество модели.
Вкладка Важность признака
При включении режима Рассчитать важность признака в окне настройки свойств узла SVM-классификатор его отчет будет включать дополнительный раздел – Важность признака. Данная вкладка содержит график, который отражает значимость факторов:
В правом верхнем углу области графика располагается панель инструментов, которая предоставляет доступ к следующим функциональным возможностям:
-
– сохранить текущий вид графика в PNG-файл.
-
– увеличить выбранную область графика. Определение области для более детального изучения осуществляется путем нажатия на график и перемещения по нему курсора.
-
– перемещайтесь по графику, перетаскивая его в соответствующем направлении.
-
– используйте инструмент выделения в форме прямоугольника для выбора объектов на графике.
-
– используйте инструмент выделения в виде лассо для выбора объектов на графике.
-
– увеличение масштаба на графике.
-
– уменьшение масштаба на графике.
-
– выполнить автоматическую настройку размера графика.
-
– восстановить исходный вид графика.