Навигация по странице

Answer tree / Деревья классификации

Метод для поиска среди значений предикторов таких, которые определяют высокую вероятность появления одного из значений отклика. Предикторы и отклик могут принадлежать к любому типу шкалы.

Требуемый уровень подготовки пользователя: средний.

Желательно владение методами: критерием хи-квадрат.

Краткое описание метода
 
ChAID
Видео-рекомендации, каждая не более 20 мин.

Видео 1. Применение ChAID иллюстрируется на фрагменте базы ESS 2016 г., рассматривается связь между приверженностью сексистским взглядам (зависимая переменная) и рядом социально-демографических характеристик (независимые переменные) среди респондентов из России.
Несмотря на очень широкий круг задач, решаемый деревьями классификации, метод ChAID оказывается наиболее полезен в поиске взаимодействий. По сравнению с иными моделями деревьев (CRT или QUEST) ChAID дает худшие результаты в задачах сегментирования или предсказания, поскольку первые модели направлены на поиск наиболее однородных наблюдений (и опираются на информационные, нестатистические критерии), а ChAID направлен на поиск групп наблюдений, максимально связанных с зависимой переменной (и опирается на статистические критерии).

Видео 2. Рассматриваются настройки запуска ChAID. 
CHAID не имеет ограничений на тип шкалы используемых переменных, поскольку основан на хи-квадрате. 
Устойчивость моделей ChAID можно проверять двумя способами: сплит-валидацией и кросс-валидацией. Сплит-валидация — привычная процедура разбиения выборки на обучающую и тестовую, зачастую применимая в регрессии. На обучающей выборке модель строится, на тестовой — проверяется. Этот способ плохо подходит для использования его при малом объёме выборке, поскольку в этом случае существует риск, что модель будет либо строиться, либо проверяться на слишком маленьком объёме наблюдений. Более полезной здесь оказывается опция кросс-валидации, при которой выборка виртуальным образом разделяется на фиксированное число подвыборок, затем модель строится это фиксированное число раз и "усредняется". При этом в каждом этапе построения участвуют N-1 подвыборок. Задаваемое число подвыборок должно быть обратно пропорционально объёму выборки (чем меньше объём — тем больше число подвыборок). Чем больше число подвыборок задаётся, тем меньше данных в них входит, соответственно, меньше данных исключается из анализа при каждом шаге кросс-валидации.
В ChAID можно использовать два критерия остановки построения дерева: достижение заданной глубины либо достижение минимального числа наблюдений в узлах. Для лучшего поиска многомерных связей и взаимодействий признаков следует устанавливать глубину дерева, равную числу независимых переменных. Минимальное число наблюдений в узлах не должно быть слишком мало, чтобы не нарушать требования хи-квадрата и не приводить к получению неустойчивых результатов.
Среди дополнительных опций рекомендуется также избегать использования чрезмерно строгой поправки Бонферрони и разрешать алгоритму повторно разделять узлы после объединения.

Видео 3. Рассматриваются предварительные результаты применения модели: сильнее всего связан с приверженностью сексистским взглядам пол респондента, затем — уровень его образования, для женщин также значимым предиктором оказывается тип населённого пункта, в котором они проживают.
Качественная модель отличается тем, что в ней пропорции верно предсказанных категорий зависимой переменной превышают исходные доли категорий зависимой переменной, а также своей устойчивостью. Оценить устойчивость при использовании кросс-валидации можно по показателю Risk — это общий процент неверно предсказанных наблюдений. Чем ближе он в общей модели и в моделях при проверке — тем устойчивее модель дерева. При выборе между разными моделями следует стремиться к соблюдению баланса между этими двумя показателями: качеством предсказаний и устойчивостью, а также к адекватной содержательной интерпретации.
Если независимая переменная содержит пропущенные значения, то включение ее в анализ может повлечь за собой серьезные изменения в структуре всего дерева. Искажения будут тем грубее, 1) чем больше пропусков в переменной и 2) чем сильнее переменная связана с зависимой (чем ближе она к корню дерева). Если же за пропущенным значением скрывается определенная категория переменной (например, как в рассматриваемом случае пропуск по семейному положению означает отсутствие какого-либо зарегистрированного статуса), то необходимо обращать внимание на содержательную адекватность присоединения этой категории к другим категориям (так, в нашем кейсе этот пропуск объединился с категориями "вдовец" и "разведен", что можно считать содержательно адекватным объединением).

Видео 4. Summary. ChAID в первую очередь направлен на поиск взаимодействий или многомерных связей признаков. При выборе из разных моделей следует стремиться к балансу между приемлемым процентом правильных предсказаний (они должны превышать исходные доли по распределению зависимой переменной) и небольшой разницей в показателе Risk, оценивающем устойчивость моделей. Не рекомендуется использовать поправку Бонферрони из-за её чрезмерной строгости к переменным с большим числом категорий и включать в анализ переменные с пропусками, если только за ними не кроется определённая, известная категория переменной.

 

Комментарии можете оставлять прямо в Youtube

 
Exhaustive ChAID
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Постановка задачи: отбор значимых категориальных предикторов, определяющих политическое участие (дихотомическая зависимая переменная).

Видео 2. Логистическая регрессия как вариант решения поставленной задачи. Слишком большое количество сочетаний категорий предикторов обуславливает применение пошагового метода логистической регрессии (причем пошагового включения предикторов, поскольку метод пошагового исключения на рассматриваемом наборе предикторов не сходится).

Видео 3. Результаты применения логистической регрессии свидетельствуют о том, что работать необходимо с профилями респондентов - с ними же работает и метод деревьев классификации. Преимущества использования этого метода: 1) категориальные предикторы могут быть использованы без преобразований (отсутствует необходимость в дихотомизации), 2) возможно "глубже" рассмотреть сочетания значений категориальных предикторов.

Видео 4. Настройки запуска деревьев классификации. Важность правильного указания типа шкалы всех изучаемых переменных.

Видео 5. Метод Exhaustive ChAID, в отличие от "обычного" ChAID, позволяет на каждом шаге включать в решение уже использованные ранее переменные. Другие настройки запуска, опции Validation, Criteria.

Видео 6. Оценка переобученности модели Exhaustive ChAID и логистической регрессии.

Видео 7. Графическое и табличное представление модели Exhаustive ChAID.

Видео 8. Классы людей с самой высокой вероятностью активного политического участия - сравнение результатов Exhaustive ChAID и логистической регрессии.

Видео 9. Сравнение таблиц классификации по результатам применения двух методов и объяснение различий преимуществами Exhaustive ChAID перед логистической регрессией.

Видео 10. Дополнительные отличия деревьев классификации от логистической регрессии: отсутствие контрольной группы в первом методе, снижение мощности выборки при большом числе категориальных предикторов во втором методе. Общие для обоих методов ограничения: невозможность применить алгоритм пошагового исключения предикторов в деревьях классификации и ограниченная возможность применения этого алгоритма в логистической регрессии; высокая чувствительность обоих методов к форме распределения зависимой переменной (в идеале она должна быть распределена равномерно).

Видео 11. Последствия неравномерного распределения зависимой переменной на результатах применения методов. Интерпретация графиков Gain и Index в Exhaustive ChAID.

Комментарии можете оставлять прямо в Youtube

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик