Discriminant Analysis / Дискриминантный анализ

Метод для поиска многомерной зависимости категориальной переменной от интревальных и метрических предикторов. 

Метод, похожий на логистическую регрессию, но основанный на сравнении внутригрупповых средних арифметических значений предикторов для групп, формируемых зависимой переменной ("группирующей").

Требуемый уровень подготовки пользователя: средний.

Желательно владение методами: описательной статистики и сравнения средних.

 
Краткое описание метода
Краткое описание метода
 
Discriminant Analysis / Дискриминантный анализ
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Подготовка массива перед использованием многомерных методов: создание новых интегральных переменных для взвешивания (позволяет затем применять Bootstrap), взвешивание, подготовка категориальных предикторов.

Видео 2. Продолжение подготовки категориальных переменных - дихотомизация (частичная и полная). При частичной дихотомизации одной или нескольким интересующим категориям номинальной переменной приписывается значение 1, а всем остальным 0 (в итоге получается одна или несколько фиктивных переменных); при полной дихотомизации то же самое производят со всеми исходными категориями номинальной переменной (в итоге получается полный набор фиктивных переменных). Полную дихотомизацию удобно осуществлять с помощью дихотомизатора.

Видео 3. Иной вариант дихотомизировать категориальные переменные - объединить варианты ответа (удобно использовать для ранговых шкал, где категории составляют разные полюса). Важный этап подготовки массива - определение переменных с большой долей пропущенных значений. Обычно при применении многомерных методов респонденты с пропущенным значением хотя бы по одной из переменных не включаются в анализ (то есть рабочая выборка сильно сокращается), поэтому лучше избегать использования переменных с большим количеством пропусков.

Видео 4. Удаление переменных с высокой долей пропущенных значений. Резюме: подготовка массива перед любым многомерным методом включает в себя 1) взвешивание (при необходимости), 2) подготовку категориальных переменных, 3) удаление из анализа переменных с высокой долей пропусков.

Видео 5. Постановка задачи: отбор предикторов, определяющих участие в профсоюзе.

Видео 6. В дискриминантном анализе зависимая переменная называется группирующей, поскольку сам метод относится к методам классификации. Для получения качественной модели рекомендуется использовать Stepwise method (а именно Wilks' lambda). Выбор опций для запуска.

Видео 7. Опция Selection Variable позволяет разделить выборку на обучающую и тестовую, чтобы затем проверить качество модели. Разделяющая переменная не должна быть связана с зависимой - лучше использовать специально созданную случайную переменную. Оценить качество модели можно по 1) значению канонической корреляции (чем ближе к 1, тем лучше)...

Видео 8. 2) по значению общей Wilks' lambda, которая показывает, насколько знание группы, к которой принадлежит респондент (по зависимой переменной), дискриминирует (или различает) средние значения по предикторам (чем ближе к 0, тем лучше; хи-квадрат должен быть значим); 3) по таблице классификации.

Видео 9. Оценка роли предикторов: знак при коэффициенте в таблице Structure Matrix означает, в пользу какой группы (0 или 1) "работает" предиктор. Если знак положительный, то увеличение значения предиктора относит респондента к той категории, которая также имеет положительный знак в таблице Functions at Group Centroids, и наоборот.

Видео 10. Таблица Classification Function Coefficients содержит коэффициенты предикторов, которые складываются в линейные функции для каждой из категорий зависимой переменной, и позволяет рассчитать баллы (scores) для каждого из респондентов. Респондент будет отнесен к той группе, по функции которой получит более высокий балл. Приводится интерпретация уравнения для произвольно взятого респондента. Для итоговой модели необходимо проверить отсутствие высокой скоррелированности между предикторами. Таблица Group Statistics содержит описательную статистику для каждого предиктора по группам зависимой переменной и позволяет проинтерпретировать имеющиеся группы по этим показателям.

Видео 11. Значимость переменных можно проверить по таблице Variables in the Analysis, которая содержит значения p-value и соответствующие им значения частных Wilks' lambdas. Если предиктор значим, то существуют различия в средних между группами зависимой переменной по этому предиктору.

Видео 12. Поиск респондента с наивысшей вероятностью участия в профсоюзе. Summary по модели.

Видео 13. Как получить качественную модель, то есть такую, которая содержит только значимые предикторы и дает более половины правильных прогнозов по каждой из категорий зависимой переменной и которая устойчива как на обучающей, так и на тестовой выборке?

Видео 14. Первый шаг - перезапускать модель с оставленными переменными до тех пор, пока структура предикторов не перестанет меняться (пока из модели не перестанут исключаться предикторы). Следующий шаг - использовать процедуру Bootstrap, чтобы проверить устойчивость коэффициентов при предикторах, и исключение предикторов, доверительный интервал для которых "проходит" через 0 (по обеим категориям сразу).

Видео 15. Затем следует перезапускать процедуры без Bootstrap и с ним, повторяя описанный выше алгоритм, до тех пор, пока в модели не останутся значимые предикторы, для коэффиентов которых хотя бы один из доверительных интервалов не проходит через 0. Последний шаг перед интерпретацией - проверка равенства ковариационных матриц (по статистике Box's M).

Видео 16. Сравнение случаев для равенства и неравенства внутригрупповых ковариационных матриц. Первый случай более предпочтителен, поскольку затем позволяет сравнивать таблицу классификации для обучающей и тестовой выборок. Запуск итоговой модели.

Видео 17. Summary: преимущества использования Stepwise, Selection Variable и Bootstrap - трех составляющих качественной модели. Интерпретация результатов моделирования приводится в разделе пробит-регрессии.

 

Комментарии можете оставлять прямо в Youtube

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик