Linear Regression / Линейная регрессия

Базовое представление о линейной регрессии, т.е. такой, которая позволяет моделировать и прогнозировать интервальную (или псевдоинтервальную, или метрическую) переменную по значениям интевальных (или псевдоинтервальных, или метрических) предикторов.

Требуемый уровень подготовки пользователя: средний.

Желательно владение методами: описательной статистикой, парной связью, дисперсионным анализом.

 
 
Краткое описание метода
Схема реализации метода
Simple Linear Regression / Простая линейная регрессия
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Постановка задачи: прогноз уровня доверия россиян законодательной системе в зависимости от уровня доверия политикам и парламенту. Для проведения регрессии используемые переменные должны принадлежать к интервальному типу шкалы (иначе их необходимо превратить в фиктивные, дихотомизировав). Переменные в рассматриваемом случае, хоть и относятся исходно к порядковым, содержат много градаций (11) - это позволяет причислить их к (псевдо)интервальным. Другое условие проведения регрессии - симметричность распределения переменных относительно среднего. Проводится проверка на нормальность распределения с помощью критерия Колмогорова-Смирнова.

Видео 2. Отклонение от симметричности приводит к низкому качеству предсказаний для одной из сторон шкалы. Не рекомендуется использовать в модели переменные с высокой долей пропусков - включение таких переменных заметно сокращает анализируемый объем выборки. Еще одна предварительная процедура перед построением модели - анализ безусловной и условных дисперсий зависимой переменной.

Видео 3. Проверка на характеристики вариации: исходная, внутригрупповая и межгрупповая вариации.

Видео 4. Чем меньше внутригрупповая вариация по зависимой переменной в данных - тем качественнее будет прогноз модели. Перед регрессионным анализом запускается процедура дисперсионного анализа, чтобы оценить соотношение вариаций и принять решение о допустимости проведения регрессии.

Видео 5. Дисперсионный коэффициент детерминации показывает максимально возможный процент правильных предсказаний (он всегда больше или равен регрессионному р-квадрату). Равенство внутригрупповых вариаций или условие гомоскедастичности обеспечивает одинаковую уверенность в прогнозе для любого профиля.

Видео 6. Проверка гомоскедастичности данных по критерию Ливиня. Подведение итога по четырём условиям пригодности данных для регрессионного моделирования: тип шкалы и её симметричность, соотнесение межгрупповой и внутригрупповой вариаций, гомоскедастичность. Переход к регрессии. Один из критериев качества модели - её устойчивость, которую можно проверить, разбив выборку на обучающую и экспериментальную подвыборки (на первой модель строится, на второй - проверяется).

Видео 7. Если регрессионный р-квадрат по своему значению близок к р-квадрату дисперсионному (или идентичен ему), это означает, что линейная модель подходит для описания связи в данных и нет необходимости искать другую форму модели. Анализ значимости регрессионных коэффициентов производится по значению p-value (sig.), которое показывает результат проверки гипотезы о том, что коэффициент равен нулю в генеральной совокупности (если sig. < 0,05, то гипотеза отвергается и коэффициент значим на уровне 95%). Если какой-то из коэффициентов не значим, то следует удалить его из модели и перезапустить её.

Видео 8. Чтобы оценить устойчивость модели, необходимо сохранить предсказанные значения переменной и "сырые" (нестандартизованные) остатки и сравнить значения коэффициентов детерминации для двух подвыборок. Сырые остатки не позволяют судить о том, насколько велики их значения (можно ли считать отклонения в предсказаниях статистически значимыми или же ими можно пренебречь) - это показывают стандартизованные остатки. К статистически значимым остаткам на уровне 95% относятся такие, значение которых по модулю превышает 1,96. Сырые же остатки позволяют определить, насколько смещена модель (если доверительный интервал для среднего по сырым остаткам содержит в себе ноль, то модель не смещена; другой способ проверки - одновыборочный т-тест с проверяемым значением 0).

Видео 9. Если модель не смещена, то предикторы и форма линии выбраны правильно. Следующий шаг проверки остатков - это проверка отсутствия связи между остатками и значениями предикторов с помощью дисперсионного анализа (зависимую переменную следует поменять с исходной на остатки). В идеале новый дисперсионный р-квадрат должен быть близок к нулю, а сама модель не должна содержать значимых предикторов.

Видео 10. Работа со стьюденизованными удаленными остатками (аналог стандартизованных): отбор респондентов со статистически большими по модулю остатками. Начало разработки для них отдельной модели (см. регрессия с фильтром).

Видео 11. Отбор респондентов со статистически маленькими по модулю остатками. Разработка для них отдельной (сокращённой) модели.

Видео 12. Выбор между исходной и сокращённой моделями. Новая проверка выбранной модели.

Видео 13. Интерпретация коэффициентов.

Видео 14. Проверка предикторов на мультиколлинеарность через Tolerance и VIF - в идеале (при отсутствии корреляции) оба показателя должны стремиться к единице. В случае мультиколлинеарности интерпретация коэффициентов проводится совместно с предварительным построением вспомогательной регрессии.

Видео 15. Содержательные выводы. Рассмотрение предсказанных и реальных (эмпирических) значений зависимой переменной.

Видео 16. Стандартизованные коэффициенты Beta показывают "вклад" каждого предиктора, этот показатель особо полезен в случае, когда предикторы измерены в разном масштабе (имеют разные шкалы).

Видео 17. Дополнительная оценка устойчивости модели по таблице классификации.

Комментарии можете оставлять прямо в Youtube

 
Dummy Variables / Регрессия с фиктивными переменными
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Рассматривается модель, в которой зависимой переменной выступает удовлетворенность своей работой (псевдоинтервальная переменная), а независимыми - остальные переменные базы. Если в качестве предикторов в модели выступают категориальные переменные (номинальные или порядковые), их необходимо включать не в исходном виде, а в виде фиктивных переменных.ормальность распределения с помощью критерия Колмогорова-Смирнова.

Видео 2. Принципы использования дихотомизатора. Проводится частичная дихотомизация, при которой новые переменные создаются лишь для некоторых категорий исходной переменной. При полной дихотомизации новые переменные создаются для всех категорий исходной переменной.

Видео 3. Иной способ подготовки фиктивных переменных - объединение категорий между собой.

Видео 4. Если в категориях переменной встречается "средняя" категория (и согласен, и не согласен), один из вариантов перекодировки такой переменной - поместить эту категорию в missing, а остальные объединить в две группы.

Видео 5. Использование описательной статистики для отбора и исключения предикторов: исключаются переменные с очень большим количеством категорий, а также сильно смещённые переменные.

Видео 6. Настройка регрессии. Используется метод пошагового исключения предикторов Backward. Рассматривается общее качество модели: внутри-групповая и межгрупповая вариации, р-квадрат.

Видео 7. Рассматривается частное качество модели: оценка значимости предикторов, оценка мультиколлинеарности. Проводится интерпретация предикторов, в т.ч. мультиколлинеарных.

Видео 8. Интепретация контрольной группы в случае наличия блока фиктивных переменных, в т.ч. Redundant.

Видео 9. Интерпретация зависимой переменной как для произвольно составленного профиля, так и для выборки в целом.

Видео 10. Интерпретация зависимой переменной для произвольно взятого профиля в массиве. Остатки. Summary.

Комментарии можете оставлять прямо в Youtube

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик