Linear Regression / Линейная регрессия

Схема реализации линейной регрессии, т.е. такой, которая позволяет моделировать и прогнозировать интервальную (или псевдоинтервальную, или метрическую) переменную по значениям интевальных (или псевдоинтервальных, или метрических) предикторов.

Требуемый уровень подготовки пользователя: средний.

Желательно владение методами: описательной статистикой, парной связью, дисперсионным анализом.

 
Этап 1. Выбор переменных
независимые
(independent variables, x)
любого типа шкалы
зависимая
(dependent variable, y)
(псевдо)интервального типа шкалы
Перед проведением регрессии следует убедиться в том, что:
  • переменные не содержат слишком много пропусков (как проверить: рассмотреть частотное распределение)
  • (псевдо)интервальные и дихотомические переменные несильно скоррелированы между собой (<0,7 по модулю; как проверить: рассчитать коэффициент корреляции Пирсона)
  • переменная симметрична относительно среднего или несильно смещена
    (как проверить: построить гистограмму распределения)
 
Этап 2. Предварительные процедуры
1. Дисперсионный анализ
Analyze - General Linear Model - Univariate

зависимая переменная

номинальные и порядковые независимые переменные, все значения которых представлены в базе

номинальные и порядковые независимые переменные, не все значения которых представлены в базе

(псевдо)интервальные независимые переменные

Дисперсионный р-квадрат показывает максимально возможное качество будущей модели
при выбранных переменных

Если он выше модальной доли
по зависимой переменной, в регрессии есть смысл

Если он ниже модальной доли
по зависимой переменной, в регрессии нет смысла

2. Подготовка переменных
  • (Псевдо)интервальные независимые переменные остаются без изменений

  • Номинальные и порядковые независимые переменные преобразуются в фиктивные, дихотомические
    (см. регрессия с фиктивными переменными)

полная дихотомизация (фиктивные переменные создаются для всех категорий)

частичная дихотомизация (фиктивные переменные создаются для некоторых категорий)

объединение всех категорий в две

 
Этап 3. Регрессия
1. Настройки запуска
Analyze - Regression - Linear

зависимая переменная

подготовленные независимые переменные

Методы отбора предикторов в итоговую модель:

Enter и Remove - методы с одним шагом,

Stepwise и Forward - методы пошагового включения предикторов,

Backward - метод пошагового исключения предикторов

(предпочтителен, т.к. итоговая модель будет содержать только значимые предикторы)

Регрессионный р-квадрат показывает общее качество модели
(долю объяснённой дисперсии)

Если он приблизительно равен дисперсионному, линейная форма зависимости выбрана верно

Если он намного ниже дисперсионного,
линейная форма зависимости выбрана неверно

2. Настройки сохранения
Analyze - Regression - Linear - Save

​Для проверки модели на ограничения следует сохранить остатки (Residuals)

остатки-1: Deleted (более точные) ИЛИ Unstandardized (менее точные)

остатки-2: Studentized Deleted (более точные) ИЛИ Standardized (менее точные)

 
Этап 4. Проверка ограничений
1. Отсутствие выбросов
Analyze - Descriptive Statistics - Descriptive

остатки-2

  • Если максимум или минимум по этой переменной превышают по модулю 1,96, в базе присутствуют выбросы (плохо прогнозируемые наблюдения)

  • В случае, когда таких наблюдений много, следует построить для них отдельную модель (см. регрессия с фильтром)

2. Несмещённость
Analyze - Descriptive Statistics - Explore

остатки-1

  • Если доверительный интервал для среднего
    по этой переменной "включает в себя" 0,
    то модель не смещена (нет систематической ошибки прогноза)

3. Отсутствие мультиколлинеарности
Analyze - Regression - Linear - Statistics
  • Когда эта опция включена, в таблице Coefficients появятся также столбцы Tolerance и VIF - статистики коллинеарности

  • Если обе статистики по всем переменным близки к 1, в модели отсутствует мультиколлинеарность

  • Если обе статистики по каким-то переменным сильно отклоняются от 1 (Tolerance - в меньшую сторону, а VIF -
    в большую), в модели присутствует мультиколлинеарность

  • НО: следует помнить, что фиктивные переменные всегда коллинеарны между собой и это не составляет проблемы

4. Гомоскедастичность
Analyze - General Linear Model - Univariate

подготовленные независимые переменные

Дисперсионный анализ с остатками показывает, зависят ли они от предикторов

Если в его результатах отсутствуют статистически значимые предикторы, а р-квадрат равен 0, модель гомоскедастична

Если в его результатах присутствуют статистически значимые предикторы, а р-квадрат далёк от 0, модель гетероскедастична

5. Устойчивость
Analyze - Regression - Linear
  • Проверка на устойчивость осуществляется через разбиение базы на две подвыборки - обучающую,
    на которой модель строится, и тестовую, на которой она проверяется

  • Для этого необходимо в выделенную область поместить предварительно созданную случайную дихотомическую переменную (например, команда Transform - Compute Variable - Random Numbers - Rv.Bernoulli(0.5) создаст переменную с примерно одинаковым количеством нулей и единиц)

  • Тогда в таблице Model Summary появятся значения R для обеих подвыборок: если они слабо отличаются друг от друга, модель устойчива, если сильно - модель не устойчива

  • НО: следует помнить, что результаты проверки чувствительны к исходному объему выборки и что при проверке модель строится лишь на части данных, а следовательно, могут измениться некоторые статистики в результатах регрессии

остатки-1 или остатки-2

 
Этап 5. Интерпретация
  • Интерпретация результатов регрессии проводится с помощью таблицы Coefficients на основании значимости (sig.) и значения регрессионных коэффициентов

  • Если коэффициент не значим (sig. при нем > 0,05 при заданном уровне доверительной вероятности 95%), то его значение обнуляется и он не интерпретируется 

  • Если коэффициент значим (sig. < 0,05):

константа показывает, чему будет равно значение зависимой переменной, если все предикторы будут равны нулю (если в модели присутствуют фиктивные переменные, то это значение зависимой переменной в контрольной группе)

коэффициент при (псевдо)интервальной переменной показывает, как изменится значение зависимой переменной при увеличении этого предиктора на 1

коэффициент при фиктивной переменной показывает, как отличается значение зависимой переменной в случае, если эта переменная равна 1, по сравнению с контрольной группой (константой)

  • НО: если в модели присутствует мультиколлинеарность, то коэффициенты при коллинеарных предикторах интерпретируются с помощью вспомогательной модели регрессии

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик