General linear models / Обобщённые линейные модели

Что делать, если линейная регрессия не работает?

Применять сложный единый комплекс взаимодополняющих методов для поиска многомерных связей и для построения точных прогнозов на переменных любого типа шкалы.

Общее основание этих методов – уравнение линейной регрессии. Несмотря на это, во многих методах обобщённых линейных моделей (ОЛМ) от линейно регрессии остался только коэффициент детерминации и принцип аддитивности (возможность суммировать частные модели для получения более общих).

Методы ОЛМ требуют от исследователя развитых компетенций в области описательной статистики, методов парных связей, дисперсионном анализе, регрессионном и логлинейном моделировании.

 
Краткое описание метода
В работе
 
Cell-Linear Regression / Точечно-линейная регрессия
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Постановка задачи. Переменная, характеризующая политическое поведение - это отклик; создана как сумматорная переменная из дихотомических индикаторов наличия контактов с политиками, опыта работы в политических партиях и прочих социальных организациях, участия в политических кампаниях и демонстрациях, подписи петиций, бойкота. Поскольку полученная сумматорная переменная была крайне несимметричной, пришлось все её категории, отвечающие участию, объединить в одну; получилась снова дихотомическая переменная. Предикторы - переменные, характеризующие политическую культуру, в т.ч. ценности, политическое доверие и ряд социально-демографических характеристик.

Видео 2. Выбираем только одну страну (Россию), поскольку искомые закономерности могут варьировать от страны к стране. Обоснование многофакторного дисперсионного анализа как предварительной процедуры, не ограниченной никакой формой зависимости. Категориальные переменные (для которых считаем расстояния между категориями неинтерпретируемыми) помещаем в Factors, интервальные - в Covariates.

Видео 3. Рассмотрение переменных как факторов потенциально ведёт к более высокому коэффициенту детерминации, чем рассмотрение их же как ковариатов, поскольку во втором случае в модели больше ограничений. В нашем случае полная насыщенная модель невозможна в силу слишком большого числа эффектов взаимодействия. Но без них (т.е. только с главными эффектами) коэффициент детерминации модели низкий.

Видео 4. Частные насыщенные модели - модели, включающие только некоторые предикторы из всего набора и составленные из них все возможные эффекты взаимодействия. Проблема: как отобрать предикторы для частных моделей, чтобы при этом не упустить значимые эффекты взаимодействия между переменными, отнесёнными к разным частным моделям. Можно использовать логлинейный анализ как предварительную процедуру, позволяющую отобрать переменные для частных моделей так, чтобы между переменными, отнесёнными к разным частным моделям, не было значимых эффектов взаимодействия. Готовим предикторы для логлинейного анализа посредством объединения некоторых их значений.

Видео 5. После подготовки предикторов каждый из них имеет от 2 до 4 категорий. Но и после такой подготовки дисперсионный анализ полной насыщенной модели невозможен. Поэтому продолжаем подготовку данных к логлинейному анализу. Обоснование перехода к профилям: нам нужно моделировать не частоты (цель логлинейного анализа как такового), а значения отклика, для каждой комбинации предикторов (которые я и называю профилями).

Видео 6. Подготовка перехода к профилям: устранение пропусков в изучаемых предикторах посредством технической регрессии, а также в отклике. Custom table: предикторы помещаем по строкам в обратном порядке, отклик - помещаем в столбец (запрашиваем среднее арифметическое значение, частоту и валидную частоту). + Дополнительные настройки в Syntax. Переносим полученную Custom table в Excel.

Видео 7. Проверки на отсутствие пропусков: сравнение сумм по частоте и по валидной частоте (должны совпасть), сравнение высоты таблицы и высоты базы после удаление дубликатов (должны совпасть). Потенцирование средних арифметических значений зависимой переменной (чтобы можно было использовать полученные числа в качестве весов).

Видео 8. Непосредственное создание файла с профилями.

Видео 9. Взвешиваем новый файл по зависимой переменной, чтобы логлинейный анализ моделировал именно её значения. Переменная Count идёт в Cell Weights. Имеем 1552 комбинации значений предикторов. Запускаем логлинейный анализ. + Дополнительные настройки в Syntax. Результаты: 277 шагов, 48 частных моделей из 4- и 5-мерных эффектов на последнем шаге.

Видео 10. Полученные 48 частных моделей аддитивны - их результаты как бы не пересекаются, а дополняют друг друга. Поэтому каждую из них можно построить отдельно, а затем объединить. Применяем дисперсионный анализ к наборам предикторов из каждой частной модели. Чтобы ничего "не потерять", учитывая, что дисперсионный анализ - это предварительный этап, задаю пороговый Sig. не 0,05, а 0,10. На основе же выдачи дисперсионных анализов 48 частных моделей готовим фиктивные переменные для регрессионного анализа.

Видео 11. Подготовка шаблона для создания фиктивных переменных в Syntax посредством Excel. Запуск линейной регрессии.

Видео 12. Технические нюансы регрессии: невозможность запуска пошаговой регрессии; выполнение пошагового алгоритма вручную.

Видео 13. Оценка качества итоговой точной модели. Трудность интерпретации коэффициентов.

Видео 14. Принцип "прочих равных". Ситуация мультиколлинеарности. Совместная интерпретация и вспомогательная регрессия.

Видео 15. Содержательные выводы. Рассмотрение предсказанных и реальных (эмпирических) значений зависимой переменной.

Видео 16. Стандартизованные коэффициенты.

Видео 17. Дополнительная оценка устойчивости модели по таблице классификации.

Комментарии можете оставлять прямо в Youtube

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик