top of page
Dscrptn
Regression with Filter / Регрессия с фильтром

Метод получения полезной регрессионной модели (прогноз по которой лучше, чем "50 на 50"). Применим для построения регрессии любого типа (линейной, логистической и пр.).

Требуемый уровень подготовки пользователя: средний.

 

Желательно владение методами: описательной статистики, линейной и логистической регрессиями.

Краткое описание метода
Высокий коэффициент детерминации и отбор наблюдений
Rgrf
Regression with Filter / Регрессия с фильтром
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Постановка задачи. Переменные: частота посещения родителями с детьми досуговых центров (отклик, интервальная переменная); образование, экономический статус, должность и семейное положение родителей, материальное положение и место проживания семьи (предикторы, категориальные переменные). Поскольку предикторы категориальны, "рассыпаем" их на фиктивные (дихотомические) переменные. Поскольку отклик интервален, выбираем линейную регрессию. Включаем опцию пошаговой регрессии Backward. Получаем R-квадрат меньше 0,5. Почему регрессия с R-квадратом меньше 0,5 бесполезна? Как построить полезную регрессию (с R-квадратом выше 0,5)? Виды остатков: "стандартизованные" и стьюденизованные.

Видео 2. Выбираем удалённые стьюденизованные остатки. Меняем Sig. в опции Backward. Отбираем респондентов, подчиняющихся общей регрессионной модели, и снова применяем к ним регрессию. Этот цикл повторяем до тех пор, пока R-квадрат не достигнет удовлетворяющего нас уровня. Последний запуск цикла даст нам первую модель.

Видео 3. R-квадрат достиг максимума на 19 шаге. Характеристики первой модели: R-квадрат высокий и при этом предикторы значимы. Переходим к респондентам, временно исключённым из анализа при "строительстве" первой модели (их 640). Сохраняем их в отдельный файл. Они составят базу нулевой модели. Из Syntax запускаем те же циклы, что и при "строительстве" первой модели. Уже после 2-го цикла R-квадрат достиг удовлетворяющего нас уровня. Отсеялись 40 респондентов.

Видео 4. Отсеянные 40 респондентов не попали ни в одну модель. Это потерянная информация, но в сравнении с объёмом всей выборки эта потеря не велика. Сравнительная интерпретация предикторов "нулевой" и "первой" моделей: номенклатура значимых предикторов по большей части совпадает в обеих моделях, но направленность влияния диаметрально противоположна. Скажем, если семейное положение респондента "холост/ не замужем", то в "нулевой" модели влияние этого предиктора положительное, а в "первой" - отрицательное. Получается, в общей выборке были 2 разнонаправленные закономерности, поэтому общая регрессионная модель была плоха. 

Видео 5. Как идентифицировать разные части выборки? Как узнать, нулевая или первая модель характеризует произвольно взятого респондента? Возвращаемся в исходный файл (в котором присутствуют все респонденты), в котором присутствует фильтрующая переменная (разделяющая выборку на респондентов нулевой и первой моделей). Строим вспомогательную логистическую регрессию, откликом в которой выступает как раз фильтрующая переменная. Здесь нежелательно применять циклы, чтобы не терять респондентов. Применяем метод пошаговой регрессии Backward Wald.

Видео 6. Меняем число итераций, поскольку обычно на 20 итерациях (выставленных по умолчанию) логистическая регрессия не достигает сходимости при большом числе предикторов. Интерпретация вспомогательной модели: играет роль место проживания семьи.

Видео 7. А также должность и образование респондента играют роль. Пример прогноза отнесения заранее выбранного респондента к "нулевой" или "первой" модели.

Видео 8. Запуск вспомогательной логистической регрессии с сохранением предсказанных значений.

Видео 9. Увы, выбранный респондент отказался среди 7% респондентов, отсеянных в процессе построения вспомогательной логистической регрессионной модели. Выбираем другого респондента. Оно скорее попадает в первую модель.

Видео 10. Строим для него линейную регрессионную модель, чтобы спрогнозировать частоту, с которой он водит ребёнка в досуговые центры. Поскольку мы знаем, что этот респондент скорее попадает в первую модель, то включаем предикторы из первой модели.

Комментарии можете оставлять прямо в Youtube

Высокий коэффициент детерминации и отбор наблюдений
bottom of page