Моделирование переменной ESS "Доверие институту выборов" ("In country national elections are free and fair")

 Кейс иллюстрирует применение методов регрессионного моделирования с глубокими эффектами взаимодействия, дисперсионного анализа как шкального критерия и как разведочного метода поиска сильных эффектов, а также описательной статистики.

Требуемый уровень подготовки пользователя: высокий.

Желательно владение методами регрессионного моделирования, дисперсионного и логлинейного анализа и описательной статистики. 

Дисперсионный анализ как шкальный критерий
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Постановка задачи. Исследователи спорят: считать ли порядковые переменные с 4-5 градациями категориальными или интервальными. В первом случае для включения в регрессию такие переменные подлежат дихотомизации, во втором - могут использоваться "как есть". Я предлагаю дисперсионный анализ в качестве шкального критерия для разрешения этого противоречия в каждом конкретном случае.

Видео 2. Дисперсионный анализ позволяет построить модель зависимости отклика от интересующего предиктора как без учёта расстояний между его категорий, так и с учётом (диспанализ на факторе и на ковариате соответственно). R-квадрат в первом случае не может быть ниже, чем во втором.

Видео 3. Как раз разница между R-квадратами на факторе и на ковариате позволяет сделать вывод о том, являются ли расстояния между категориями порядковой переменной "естественными". Другими словами, если разница между двумя R-квадратами очень маленькая, то можно сделать вывод, что расстояния между категориями рассматриваемой порядковой переменной соответствуют расстояниям между кодами этой переменной независимо от наличия (на ковариате) или отсутствия (на факторе) в модели требований такого соответствия. А поскольку расстояния "естественны", то переменную можно считать интервальной.

Видео 4. Разница между двумя R-квадратами говорит о том, что переменную "Интерес к политике" можно считать интервальной, а переменные "Близость к какой-либо партии" и "Самооценка социальной активности" следует считать категориальными. Исходя из опыта, предлагаю пороговую разницу между двумя R-квадратами 10%. Нельзя забывать, что применение диспанализа в качестве шкального критерия опирается на контекст (ту переменную, которая выступает зависимой). Вполне вероятно, что в контексте иной зависимой переменной наши 3 регрессора повели бы себя иным образом.

 
 
 
Диспанализ и линейная регрессия с категориальными регрессорами. Форма связи
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Я хотел бы построить модель, которая поможет прогнозировать степень доверия к избирательной системе среди европейцев. С этой целью я использую гипотетически релевантные переменные из базы данных ESS: возраст респондента, его пол и максимальный достигнутый уровень образования, голосовал ли он на последних национальных выборах, его самооценку его места в обществе, насколько он заинтересован в политике, насколько важно для него жить в демократически управляемой стране, насколько он близок к какой-либо партии, как часто он участвует в общественной деятельности. Зависимая переменная (степень доверия к избирательной системе) имеет 11 градаций; частота модальной градации (10-ой) равна 22,3%. Поэтому при точность прогноза, основанного на модальной градации, составит примерно 22,3%. Следовательно, мне нужна модель, которая позволит прогнозировать зависимую переменную с большей точностью.

Видео 2. Диспнализ может указывать на то, насколько высокая точность может быть достигнута. Это уникальное свойство диспнализа обусловлено его способностью моделировать зависимость отклика от представляющего интерес предиктора, не учитывая расстояния между его категориями (диспнализ на факторах) и без учета формы связи. Кроме того, диспнализ может учитывать любые эффекты взаимодействия, составленные из переменных из рассматриваемого набора. В этих условиях дисперсионный R-квадрат указывает на максимальную точность, которая может быть получена на рассматриваемых переменных. Модель с эффектами взаимодействия более сложна, чем без них. Вот почему обычно эффекты взаимодействия игнорируются при построении регрессии. Для такого случая разумно использовать дисперсионный R-квадрат без эффектов взаимодействия.

Видео 3. Я запускаю диспанализ без эффектов взаимодействия. Категориальные переменные помещаются в окно факторов, а интервальные и бинарные переменные помещаются в окно ковариатов. Затем я настраиваю модель для исключения эффектов взаимодействия. R-квадрат равен 29,3%, и все эффекты значимы. R-квадрат выше, чем точность модального прогноза. Это хорошая новость. Значит, я могу построить регрессионную модель. Но мне нужно дихотомизировать все категориальные регрессоры.

Видео 4. Я запускаю процедуру диспанализа с опцией «Parameter estimates». Таблица «Parameter estimates» аналогична таблице коэффициентов регрессии. В этой таблице я могу видеть, какие категории категориальных переменных оказывают на зависимую переменную примерно равное влияние. Такие категории могут рассматриваться совместно. Например, респонденты, которые "очень близки к некоторой партии" и "просто близки к некоторой партии", могут считаться одной и той же категорией.

Видео 5. Для создания скрипта для синтаксиса SPSS я копирую таблицу в файл MS Excel. Мне нужно применить некоторое выражение ко всем ячейкам, содержащим категориальные переменные. Для этого я использую команду Excel, которая позволяет комбинировать текстовые блоки и несколько ячеек.

Видео 6. Необходимое выражение состоит из 5 частей: 3 текстовых блока и 2 ячейки. После того, как растянул выражение вниз, я перемещаю эти ячейки в файл синтаксиса SPSS. Затем я применяю команду "Frequency" к построенным бинарным переменным.

Видео 7. Новые переменные должны быть проверены на предмет, имеют ли они достаточно значений «1». Осуществляя проверку, я перемещаю таблицу «Statistics» в файл MS Excel, транспонирую ее, сортирую и выясняю, что наименьшая частота значения «1» равна 38. Это приемлемо. Затем я перекодирую пропуски в новых переменных в значение «0».

Видео 8. После перекодировки я могу запустить линейную регрессию. Я помещаю в окно «Independents» те регрессоры, которые рассматриваются как интервальные, а также все новые переменные. Я получил 8-ступенчатую модель. Её R-квадрат равен 27,6%. Он меньше по сравнению с R-квадратом диспанализа без эффектов взаимодействия. Но он больше по сравнению с точностью модального прогноза.

Видео 9. Разница между R-квадратами позволяет сделать вывод о том, является ли линейность связи «естественной». Другими словами, если разница между двумя R-квадратами очень мала (менее 10%), то мы можем заключить, что линейность появляется независимо от наличия (в линейной регрессии) или отсутствия (в диспанализе) требований модели к форме связи. И поскольку линейность является «естественной», может применяться линейная регрессия.

Линейная регрессия с категориальными регрессорами. Параметры её качества и интерпретация 
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Поскольку линейная регрессия может применяться к моим данным, я продолжаю конструировать модель. Запускаю процедуру регрессии. Регрессоры, которые рассматриваю как интервальные и бинарные переменные, помещаются в окно "Independents". Остальные настройки остаются «как есть».

Видео 2. Во-первых, я исключаю слабые регрессоры, имеющие значимость выше 0,05 или довольно малые коэффициенты. Если оставить такие регрессоры в модели, ее R-квадрат может быть переоценен. Для удаления я использую процедуру пошаговой регрессии и процедуру перемножения нестандартизированных и стандартизованных коэффициентов. Пошаговая процедура удалила 7 бинарных переменных.

Видео 3. Смотря на оставшихся регрессоры, я вижу, что некоторые из них значимы, но слабы. Имею в виду, что они оказывают такое небольшое влияние на зависимую переменную, что можно пренебречь. Я исключаю такие слабые регрессоры вручную и перезапускаю пошаговую процедуру. После 3 итераций я получаю 27 сильных регрессоров.

Видео 4. Прежде чем интерпретировать модель, я рассмотрю ее по трем параметрам качества: несмещённости, гомоседастичности, стабильности. Для проверки несмещённостии и гомоседастичности мне нужно сохранить удаленные остатки. Они показывают, какие наблюдения плохо предсказываются моделью. Процедура "Explore" показывает, что среднее значение удаленных остатков не равно нулю в генеральной совокупности. Таким образом, модель систематически переоценивает значения зависимой переменной. Поэтому я добавляю среднее значение удаленных остатков к константе модели.

Видео 5. Гомоседастичность означает, что остатки не меняются в зависимости от значений любого из регрессоров. Существует множество способов интерпретации этой идеи и фиксации гомоскедастичности путем измерения связи между каждым регрессором и зависимой переменной. Я считаю, что одним из наиболее релевантных и исчерпывающих методов изучения гомоскедастичности является диспанализ, поскольку ему не важна форма связи. Между тем многим аналогам она важна. В моем случае хотя некоторые регрессоры влияют на отклик, кумулятивное влияние пренебрежимо мало; дисперсионный R-квадрат примерно равен нулю.

Видео 6. Поскольку моя модель является гомоскедастичной, я уверен, что точность прогноза не меняется от одного значения регрессора к другому. Если Ваша модель гетероскедастична, нужно взять иной тип регрессии: робастную регрессию. Я рассмотрю этот тип в другой серии видео. Стабильность модели означает, что она даёт стабильные результаты, применимые к другому набору данных. Для изучения стабильности я делю свою выборку на две подвыборки случайным образом; для этого создаю новую случайную переменную, распределенную по распределению Бернулли.

Видео 7. Я перезапускаю процедуру регрессии, маркируя, какая подвыборка выступает в роли обучающей, а какая - экспериментальной. Значения R, рассчитанные для обучающей подвыборки и для экспериментальной, примерно равны. Их разница меньше 10%. Следовательно, моя модель позволяет делать точный прогноз как на обучающей подвыборке, так и на экспериментальной. Если ваша модель нестабильна (переобучена), её нельзя обобщать для применения к другим наборам данных. Итак, поскольку моя модель лишь немного смещена, гомоскедастична и стабильно, я могу ее интерпретировать.

Видео 8. Удобно начинать интерпретацию с константы. Но зачастую константа никого не характеризует. Это происходит, когда хотя бы один из регрессоров не может равняться нулю. У меня есть такие регрессоры. Следовательно, я должен сместить их в ноль путем перекодирования. После перекодировки я заменяю указанные регрессоры в процедуре регрессии. Эта процедура дает мне окончательные результаты. Мой R-квадрат равен 0,274, а константа равна 1,33. Константа характеризует тех европейцев, которые имеют нули по всем регрессорам.

Видео 9. Следовательно, они - люди из низов общества, очень заинтересованные в политике, голосовали на последних национальных выборах; они не чувствуют важности жить в демократически управляемой стране, не удовлетворены национальным правительством и отказываются отвечать на вопрос о своей социальной активности. Их образование не может быть точно определено (потому что представлено рядом несмежных градаций). Европейцы, которые демонстрируют среднюю социальную активность или имеют уровень образования "General ISCED 4A/4B, access ISCED 5B/lower tier 5A", имеют более высокий уровень доверия. Напротив, европейцы, которые не интересуются политикой или не голосуют, или имеют уровень образования "General ISCED 3A, access upper tier ISCED 5A/all 5", имеют более низкий уровень доверия.

Видео 10. Я могу нарировать портрет тех европейцев, которые, согласно моей модели, имеют высокий уровень доверия к избирательной системе. Они - люди мз высшего общества, очень заинтересованные в политике, голосовали на последних национальных выборах, разделюящие сильную веру в важность демократического управления в стране, абсолютно удовлетворённые национальным правительством, демонстрируют среднюю социальную активность и имеют уровень образования "General ISCED 4A/4B, access ISCED 5B/lower tier 5A". Напротив, европейцы, которые имеют самый низкий уровень доверия, являются людьми из низов общества, не интересуются политикой вообще, не голосовали на последних национальных выборах, не чувствуют никакой важности жить в демократически управляемой стране, абсолютно недовольны национальным правительством, отказалось отвечать на вопрос о своей социальной активности, имеют уровень образования "General ISCED 3A, access upper tier ISCED 5A/all 5". Каковы ограничения моей модели? Во-первых, переменная про образование слишком детализованна. Во-вторых, я не использовал эффекты взаимодействия, хотя модели с такими эффектами обычно более точны. Я рассмотрю этот тип регрессии в другой серии видео.

Логлинейный анализа. Предварительное исследование структуры глубоких эффектов взаимодействия
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Поскольку я не вполне удовлетворён точностью линейной регрессионной модели без эффектов взаимодействия (построенной в предыдущей серии видео), я попытаюсь найти соответствующие эффекты взаимодействия для моей модели. Оценка всех эффектов полнофакторной модели при использовании переменных, содержащих много градаций - сложная вычислительная задача. Поэтому следует упростить эту задачу, превратив все регрессоры и отклик в переменные с 2-мя или 3-мя градациями. Я включаю в дисперсионное моделирование нетрансформированные регрессоры в качестве основных эффектов и преобразованные регрессоры как части эффектов взаимодействия. Переменные "How close to party" и "Take part in social activities compared to others of same age" я идентифицировал как категориальные переменные посредством диспанализа. Их, а также переменную "Education", следует рассматривать как факторы. Другие 6 оригинальных регрессоров и 8 преобразованных должны рассматриваться как ковариаты.

Видео 2. К сожалению, кнопочный интерфейс процедуры диспанализа не позволяет создавать эффекты взаимодействия 6-го уровня и выше. Поэтому я использую файл синтакса SPSS и шаблон MS Excel.

Видео 3. Шаблон сопровождается инструкцией о том, как его использовать. После создания всех необходимых эффектов взаимодействия я вставляю их в процедуру диспанализа с помощью интерфейса файла синтаксиса.

Видео 4. Я получил дисперсионную модель со всеми возможными эффектами взаимодействия (ее название - «полнофакторная модель»). Её R-квадрат равен 0,377. Это своего рода вызов - построить регрессионную модель с таким высоким значением R-квадрата. Проблема в том, что в полнофакторной модели слишком много эффектов; это слишком сложно для интерпретации. Поэтому я удалю слабые эффекты. Следующая проблема заключается в том, что эффекты полнофакторной модели часто не оцениваются (из-за их коллинеарности). Как выбрать, какие эффекты следует удалить? Для этого можно использовать логдинейный анализ. Оценки всех эффектов полнофакторной модели это сложная вычислительная задача. Поэтому нужно упростить задачу, превратив все регрессоры и отклик в переменные с 2-мя или 3-мя градациями.

Видео 5. Я выясняю, достаточно ли проста модель с помощью процедуры "General loglinear". Если в ней число выборочных нулей меньше, чем половина числа ячеек многовходовой таблицы, это приемлемо. Чем больше категорий изучаемые переменные имеют, тем больше число выборочных нулей. После подготовки изучаемых переменных запускаю процедуру "Model selection", нажимая кнопку "Paste".

Видео 6. Я изменяю настройки процедуры "Model selection" в файле синтакса, потому что обычно требуется больше итераций и шагов. Чтобы сделать результаты логлинейного анализа более надежными, я изаменяю значение P с 0,05 на 0,01. Процедура "Model selection" завершилась на 473-ем шаге. На 473-м шаге имеется 44 значимых частных эффекта, содержащих зависимую переменную; критерий подгонки модели не значим. Следовательно я могу применить эти частные эффекты в дисперсионном моделировании. Прежде чем вернуться к дисперсионному моделированию в следующей серии видеороликов, я хотел бы подчеркнуть, что результаты логлинейного анализа являются ценными и сами по себе. Так, я могу глубже изучить любые значимые частные эффекты. Целесообразно брать те частные эффекты, которые имеют большее значение Хи-квадрат. Например, эффект взаимодействия возраста, образования, доверия к избирательной системе, удовлетворенности правительством и «голосования».

Видео 7. Тот факт, что упомянутый эффект взаимодействия был найден, означает, что любые эффекты взаимодействия более высоких уровней, содержащие упомянутые пять переменных (возраст, образование, доверие к избирательной системе, удовлетворённость правительством и голосование), незначимы. Например, эффект взаимодействия 6-го уровня, содержащий переменные возраст, образование, доверие к избирательной системе, удовлетворённость правительством и голосование, плюс, скажем, интерес к политике - незначим. Следовательно нецелесообразно рассматривать такой эффект 6-го уровня; а более простой эффект взаимодействия - упомянутый эффект 5-го уровня, содержащий переменные возраст, образование, доверие к избирательной системе, удовлетворённость правительством и «голосование» - целесообразно. С другой стороны, почему бы не рассматреть эффект взаимодействия 4-го уровня без переменной голосования, а только с переменными возраст, образование, доверие избирательной системе, удовлетворённость правительства? Потому что, делая так, я сталкиваюсь с парадоксом Симпсона.

Видео 8. Исследуя именно этот эффект независимо от всей модели (которая содержит этот эффект вместе с другими 65 частичными эффектами), я должен выяснить, какие категории пяти рассматриваемых переменных связаны. Для этого я запускаю процедуру "General loglinear" с этими переменными и настраиваю дизайн модели, исключая исследуемый эффект взаимодействия и включая все его субэффекты.

Видео 9. Такая модель называется «редуцированной». Если у Вас есть эффект взаимодействия 7-го уровня и выше, можно использовать мой шаблон в MS Excel, рассмотренный в Видео 2. После сохранения остатков я стандартизую их. Положительные стандартизованные остатки, превышающие значение 1,96, показывают положительно связанные категории.

Видео 10. В рассматриваемом случае, быть пожилым (старше 60 лет), иметь степень магистра и выше, быть удовлетворёнными правительством, не голосовать и не доверять избирательной системе, сильно и положительно связаны между собой.

Analysis of variance. Implementing the found out deep interaction structure
Видео-рекомендации, каждая не более 3 мин

Видео 1. В этой серии видео я возвращаюсь к подготовке регрессионного моделирования. Я должен объединить результаты логлинейного анализа и процедуру диспанализа. Для этого я раскладываю все 44 частных эффекта, которые содержат зависимую переменную, характеризующую доверие к избирательной системе, на соответствующую последовательность субэффектов. Для этого я прибегаю к моему шаблону MS Excel ещё раз. Я вставляю все 44 частичных эффекта в шаблон; затем делю по строкам каждый из них на простые переменные; затем удаляю зависимую переменную. Наконец, я меняю дихотомизированные переменные, характеризующие возраст и образование, на первоначальную переменную, характеризующую возраст и на исходную переменную, характеризующую образование и содержащую четыре градации. Это изменение делает модель более сложной, но более точной. Если компьютер сможет справиться с такой моделью, будет хорошо.

Видео 2. Основные эффекты для моей модели остаются такими же, как и в модели в из третьей серии видео. После запуска синтаксиса процедуры диспанализа с главными эффектами и построенными эффектами взаимодействия я получаю таблицу с размерами эффектов («Сумма квадратов» и «Средний квадрат»). Я перемещаю таблицу в файл MS Excel и сортирую её по столбцу, содержащему «Средний квадрат». Затем я просматриваю таблицу сверху донизу в поисках первого эффекта с Sig. меньше 0,1.

Видео 3. Этот эффект является пограничным. Эффекты, начинающиеся с упомянутого и дальше вниз, считаются сильными. Я переношу эти сильные эффекты в синтаксис процедуры Anova и запускаю его снова. Затем я повторяю этот шаг, пока оставшиеся эффекты не будут сильными. Я просматриваю оставшиеся эффекты в писках тех, которые рассматриваются как факторы. Для таких эффектов я создаю фиктивные переменные. Для этого можно использовать другой шаблон MS Excel с именем «Dichotomizer».

Видео 4. Дихотомизация категориальных переменных, характеризующих образование; то, насколько человек близок к партии; насколько социально активен. Шаблон снабжён руководством по его использованию.

Видео 5. После создания фиктивных переменных я создаю переменные для отобранных эффектов взаимодействия. Для этого полезно применять таблицу «Оценки параметров», относящуюся к процедуре дисанализа; она содержит все эффекты взаимодействия и их части, относящиеся к градациям категориальных переменных. В этой таблице представлены предварительно рассчитанные коэффициенты линейной регрессии для эффектов, рассматриваемых как ковариаты, и для категорий эффектов, рассматриваемых как факторы. Эти коэффициенты могут помочь упростить модель, поскольку можно совместно рассмотреть те однородные эффекты, которые имеют примерно равные коэффициенты. Таким образом, я могу соединить категории [prtdgcl = 1] (европейцы, которые очень близки к партии) и [prtdgcl = 2] (европейцев, которые достаточно близки к партии).

Видео 6. Для построения 337 переменных я использую команды MS Excel и синтаксиса SPSS.

Видео 7. Обычно переменные, построенные путём перемножения нескольких бинарных переменных, распределены не равномерно, потому что значения 1 обычно менее часты, чем значения 0. Между тем, равномерное распределение желательно для бинарных регрессоров. После создания фиктивных переменных и переменных для эффектов взаимодействия, я исследую их на предмет того, содержат ли они достаточное число валидных наблюдений и приемлемо ли их распределение. А именно я ищу и удаляю те из них, которые содержат менее 30 валидных наблюдений. А касательно бинарных переменных я ищу и удаляю те из них, частота немодальной категории которых меньше 30. Оставшиеся эффекты готовы к регрессионному моделированию. Их число составляет 337. Это не простая задача для процедур пошаговой регрессии, новыполнимая.

Видео 8. Все сконструированные мною переменные легко интерпретируются. Так, переменная «edulvlb_4__1.plinsoc_3__1.agea» показывает возраст европейцев, имеющих низкий уровень образования и среднее положение в обществе. А переменная «edulvlb_4__1.plinsoc_3__1» показывает, какие европейцы имеют сочетание низкого уровня образования и среднего положения в обществе. Перед началом регрессионного моделирования я возвращаюсь к таблице «Оценки параметров». В этой таблице представлены предварительно рассчитанные коэффициенты линейной регрессии для эффектов, рассматриваемых как ковариаты, и для категорий эффектов, рассматриваемых как факторы. Эти коэффициенты могут помочь упростить модель, если совместно рассмотреть те однородные эффекты, которые имеют примерно равные коэффициенты. Это упрощение не уменьшает R-квадрат модели. Таким образом, я могу соединить категории [prtdgcl = 1] (европейцы, которые очень близки к какой-то партии) и [prtdgcl = 2] (европейцы, которые достаточно близки к какой-то партии). Я подробнее рассмотрю это полезное свойство таблицы «Оценки параметров» в другой серии видео.

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик