Процедуры и методы анализа данных

Кнопки навигации по методам

Предварительные и вспомогательные процедуры

Методы факторизации

 
 
 

Как выбрать нужную процедуру или метод анализа данных?

Если Вы знаете название интересующего Вас метода, просто найдите его на сайте одним из 4ёх путей:

  • наведя мышь на п. Методы в главном меню (там методы расположены в алфавитном порядке)

  • пользуясь кнопками навигации по методам справа (в мобильной версии – внизу)

  • воспользовавшись опцией поиска в Вашем браузере (обычно Cntl+F)

  • воспользовавшись опцией поиска на сайте справа сверху

Если Вы не нашли интересующий Вас метод, напишите мне, чтобы я подготовил видеорекомендации по нему.

Если Вы не знаете точно, какой метод Вас интересует, прочтите небольшой текст ниже.

 

Любая аналитическая траектория начинается с преварительных процедур и описательной статистики.

Предварительные процедуры: выгрузка данныхобъединение/разделение файлов с данными, отбор интересующих переменных и наблюдений (профилей, наборов характеристик). Пример: объединение баз ESS за 2010 и 2012 годы, отбор из всего перечня переменных только тех, которые характеризуют политическую активность европейцев и гипотетических детерминант этой активности, отбор среди всех респондентов только тех, кто представляет Россию и Украину.

 

Описательная статистика: одномерные частотные распределения в виде таблиц и графиков, меры центральной тенденции и меры разнородности. Пример: описательная статистика по электоральной активности россиян и украинцев в 2010-12. гг

Выбор методов описательной статистики зависит от типа шкалы изучаемых признаков. Здесь можно познакомиться с логикой определения типа шкалы

Видео 1. Номинальная шкала. Порядковая шкала с единицей измерения = интервальная.

Видео 2. Порядковая шкала, выражающая степень чего-либо с большим (от 9) числом градаций.

Видео 3. Порядковая шкала, выражающая степень чего-либо с малым числом градаций. Интервальная и дихотомическая шкалы. Summary.

Видео 4. Толстова Ю.Н. Измерение в социологии.

 

Подготовительные процедуры и описательная статистика занимают бОльшую часть рабочего времени всех аналитиков. Большинство аналитических траекторий ограничиваются описательной статистикой. Применение более сложных аналитических методов всегда требует предварительного применения подготовительных процедур и описательной статистики.

Меры парной связи предназначены для поиска простейших 2мерных связей. Связи могут выражаться через совместную встречаемость (самый общий вид), через различие внутригрупповых средних значений и через совместную изменчивость.

Пример совместной встречаемости: высокий интерес к политике "предпочитает" встречаться с участием в выборах. Такой вид связи можно найти посредством методов: Хи-квадрат, остатки Хи-квадрат, логлинейный анализ (последний позволяет найти и многомерные связи). Эти методы оптимальны для номинальных шкал, но применимы и к ранговым и интервальным, однако они не "умеют" учитывать ранговость и интервальность, т.е. "рассматривают" ранговые и интервальные как номинальные.

Пример различия внутригрупповых средних: в Германии средний уровень доверия полиции значимо выше, чем в Украине (т.е. уровень доверия полиции зависит от страны). Такой вид связи можно найти посредством методов: Т-критерии, дисперсионный анализ  (последний позволяет найти и многомерные связи). Переменная, для которой считаются групповые средние, должна быть интервальной, а группирующая (факторная) переменная обычно является номинальной, но может быть и преобразованной ранговой или интервальной (тогда ранговость или интервальность опять-таки не учитывается).

Пример совместной изменчивости: с ростом доверия законодательной системе страны растёт и доверие полиции. Такой вид связи можно найти посредством коэффициентов корреляции: Пирсона, Спирмэна, Кэндалла и т.п. Первый из них применим, если обе переменные интервальные или псевдоинтервальные, а последние два коэффициента применимы если хотя бы одна из переменных ранговая. К номинальным недихотомическим переменным эти коэффициенты не применимы, т.к. для данного вида связи необходима хотя бы ранговость всех изучаемых переменных. Только эти коэффициенты (именно потому, что они коэффициенты) позволяют не только выявить связь, но и её силу.

 

Методы регрессии предназначены для прогнозирования значений зависимой переменной по значениям переменных-предикторов. Пример: выяснить, как влияют на явку на выборы избирателей их возраст, доход, пол, доверие органам власти, религиозность, частота просмотра ТВ и т.д. Методов регрессии очень много. Самый простой из них: линейная регрессия. Она применима, только если все изучаемые переменные (псевдо)интервальные. Отдельный вопрос: действительно ли для прогнозирования изучаемой закономерности оптимальна именно линейная связь – для ответа на него есть свои методы. Если предикторы в регрессионной модели категориальные (номинальные или ранговые), то один из подходящих методов – превращение их в фиктивные переменные. Если зависимая переменная категориальна, то один из подходящих методов – логистическая регрессия. Более точным методом в этом случае является логит-регрессия, но этот метод сложнее, чем логистическая регрессия. Большая проблема регрессионного моделирования состоит в том, что получаемые модели имеют низкуюточность прогноза (ниже 50%). Метод регрессии с фильтром часто помогает решить эту проблему.

 

Часто бывает, что некоторое явление измерено несколькими похожими вопросами (переменными). Пример: измерение доверия власти через измерение доверия полиции, законодательной системе, политикам, парламенту, президенту и т.д. Работа с каждым из них отдельно громоздка и трудозатратна – удобнее попробовать сгруппировать однородные переменные в интегральную переменную. Для решения этой задачи предназначены методы факторизации (термин "фактор" здесь имеет несколько иное значение, чем в дисперсионном анализе и в регрессии). Факторный анализ – самый популярный метод факторизации; собственно, он и дал название данному классу методов. Но факторный анализ применим только к (псевдо)интервальным шкалам. Если среди изучаемых переменных есть ранговые – применяйте категориальный метод главных компонент. Если же среди изучаемых переменных только номинальные – применяйте метод анализа соответствий (в т.ч. многомерный).

 

В большинстве наук объектом изучения является не уникальный объект, а объект как типичный представитель некоторого класса. Если эти классы заранее известны, то для их описания может оказаться достаточно методов описательной статистики. Но часто эти классы заранее неизвестны, а без классификации (сегментирования) исследуемых объектов затруднительно претворять в жизнь результаты исследования. Одним из удобных методов кластеризации (синоним классификации) выступает 2-ступенчатый кластерный анализ. Он удобен тем, что сам предлагает оптимальное число кластеров и применим к любому типу шкал. Пожалуй, самый популярный метод кластеризации, применимый, однако, только к (псевдо)интервальным шкалам – кластеризация к-средних. Метод с огромным числом настроек, но самым прозрачным алгоритмом кластеризации – иерархический кластерный анализ.

 

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик