Categorical Principal Components Analysis / Категориальный метод главных компонент

Метод для отображения (в т.ч., графического) связей между категориями многих переменных и объединения этих переменных в одну/несколько интегральных (латентных) переменных.

Переменные могут принадлежать к любому типу шкалы (предпочтителен ранговый).

Требуемый уровень подготовки пользователя: средний.

Желательно владение методами: коэффициенты корреляции Пирсона и ранговые, а также метод главных компонент (МГК).

 
 
Categorical principal components analysis / Категориальный метод главных компонент
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Постановка задачи. Анализируемые переменные - ранговые с большим числом градаций; такие переменные можно причислить к (псевдо)интервальным. Проверка применимости метода главных компонент (МГК).

Видео 2. Выбор метода для факторизации обуславливается типом шкалы переменных. Для того чтобы определить, действительно ли можно считать переменные интервальными и применять к ним метод главных компонент, проводится сравнение коэффициентов корреляции Пирсона и Кендалла (использовать можно любой ранговый коэффициент). Анализируется уровень рассогласованности между значениями коэффициентов: если средняя относительная разница превышает некое установленное исследователем значение (например, 10%), то корректнее сделать выбор в пользу применения категориального метода главных компонент (CatPCA), а не стандартного МГК. CatPCA = оцифровка + МГК + ML + визуализация - вращение.

Видео 3. Отличия ограничений CatPCA от метода главных компонент состоят в том, что первый не требует интервального типа шкалы и наличия линейной связи между признаками и факторами. Настройки запуска: CatPCA не предполагает автоматический выбор числа факторов (или компонент, осей, измерений).

Видео 4. Возможности визуализации в CatPCA: labling variable, ограничение числа сочетаемых измерений.

Видео 5. Продолжение настроек запуска: variance accounted for - аналог общностей в методе главных компонент, loading plot, joint category plot, transformation plot, biplot.

Видео 6. Каждая итерация - это заново проводимая оцифровка и пересчёт компонент. Выбор числа компонент производится на основе значений альфы Кронбаха: следует выбирать столько компонент, у скольких это значение - положительное. Если задать число компонент, равное числу индикаторов, можно получить суммарное собственное значение, превышающее число индикаторов. Причина в том, что оси не совсем ортогональны (в силу специфики работы ML), но и не отражают естественную скоррелированность. Графики оцифровки показывают, как алгоритм изменил исходные значения категорий и расстояния между ними.

Видео 7. Анализ полученных результатов: графики оцифровки (transformation plot), joint category plot - намёк на число компонент, variance accounted for - аналог общностей из метода главных компонент (в силу потенциальной неортогональности компонент, на что я указал в предыдущем видео, лучше смотреть на усреднённую величину, а не на суммарную).

Видео 8. Анализ полученных результатов: корреляции и факторные нагрузки после оцифровки (component loadings); biplot. Сохранение оцифрованных переменных и факторных значений.

Видео 9. Сохранение оцифрованных переменных и факторных значений.

Видео 10. Суть оцифровки: она происходит таким образом, чтобы исходные переменные максимально коррелировали с компонентами. Предположение о наличии латентных переменных в данных - обязательное для использования CatPCA. Сравнение результатов CatPCA с результатом применения метода главных компонент.

Видео 11. Максимизация максимальных по строкам нагрузок в случае CatPCA по сравнению с методом главных компонент.

Видео 12. Наглядное сравнение линейности связей индикатора и фактора для метода главных компонент и для CatPCA посредством AnOVa.

Видео 13. Оцифровка в CatPCA для ранговых переменных = изменение расстояний между категориями переменной (ведь в случае ранговых переменных нет оснований предполагать, что эти интервалы равны) вплоть до 0. Фактически машина пытается воспроизвести, как отражаются в мышлеии респондентов изучаемые индикаторы, исходя из трёх модельных предположений: о наличии в мышлении респонднетов латентных континуумов (интегральных переменных), соответствующих общему отношению к изучаемому феномену; о том, что наш измерительный инструментарий - а именно расстояния между категориями индикаторов - может не соответствовать ощущениям респондентов о расстояниях между этими категориями (следовательно, машине позволено сдвигать или раздвигать категории); а также о том, что изменение общего отношения респондентов к изучаемому феномену отражается в изменениях в ответах на вопросы-индикаторы всегда примерно с одной и той же пропорцией (т.е. линейно).

Видео 14. Уровни оцифровки, или ограничения формы связи: уровень Spline Ordinal, в отличие от Ordinal, содержит ограничения - на кривизну линии или степень функции (degree) и число изгибов (interior knots).

Видео 15. Уровень nominal, в отличие от ordinal, не содержит ограничения на сохранение исходного порядка категорий (категории в результате оцифровки могут поменяться местами). Numeric - самый строгий из всех уровней, так как требует и сохранения порядка категорий, и сохранения структуры расстояний. Полезно проверить, ортогональны ли получились оси; если ортогональны, то можно суммировать объяснённую дисперсию и общности. Новая проверка сравнением коэффициентов Пирсона и рангового показывает очень высокую степень согласованности.

Видео 16. Оцифровка в CatPCA похожа на метод парных сравнений: часто предпочитаемые объекты должны оказаться рядом друг с другом как в мышлении обобщённого респондента, так и на интегральной переменной. Поскольку в CatPCA не заложена опция вращения компонент, можно сохранить оцифрованные значения переменных после выбора окончательной модели и применить к ним метод главных компонент с вращением.

Видео 17. Использование "обычного" метода главных компонент для поворота полученных на CatPCA компонент. Summary.

 

Комментарии можете оставлять прямо в Youtube

 
Пример существенно различающихся результатов применения МГК и CatPCA
Видео-рекомендации, каждая не более 8 мин.

Видео 1. Постановка проблемы и попытка применения метода главных компонент. Значения анализируемых переменных сильно сдвинуты в сторону максимальных, из-за чего возникают трудности при факторизации: традиционный метод главных компонент согласно критерию Кайзера выдает однофакторное решение с небольшим процентом объяснённой дисперсии и критически низкими общностями для некоторых переменных. Принимается решение об использовании категориального метода главных компонент.

Видео 2. Применение категориального метода главных компонент, анализ оцифровок, сравнение результатов моделей (МГК и МГК на оцифрованных переменных). В отличие от традиционного метода главных компонент, CatPCA по умолчанию (при требовании максимального количества измерений) выдаёт двухфакторное решение, которое объясняет 74% дисперсии (по сравнению с 53% при МГК), все переменные имеют высокие значения общностей. Единственным недостатком модели можно назвать "неконтрастность" полученных факторов. Чтобы исправить эту проблему, снова применяется традиционный метод главных компонент на сохранённых оцифрованных (квантифицированных, трансформированных) переменных с вращением Varimax. В итоге получена модель с двумя чётко разделяемыми факторами.

Видео 3. Проверка адекватности модели, полученной методом главных компонент после оцифровки. Выводы.

 

Комментарии можете оставлять прямо в Youtube

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик