2-step Cluster Analysis / 2-ступенчатый кластерный анализ

Метод для отображения (в т.ч., графического) математически близких групп объектов наблюдения (респондентов, например).

Переменные могут принадлежать к любому типу шкалы (для разных типов шкалы предусмотрены разные меры расстояний и методы объединения).

 

Требуемый уровень подготовки пользователя: средний. 

 

Желательно владение методами: описательная статистика.

 
2-ступенчатый кластерный анализ. Категориальные шкалы
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Знакомство с данными: 2 ранговые шкалы. Переменные могут принадлежать к любому типу шкалы (для разных типов шкалы предусмотрены разные меры расстояний и методы объединения). Кластерный анализ стремится так разделить объекты, чтобы внутригрупповая вариация кластеризующих переменных внутри каждого кластера была минимальна. 

Видео 2. 1-ый шаг: компьютер ищет уникальные профили - это исходная точка агломеративного процесса. С исходно агрегированными объектами 2-SCA не "работает".

Видео 3. Мера сходства Log-likelihood (далее LL) и её родство с критерием Хи-квадрат. Эта мера оценивает отклонение модельных, т.е. приписываемых моделью каждому объекту значений по каждой кластеризующей переменной в зависимости от принадлежности этого объекта к тому или иному кластеру. Чем отклонение меньше, тем лучше. Также конкурирующие модели оцениваются числом параметров (числом кластеров в данном случае). Чем оно ниже, тем лучше. LL и число параметров входят в расчёт критериев Шварца и Акаике, посредством которых конкурирующие модели в 2-SCA и оцениваются.

Видео 4. Критерий Шварца сильнее "штрафует" за каждый дополнительный параметр, чем Акаике. 1-ая шаг: запускаем максимально возможное число кластеров (равное числу профилей); получаем полное соответствие предсказываемых (модельных) и эмпирических значений.

Видео 5. Агломеративный процесс пошагово - смотрим Pivot Table. Сначала критерий Шварца падает, поскольку число параметров падает быстрее, чем растёт величина LL, затем тренд меняется на противоположный, поскольку число параметров падает медленнее, чем растёт величина LL. Здесь и находится одна из оптимальных моделей.

Видео 6. Рассмотрим абсолютную величину изменения критерия Шварца - здесь важен наибольший скачок; он указывает на вторую из оптимальных моделей. Величина контрастности кластеров (Ratio of Distance Mesures) - чем она выше, тем лучше. Она указывает на третью из оптимальных моделей, которую и выбрал компьютер.

Видео 7. Рассмотрим каждый кластер первой модели (14 кластеров) из конкурирующих с т.ч. внутригрупповой вариации. Есть разнородные кластеры, но они маленькие - такие "мусорные" кластеры. В целом модель очень точная, но слишком много кластеров для интерпретации. Перейдём к третьей модели (5 кластеров) из конкурирующих (которую и предлагает выбрать компьютер).

Видео 8. Рассмотрим её общее качество, роль кластеризующих переменных, контрастность кластеров и их однородность по каждой кластеризующей переменной.

Видео 9. Выбираем 3 кластера-ориентира, объединяющих свыше 75% объектов. 2-мерная визуализация 5-кластерной модели. Интерпретируем кластеры-ориентиры.

Видео 10. Summary: профили объединяются от ненаполненных к наполненным; 3 однородных кластера из 5.

Комментарии можете оставлять прямо в Youtube

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик