Hierarchical Cluster Analysis / Иерархический кластерный анализ

Метод для отображения (в т.ч., графического) математически близких групп как объектов наблюдения, так и наблюдаемых переменных. Т.е. метод применим как для кластеризации, так и для факторизации. Переменные могут принадлежать к любому типу шкалы (для разных типов шкалы предусмотрены разные меры расстояний и методы объединения).

Требуемый уровень подготовки пользователя: средний. 

 
Иерархический кластерный анализ. Интервальные переменные
Видео-рекомендации, каждая не более 3 мин.

Видео 1.

Знакомство с данными. Предположения о кластерах на основе визуализации 2-мерного распределения.

Видео 2.

Предварительное применение метода К-средних. Неприменимость его как метода, нацеленного на поиск сконцентрированных гиперсфер. Трудности выбора правильного сочетания элементов HCA.

Видео 3.

Пособие по выбору правильного сочетания элементов HCA. Сравнение методов объединения для вытянутых (функциональных) кластеров.

Видео 4.

Сравнение видов расчёта расстояний: Чебышева и Евклидово и квадрат Евклидова.

Видео 5.

Сравнение видов расчёта расстояний: Миньковского и "Манхэттэн". Выбор числа кластеров по Aglomeration Schadule. Демонстрация неприменимости метода Ward.

Видео 6.

Координатные модели. Вытянутая модель: ближний сосед и квадрат Евклидова расстояния.

Видео 7.

Почему не подошла? Далее: вытянутая модель; ближний сосед и расстояние Чебышева - почему не подошла? Далее: вытянутая модель; ближний сосед и расстояние "блок".

Видео 8.

Ближний сосед не подошёл. Вытянутая модель: межгрупповая связь и расстояние Чебышева - почему не подошла?

Видео 9.

Вытянутые модели: межгрупповая связь и i) квадрат Евклидова расстояния и ii) расстояние "блок". Самые чувствительные вытянутые модели: внутригрупповая связь и расстояние "блок". Успех.

Видео 10.

Самые чувствительные вытянутые модели: внутригрупповая связь и i) квадрат Евклидова расстояния и ii) расстояние Чебышева.

Видео 11.

4 конкурирующие координатные модели. Функциональные модели. Расстояния по Пирсону.

Видео 12.

Вытянутая модель: внутригрупповая связь и расстояние Пирсона. Особенность Aglomeration Schadule в случае расстояния Пирсона (и косинуса). Вытянутая модель: внутригрупповая связь и расстояние косинуса. Расстояние косинуса - промежуточный вариант между координатным и функциональным принципами.

Видео 13.

Все конкурирующие модели. Summary.

Комментарии можете оставлять прямо в Youtube

 
Иерархический кластерный анализ. Дихотомические переменные

Обычные меры расстояния, основанные на обобщённом Евклидовом расстоянии, плохо "работают"; рассматривается техника выбора из множество мер расстояний, предназначенных именно для дихотомических переменных​​. Также и привычная интерпретация кластеров не вполне применима к кластеризации на дихотомических переменных; рассматривакеся более применимая схема интерпретации.

Видео-рекомендации, каждая не более 3 мин.

Видео 1.

Знакомство с данными: 7 дихотомических переменных (значения "0" и "1"). Визуализация затруднительна, т.к. дихотомические переменные предполагают вместо пространства координат только 2 точки на каждой оси. Ограничения HCA в том виде, как реализован в SPSS: нет статистической оценки качества итоговой модели, нет оценки устойчивости модели, "не работает" с очень большими выборками и со взвешенными данными, "сложные" меры сходства "не работают", если распределение кластеризующих переменных слишком смещено в сторону одной из категорий.

Видео 2.

Предварительный выбор подходящих мер несходства/сходства: можно ориентироваться на характеристики этих мер, они различаются по следующим основаниям: 1 несходство/сходство, 2 совпадения/несовпадения, 3 диагональ/ячейка, 4 учёт асимметричности, 5 наличие границ. Можно ориентироваться на применимость этих мер с т.з. желаемого результата их применения к "ключевым" профилям - для помощи в этом служит алгоритм, реализованный в Excel и доступный для скачивания справа. Сначала задаём базовый профиль.

Видео 3.

Выбираем ряд ключевых профилей, которые должны отличаться от базового; повторяем процедуру несколько раз, каждый раз сохраняя результат. Выбираем меры несходства/сходства, которые хотя бы раз подошли.

Видео 4.

Формируем ключевые профили и с совпадением единиц, и с несовпадением.

Видео 5.

Отсев прошли 3 меры, попробуем каждую. Методом группировки выбираем Within Group как довольно чувствительный метод и при этом не "завязанный" на Евклидовом расстоянии. Вариант 1: Size difference + Within Group; получилось 2, 3 или 6 кластеров, но не на всей выборке (свыше 50000 чел.), а на более скромной - российской (2300 чел.), т.к. вся выборка слишком велика для HCA.

Видео 6.

Вариант 2: Lambda + Within Group; модель не получилась в силу перекоса кластеризующих переменных в сторону "0". Вариант 3: Anderberg's D + Within Group; получилось 2 кластера.

Видео 7.

Критика полученных моделей на основании описательной статистики кластерной переменной и её Crosstab с участием сумматорной переменной.

Видео 8.

Вариант 4: Anderberg's D + Between Group; получилось неинтерпретируемое множество кластеров. Вариант 5: Size difference + Between Group; получилось 2 кластера. Все модели снова плохие.

Видео 9.

Решение: 7-кластерная модель с Size difference независимо от метода группировки объектов в кластеры (Within Group / Between Group / Nearest Neighbor). Такая модель интерпретируема и устойчива.

Видео 10.

Заменяем номера кластеров на предсказываемые значения (выведены посредством описательной статистики), которые следует округлить арифметически (до 0 или 1).

Видео 11.

Получаем предсказанные значения, которые следует сравнить с эмпирическими. Для этого применяем Lack-of-Fit: считаем сырые остатки, от которых берём выборочную дисперсию.

Видео 12.

Затем берём квадрат от каждого остатка и суммируем квадраты. Наконец, делим сумму на дисперсию. Для полученной величины считаем Sig.; df = N-2. Модель оказалась статистически плохой. Возможные направления углубления анализа: выяснить, какие кластеры "портят" модель, какие переменные плохо прогнозируются. Summary.

Комментарии можете оставлять прямо в Youtube

 
Поиск функциональных (вытянутых) кластеров: Cosine + Within Group Linkage

Обычные меры расстояния, основанные на обобщённом Евклидовом расстоянии, плохо "ищут" вытянутые кластеры (в основе которых обучно лежит какая-либо функциональная зависимость); рассматривается применение меры расстояния Cosine, предназначенной именно для функциональных кластеров​​. Также и привычная интерпретация кластеров не вполне применима к функциональной кластеризации; рассматривается более применимая схема интерпретации - похожая на интерпретацию эффектов взаимодействия в регрессионном моделировании.

Видео-рекомендации, каждая не более 3 мин.

Видео 1.

Знакомство с данными: 2 стандартизированные факторные переменные (политическое и межличностное доверие), полученные методом главных компонент с вращением Promax. Связь между этими переменными, измеренная коэффициентом корреляции Пирсона: 0,45, Sig. = 0,00. Предположительно, эта связь является результатом наложения 2-ух линейных связей между политическим и межличностным доверием: прямой (характерной для большинства объектов) и обратной (характерной для меньшинства объектов). Отсюда предположение о функциональной природе искомых кластеров.

Видео 2.

Суть меры расстояния Cosine (косинус): каждый объект - это вектор с координатами начала {0;0} и конца {X;Y}; близкие объекты - такие, угол между векторами которых равен 0; чем больше угол, тем дальше друг от друга объекты. Проблема: Cosine рассматривает как противоположные (максимально удалённые друг от друга) объекты, угол между векторами которых 180 градусов, хотя содержательно эти объекты выражают одну и ту же закономерность.

Видео 3.

Решение проблемы: отобразить объекты из 3-ей четверти диаграммы в её 1-ую четверть (т.е. для объектов с обеими отрицательными координатами поменять знак этих координат); перенести объекты из 2-ой и 4-ой четвертей (выражающих отрицательную связь) в 3-ью четверть (т.е. для объектов с только одной положительной координатой поменять знак этой координаты на минус), чтобы увеличить их противоположность объектам, выражающим положительную связь, с т.з. Cosine.

Видео 4.

Техническое ограничение иерархического кластерного анализа (HCA): компьютеру не хватает оперативной памяти при применении HCA к выборке, объём которой превышает 5-10 тыс. Решение: взять простую вероятностную подвыборку удовлетворительного объёма и на ней запустить HCA. При этом убедиться, что связь между факторами сохранила свои свойства и на подвыборке.

Видео 5.

Визуализация и интерпретация полученной кластерной модели: на исходных факторных переменных строим диаграмму, размечаем цветом кластеры. Действительно: 1-ый кластер основан на положительной связи между политическим и межличностным доверием, а 2-ой кластер - на отрицательной связи. При этом 1-ый кластер в 2 раза более наполнен, чем 2-ой. Чтобы выразить найденные закономерности математически, расщепляем файл по кластерной переменной и внутри каждого кластера строим линейную регрессию на факторных (кластеризующих) переменных. В 1-ом кластере зависимость выражается значением регрессионного коэффициента примерно 0,8, во 2-ом кластере - примерно -0,6.

Видео 6.

Проверка качества полученной модели - обоснование применимости зеркального отображения и переноса. Суть проверки: показать, что на стыках четвертей диаграммы не формируются свои кластеры. Для этой проверки создаются 2 дополнительных набора изменённых факторных переменных, каждый из которых создан неполным отображением: либо относительно оси абсцисс, либо относительно оси ординат. Построенные на этих 2 наборах изменённых факторных переменных кластерные модели повторили тенденции основной модели, что и требовалось доказать.

Видео 7.

Проверка статистического качества полученной модели - выяснение значимости отклонения моделируемых ею значений от эмпирических. Суть проверки: показать, что значения политического и межличностного видов доверия, которые моделируются посредством регрессионных закономерностей, выявленных в каждом из кластеров, не значимо отличаются от эмпирических значений. Для этой проверки файл снова расщепляется по кластерной переменной и внутри каждого кластера строится 2 линейные регрессии (в рамках которых каждая из исходных факторных переменных выступает сначала предиктором, а потом откликом) с сохранением моделируемых значений. Сравниваем их с эмпирическими значениями. Для этого применяем Lack-of-Fit: считаем сырые остатки, от которых берём выборочную дисперсию, применяем формулу, считаем Sig. H0 принята, что и требовалось доказать.

Видео 8.

Варианты развития этой аналитической траектории: оказывается, принадлежность к стране влияет на характеристики связи политического и межличностного видов доверия. Можно добавить и другие предикторы.

Комментарии можете оставлять прямо в Youtube

 
Иерархический кластерный анализ. Категориальные переменные
Видео-рекомендации, каждая не более 3 мин.

Видео 1.

Знакомство с данными: ранговые переменные (отношение человека к жизни, которую он ведёт, и к его материальному положению). Визуальное представление рассеяния объектов в пространстве кластеризующих переменных не дало ориентиров. Ограничение метода: возможная вариативность кластерных моделей в зависимости от порядка кластеризуемых объектов в базе.

Видео 2.

Суть мер расстояния для категориальных переменных: Хи-квадрат и Фи-квадрат (нормированный Хи-квадрат) - "работа" с данными в формате профилей (комбинаций значений кластеризующих переменных); объединение похожих профилей.

Видео 3.

Похожие профили - профили с похожими соотношениями значений (равные / не равные значения кластеризующих переменных). В случае ранговых переменных интерпретации подлежит и порядок значений. Также алгоритм учитывает наполненность (вес) каждого профиля. Запускаем HCA для категориальных переменных: Хи-квадрат + Within Group Linkage.

Видео 4.

Ищем скачки в Aglomeration Schedule, получаем 9- и 3-кластерную модели. 9-кластерная модель: 1-ый кластер - горизонтальные профили и малонаполненные профили с небольшим наклоном.

Видео 5.

Остальные кластеры содержат профили, которые в большей или в меньшей мере отклоняются от ситуации соответствия значений кластеризующих переменных. Поскольку переменные ранговые, эти отклонения подлежат интерпретации. Переходим к 3-кластерной модели. 1-ый кластер самый наполненный.

Видео 6.

Главная характеристика 1-го кластера - снова равенство значений кластеризующих переменных, т.е. соответствие рангов удовлетворённости жизнью и материальным положением. 2-ой кластер: оценка материального положения выше, чем оценка качества жизни. 3-ий кластер: оценка материального положения гораздо выше, чем оценка качества жизни.

Видео 7.

Графическое представление 3-кластерной модели. Summary: HCA "умеет" работать с категориальными переменными посредством 2-ух мер расстояния.

 

Комментарии можете оставлять прямо в Youtube

© А. Ротмистров

  • Вконтакте App Icon
  • Иконка Facebook с прозрачным фоном
  • YouTube Классик