Hierarchical Cluster Analysis / Иерархический кластерный анализ

Знакомство с данными. Предположения о кластерах на основе визуализации 2-мерного распределения.

Предварительное применение метода К-средних. Неприменимость его как метода, нацеленного на поиск сконцентрированных гиперсфер. Трудности выбора правильного сочетания элементов HCA.

Пособие по выбору правильного сочетания элементов HCA. Сравнение методов объединения для вытянутых (функциональных) кластеров.

Сравнение видов расчёта расстояний: Чебышева и Евклидово и квадрат Евклидова.

Сравнение видов расчёта расстояний: Миньковского и "Манхэттэн". Выбор числа кластеров по Aglomeration Schadule. Демонстрация неприменимости метода Ward.

Координатные модели. Вытянутая модель: ближний сосед и квадрат Евклидова расстояния.

Подготовл. массив. Отношение к этносам интегральное (.sav)

Почему не подошла? Далее: вытянутая модель; ближний сосед и расстояние Чебышева -- почему не подошла? Далее: вытянутая модель; ближний сосед и расстояние "блок".

Видео 8.

Ближний сосед не подошёл. Вытянутая модель: межгрупповая связь и расстояние Чебышева -- почему не подошла?

Видео 9.

Вытянутые модели: межгрупповая связь и i) квадрат Евклидова расстояния и ii) расстояние "блок". Самые чувствительные вытянутые модели: внутригрупповая связь и расстояние "блок". Успех.

Видео 10.

Самые чувствительные вытянутые модели: внутригрупповая связь и i) квадрат Евклидова расстояния и ii) расстояние Чебышева.

Видео 11.

4 конкурирующие координатные модели. Функциональные модели. Расстояния по Пирсону.

Видео 12.

Вытянутая модель: внутригрупповая связь и расстояние Пирсона. Особенность Aglomeration Schadule в случае расстояния Пирсона (и косинуса). Вытянутая модель: внутригрупповая связь и расстояние косинуса. Расстояние косинуса -- промежуточный вариант между координатным и функциональным принципами.

Видео 13.

Все конкурирующие модели. Summary.

Комментарии можете оставлять прямо в Youtube

Источник: политпанель ВЦИОМ (.sav)

Иерархический кластерный анализ. Категориальные переменные

HCA для категориальных переменных (не бинарных)

Видео-рекомендации, каждая не более 3 мин.

Знакомство с данными: ранговые переменные (отношение человека к жизни, которую он ведёт, и к его материальному положению). Визуальное представление рассеяния объектов в пространстве кластеризующих переменных не дало ориентиров. Ограничение метода: возможная вариативность кластерных моделей в зависимости от порядка кластеризуемых объектов в базе.

Суть мер расстояния для категориальных переменных: Хи-квадрат и Фи-квадрат (нормированный Хи-квадрат) -- "работа" с данными в формате профилей (комбинаций значений кластеризующих переменных); объединение похожих профилей.

Похожие профили - профили с похожими соотношениями значений (равные / не равные значения кластеризующих переменных). В случае ранговых переменных интерпретации подлежит и порядок значений. Также алгоритм учитывает наполненность (вес) каждого профиля. Запускаем HCA для категориальных переменных: Хи-квадрат + Within Group Linkage.

Ищем скачки в Aglomeration Schedule, получаем 9- и 3-кластерную модели. 9-кластерная модель: 1-ый кластер -- горизонтальные профили и малонаполненные профили с небольшим наклоном.

Остальные кластеры содержат профили, которые в большей или в меньшей мере отклоняются от ситуации соответствия значений кластеризующих переменных. Поскольку переменные ранговые, эти отклонения подлежат интерпретации. Переходим к 3-кластерной модели. 1-ый кластер самый наполненный.

Главная характеристика 1-го кластера -- снова равенство значений кластеризующих переменных, т.е. соответствие рангов удовлетворённости жизнью и материальным положением. 2-ой кластер: оценка материального положения выше, чем оценка качества жизни. 3-ий кластер: оценка материального положения гораздо выше, чем оценка качества жизни.

Подготовленный массив. Материальная самооценка (.sav)

Графическое представление 3-кластерной модели. Summary: HCA "умеет" работать с категориальными переменными посредством 2-ух мер расстояния.

Комментарии можете оставлять прямо в Youtube

Источник: политпанель ВЦИОМ (.sav)

Иерархический кластерный анализ. Дихотомические переменные

HCA для бинарных (дихотомических) переменных

Обычные меры расстояния, основанные на обобщённом Евклидовом расстоянии, плохо "работают"; рассматривается техника выбора из множество мер расстояний, предназначенных именно для дихотомических переменных. Также и привычная интерпретация кластеров не вполне применима к кластеризации на дихотомических переменных; рассматривается более применимая схема интерпретации.

Видео-рекомендации, каждая не более 3 мин.

Знакомство с данными: 7 дихотомических переменных (значения "0" и "1"). Визуализация затруднительна, т.к. дихотомические переменные предполагают вместо пространства координат только 2 точки на каждой оси. Ограничения HCA в том виде, как реализован в SPSS: нет статистической оценки качества итоговой модели, нет оценки устойчивости модели, "не работает" с очень большими выборками и со взвешенными данными, "сложные" меры сходства "не работают", если распределение кластеризующих переменных слишком смещено в сторону одной из категорий.

Предварительный выбор подходящих мер несходства/сходства: можно ориентироваться на характеристики этих мер, они различаются по следующим основаниям: 1 несходство/сходство, 2 совпадения/несовпадения, 3 диагональ/ячейка, 4 учёт асимметричности, 5 наличие границ. Можно ориентироваться на применимость этих мер с т.з. желаемого результата их применения к "ключевым" профилям - для помощи в этом служит алгоритм, реализованный в Excel и доступный для скачивания справа. Сначала задаём базовый профиль.

Выбираем ряд ключевых профилей, которые должны отличаться от базового; повторяем процедуру несколько раз, каждый раз сохраняя результат. Выбираем меры несходства/сходства, которые хотя бы раз подошли.

Формируем ключевые профили и с совпадением единиц, и с несовпадением.

Отсев прошли 3 меры, попробуем каждую. Методом группировки выбираем Within Group как довольно чувствительный метод и при этом не "завязанный" на Евклидовом расстоянии. Вариант 1: Size difference + Within Group; получилось 2, 3 или 6 кластеров, но не на всей выборке (свыше 50000 чел.), а на более скромной - российской (2300 чел.), т.к. вся выборка слишком велика для HCA.

Вариант 2: Lambda + Within Group; модель не получилась в силу перекоса кластеризующих переменных в сторону "0". Вариант 3: Anderberg's D + Within Group; получилось 2 кластера.

Подготовл. массив. Политический активизм (.sav)

Критика полученных моделей на основании описательной статистики кластерной переменной и её Crosstab с участием сумматорной переменной.

Видео 8.

Вариант 4: Anderberg's D + Between Group; получилось неинтерпретируемое множество кластеров. Вариант 5: Size difference + Between Group; получилось 2 кластера. Все модели снова плохие.

Видео 9.

Решение: 7-кластерная модель с Size difference независимо от метода группировки объектов в кластеры (Within Group / Between Group / Nearest Neighbor). Такая модель интерпретируема и устойчива.

Видео 10.

Заменяем номера кластеров на предсказываемые значения (выведены посредством описательной статистики), которые следует округлить арифметически (до 0 или 1).

Видео 11.

Получаем предсказанные значения, которые следует сравнить с эмпирическими. Для этого применяем Lack-of-Fit: считаем сырые остатки, от которых берём выборочную дисперсию.

Видео 12.

Затем берём квадрат от каждого остатка и суммируем квадраты. Наконец, делим сумму на дисперсию. Для полученной величины считаем Sig.; df = N-2. Модель оказалась статистически плохой. Возможные направления углубления анализа: выяснить, какие кластеры "портят" модель, какие переменные плохо прогнозируются. Summary.

Комментарии можете оставлять прямо в Youtube

Источник: ESS Round 6 2012 (.sav)

Выбор меры несходства/сходства (.xls)

Поиск функциональных (вытянутых) кластеров: Cosine + Within Group Linkage

Обычные меры расстояния, основанные на обобщённом Евклидовом расстоянии, плохо "ищут" вытянутые кластеры (в основе которых лежит какая-либо функциональная зависимость); рассматривается применение меры расстояния Cosine, предназначенной именно для функциональных кластеров. Также и привычная интерпретация кластеров не вполне применима к функциональной кластеризации; рассматривается более применимая схема интерпретации -- похожая на интерпретацию эффектов взаимодействия в регрессионном моделировании.

Видео-рекомендации, каждая не более 3 мин.

Знакомство с данными: 2 стандартизированные факторные переменные (политическое и межличностное доверие), полученные методом главных компонент с вращением Promax. Связь между этими переменными, измеренная коэффициентом корреляции Пирсона: 0,45, Sig. = 0,00. Предположительно, эта связь является результатом наложения 2-ух линейных связей между политическим и межличностным доверием: прямой (характерной для большинства объектов) и обратной (характерной для меньшинства объектов). Отсюда предположение о функциональной природе искомых кластеров.

Суть меры расстояния Cosine (косинус): каждый объект -- это вектор с координатами начала {0;0} и конца {X;Y}; близкие объекты - такие, угол между векторами которых равен 0; чем больше угол, тем дальше друг от друга объекты. Проблема: Cosine рассматривает как противоположные (максимально удалённые друг от друга) объекты, угол между векторами которых 180 градусов, хотя содержательно эти объекты выражают одну и ту же закономерность.

Решение проблемы: отобразить объекты из 3-ей четверти диаграммы в её 1-ую четверть (т.е. для объектов с обеими отрицательными координатами поменять знак этих координат); перенести объекты из 2-ой и 4-ой четвертей (выражающих отрицательную связь) в 3-ью четверть (т.е. для объектов с только одной положительной координатой поменять знак этой координаты на минус), чтобы увеличить их противоположность объектам, выражающим положительную связь, с т.з. Cosine.

Техническое ограничение иерархического кластерного анализа (HCA): компьютеру не хватает оперативной памяти при применении HCA к выборке, объём которой превышает 5-10 тыс. Решение: взять простую вероятностную подвыборку удовлетворительного объёма и на ней запустить HCA. При этом убедиться, что связь между факторами сохранила свои свойства и на подвыборке.

Визуализация и интерпретация полученной кластерной модели: на исходных факторных переменных строим диаграмму, размечаем цветом кластеры. Действительно: 1-ый кластер основан на положительной связи между политическим и межличностным доверием, а 2-ой кластер -- на отрицательной связи. При этом 1-ый кластер в 2 раза более наполнен, чем 2-ой. Чтобы выразить найденные закономерности математически, расщепляем файл по кластерной переменной и внутри каждого кластера строим линейную регрессию на факторных (кластеризующих) переменных. В 1-ом кластере зависимость выражается значением регрессионного коэффициента примерно 0,8, во 2-ом кластере -- примерно -0,6.

Проверка качества полученной модели -- обоснование применимости зеркального отображения и переноса. Суть проверки: показать, что на стыках четвертей диаграммы не формируются свои кластеры. Для этой проверки создаются 2 дополнительных набора изменённых факторных переменных, каждый из которых создан неполным отображением: либо относительно оси абсцисс, либо относительно оси ординат. Построенные на этих 2 наборах изменённых факторных переменных кластерные модели повторили тенденции основной модели, что и требовалось доказать.