Methods of Hierarchical Clustering Analysis (HCA) /
Методы иерархической кластеризации
Группа методов для отображения (в т.ч., графического) математически близких групп: как наблюдений, так и переменных. Т.е. методы применимы как для кластеризации, так и для факторизации. Анализируемые переменные могут принадлежать к любому типу шкалы (для разных типов шкалы предусмотрены разные меры расстояний и методы объединения).
Требуемый уровень подготовки пользователя: средний.
Краткое описание метода:
HCA для интервальных переменных
Видео-рекомендации, каждая не более 3 мин.
Знакомство с данными. Предположения о кластерах на основе визуализации 2-мерного распределения.
Предварительное применение метода К-средних. Неприменимость его как метода, нацеленного на поиск сконцентрированных гиперсфер. Трудности выбора правильного сочетания элементов HCA.
Пособие по выбору правильного сочетания элементов HCA. Сравнение методов объединения для вытянутых (функциональных) кластеров.
Сравнение видов расчёта расстояний: Чебышева и Евклидово и квадрат Евклидова.
Сравнение видов расчёта расстояний: Миньковского и "Манхэттэн". Выбор числа кластеров по Aglomeration Schadule. Демонстрация неприменимости метода Ward.
Координатные модели. Вытянутая модель: ближний сосед и квадрат Евклидова расстояния.
Почему не подошла? Далее: вытянутая модель; ближний сосед и расстояние Чебышева -- почему не подошла? Далее: вытянутая модель; ближний сосед и расстояние "блок".
Ближний сосед не подошёл. Вытянутая модель: межгрупповая связь и расстояние Чебышева -- почему не подошла?
Вытянутые модели: межгрупповая связь и i) квадрат Евклидова расстояния и ii) расстояние "блок". Самые чувствительные вытянутые модели: внутригрупповая связь и расстояние "блок". Успех.
Самые чувствительные вытянутые модели: внутригрупповая связь и i) квадрат Евклидова расстояния и ii) расстояние Чебышева.
4 конкурирующие координатные модели. Функциональные модели. Расстояния по Пирсону.
Вытянутая модель: внутригрупповая связь и расстояние Пирсона. Особенность Aglomeration Schadule в случае расстояния Пирсона (и косинуса). Вытянутая модель: внутригрупповая связь и расстояние косинуса. Расстояние косинуса -- промежуточный вариант между координатным и функциональным принципами.
Все конкурирующие модели. Summary.
Комментарии можете оставлять прямо в Youtube
HCA для категориальных переменных (не бинарных)
Видео-рекомендации, каждая не более 3 мин.
Знакомство с данными: ранговые переменные (отношение человека к жизни, которую он ведёт, и к его материальному положению). Визуальное представление рассеяния объектов в пространстве кластеризующих переменных не дало ориентиров. Ограничение метода: возможная вариативность кластерных моделей в зависимости от порядка кластеризуемых объектов в базе.
Суть мер расстояния для категориальных переменных: Хи-квадрат и Фи-квадрат (нормированный Хи-квадрат) -- "работа" с данными в формате профилей (комбинаций значений кластеризующих переменных); объединение похожих профилей.
Похожие профили - профили с похожими соотношениями значений (равные / не равные значения кластеризующих переменных). В случае ранговых переменных интерпретации подлежит и порядок значений. Также алгоритм учитывает наполненность (вес) каждого профиля. Запускаем HCA для категориальных переменных: Хи-квадрат + Within Group Linkage.
Ищем скачки в Aglomeration Schedule, получаем 9- и 3-кластерную модели. 9-кластерная модель: 1-ый кластер -- горизонтальные профили и малонаполненные профили с небольшим наклоном.
Остальные кластеры содержат профили, которые в большей или в меньшей мере отклоняются от ситуации соответствия значений кластеризующих переменных. Поскольку переменные ранговые, эти отклонения подлежат интерпретации. Переходим к 3-кластерной модели. 1-ый кластер самый наполненный.
Главная характеристика 1-го кластера -- снова равенство значений кластеризующих переменных, т.е. соответствие рангов удовлетворённости жизнью и материальным положением. 2-ой кластер: оценка материального положения выше, чем оценка качества жизни. 3-ий кластер: оценка материального положения гораздо выше, чем оценка качества жизни.
Графическое представление 3-кластерной модели. Summary: HCA "умеет" работать с категориальными переменными посредством 2-ух мер расстояния.
Комментарии можете оставлять прямо в Youtube