top of page
K-Means Clustering / Кластеризация к-средних

Метод кластеризации для получения компактных кластеров в виде гиперплоскостей. Применим для (псевдо)интервальных и дихотомических переменных.

 

Требуемый уровень подготовки пользователя: средний.

 

Желательно владение методами описательной статистики и дисперсионным анализом.

dcrptn
Кластерный анализ методом k-means в SPSS
Краткое описание метода
k-means
K-Means Clustering / Кластеризация к-средних
Видео-рекомендации, каждая не более 3 мин.

Видео 1. Кластеризация методом к-средних не относится к числу статистических методов, и её результаты не могут быть перенесены на генеральную совокупность. Ещё одно ограничение метода -- использование только (псевдо)интервальных переменных. Результаты применения k-means зависят от порядка расположения респондентов в базе, и решение может быть неустойчивым (чтобы проверить устойчивость решения, необходимо пересортировать респондентов, перезапустить выбранную модель и сравнить принадлежность респондентов к кластерам, в идеале кластеры из старой и новой модели должны быть одинаково наполнены).

Видео 2. Сложность применения метода k-means состоит в отсутствии каких-либо легко наблюдаемых признаков для выбора числа кластеров. Одна из рекомендаций при выборе числа кластеров -- значение F-статистики (в ANOVA Table). При запуске можно воспользоваться опцией Use running means (это может повысить качество модели, но снизить устойчивость).

Видео 3. Продолжение: таблица ANOVA показывает "вклад" каждой переменной в кластеризацию объектов: различаются ли кластеры по каждой переменной (да, если sig. меньше принятого уровня значимости), какие переменные вносят больший или меньший "вклад" (чем больше F-статистика, тем больше вклад). Суммарную F-статистику можно рассматривать как один из критериев качества модели, делая выбор в пользу модели с максимальной суммарной F-статистикой. Второй критерий качества модели - наполненность кластеров (чем равномернее наполнены кластеры, тем лучше). Третий критерий -- компактность кластеров (рассеяние объектов вокруг центра кластера).

Видео 4. Чтобы судить о компактности кластеров, необходимо сохранить новые переменные -- принадлежность к кластеру и расстояние от центра кластера. Сравнение моделей по этому критерию осуществляется через Custom Tables: в строки помещается принадлежность к кластеру, в столбцы -- расстояние, в качестве запрашиваемых мер выбирается дисперсия.

Видео 5. При сравнении моделей по компактности "выигрывает" модель, где дисперсия расстояния в разных кластерах меньше. Следующий критерий качества - усреднённое расстояние между центрами кластеров: чем больше расстояния - тем лучше, эмпирическое пороговое значение -- 2 (при меньшем значении есть вероятность, что кластеры будут "сливаться").

Видео 6. Интерпретация результатов проводится по значениям центров кластеров.

Видео 7. Продолжение интерпретации результатов.

Видео 8. Сравнение результатов.

Видео 9. Продолжение сравнения результатов. Практические рекомендации по кейсу.

Видео 10. Визуализация результатов происходит через Chart Builder (Scatter/Dot с Grouping variable). Поскольку визуализация ограничена двумерным пространством, разумно выбрать переменные, вносящие наибольший вклад в кластеризацию.

Видео 11. Продолжение визуализации результатов. Кластерную принадлежность по выборке можно анализировать с помощью описательной статистики, используя для номинальной шкалы как меру центральной тенденции моду, а как меру разброса -- энтропийный коэффициент вариации или коэффициент качественной вариации (оба НЕ реализованы в SPSS).

Видео 12. Расчёт коэффициента энтропийной вариации: вначале рассчитывается сумма произведений имеющихся долей на натуральные логарифмы этих долей (это наблюдаемое значение энтропии), затем сумма произведений равномерно распределённых долей (единица или 100% / количество категорий) на натуральные логарифмы этих долей (это максимальное значение энтропии); отношение первой суммы ко второй и есть энтропийный коэффициент вариации (ЭКВ). Чем ближе значение коэффициента к единице - тем выборка разнороднее (выше разброс).

 

Комментарии можете оставлять прямо в Youtube

Кластерный анализ методом k-means в SPSS
bottom of page