Кластерный анализ - это разбиение выборки на группы (кластеры), состоящие из точек-данных. Кластеры должны быть компактными,т.е. расстояние между разными кластерами должно быть больше, чем среднее расстояние между точками внутри одного и того же кластера.
При разбиении выборки на кластеры максимизируется отношение среднего межгруппового расстояния к среднему внутригрупповому расстоянию. Оба типа расстояния измеряются с помощью соответствующих критериев, которые могут модифицироваться пользователем. Техника оптимизации - та же, что и для любых критериев. Кроме того, пользователь может устанавливать желаемое число кластеров.
В качестве точек могут фигурировать координатные интервалы и содержащиеся в них данные любого уровня иерархии (одного и того же для всех точек). Остальные координаты, которые учитываются при расчете расстояния, могут браться из одного или нескольких блоков. В последнем случае координаты, входящие в определение точки, должны присутствовать во всех задействованных блоках. Например: точка определяется днем и территорией (скажем, районом). Расстояние между парой точек определяется разностью концентраций по некоторой группе загрязнителей и разностью числа случаев обращаемости по некоторой группе диагнозов. Каждый загрязнитель и диагноз дает одно измерение в пространство, где размещаются кластеры и где рассчитываются расстояния.
Полученные кластеры могут использоваться для следующих целей.
- Разделение выборки на части, соответствующие характерным (например, высоким и низким) значениям того или иного показателя: концентрации, обращаемости или иной переменной значения. Затем можно искать причины такого разделения выборки на кластеры: решать обратную задачу, выявлять пространственно-временные паттерны, характерные для каждого кластера и т.д.
- Выявление координат и координатных интервалов, вдоль которых расстояние между кластерами наибольшее. Это позволяет скорректировать набор координатных интервалов в выборке, в т.ч. и для улучшения результатов самого кластерного анализа. Например, можно ограничить выборку теми загрязнителями, которые меняются "синхронно", образуя отдельный кластер. Они могут соответствовать выбросам конкретного предприятия или группы предприятий.
- Разделение выборки на части с разным типом связи между факторами. Это необходимо для улучшения результатов регрессионного анализа в тех случаях, когда функция связи значительно изменяется (например, в пространстве-времени).
В случае, когда в выборке существует несколько вариантов, их точки используются совместно.