В качестве коррелируемых факторов выбираются данные в координатных интервалах одного или двух блоков. (Например, концентрации ряда загрязнителей и обращаемость по ряду диагнозов.) Для каждой пары факторов рассчитывается обычный коэффициент корреляции. При этом суммирование производится по переменным развертки. Обычно это пространство и/или время. Таким образом, корреляция отражает пространственно-временную синхронность между, скажем, повышением концентрации некоторого загрязнителя и повышением обращаемости с некоторым диагнозом. Коэффициент корреляции отображается цветокодом клетки в таблице, по обеим осям которой - список факторов: по вертикали - первый фактор в паре, по горизонтали - второй.
Значимость полученных высоких коэффициентов корреляции определяется числом точек в выборке, по которой они построены. Оно отражается насыщенностью цвета в цветокоде. Формируется список максимальных корреляций. Это пары факторов, для которых и значение коэффициента корреляции, и число точек превышают заданные пользователем пороги. Это кандидаты на более детальное изучение, в т.ч. и регрессионными методами.
Цветокодированная таблица отображает лишь одно сечение " куба данных о корреляциях". Другие сечения, соответствующие другим переменным сравнения (половозрастным группам и т.д.), невидимы, но данные из них тоже входят в список максимальных корреляций.
Помимо систем отсчета для данных коррелируемых блоков, у корреляций есть своя специфическая система отсчета: лаг между коррелируемыми блоками, взятый по переменным развертки. Например, это задержка во времени между повышением концентрации загрязнителя и откликом на него в виде обращаемости. Если коррелируемые факторы связаны как причина и следствие, зависимость коэффициента корреляции от лага должна иметь закономерный вид ("горб"). Пары факторов, отобранные в список максимальных корреляций, дополнительно проверяются на наличие такой зависимости от лага.
Возможны ситуации, когда имеющаяся причинно-следственная связь нелинейна и поэтому не проявляется в линейном коэффициенте корреляции. На этот случай предусмотрен расчет коэффициента детерминации для квадратичной зависимости между всеми парами факторов. Сохраняется то же представление в виде цветокодированной таблицы.
Возможно, что высокие значения корреляции вызваны причинно-следственной связью не напрямую между парой коррелируемых факторов, а косвенно - между ними обоими и некоторым третьим фактором. Он называется мешающим фактором. Система позволяет, при наличии "подозрительного" мешающего фактора, строить т.наз. условные коэффициенты корреляции при фиксированном значении этого фактора. Сравнение их с обычными корреляциями позволяет выявить те пары факторов, для которых зафиксированный фактор является мешающим.
С целью создания подвыборки, где корреляции выявляются наиболее четко, для выбранной пользователем пары факторов строится дерево вкладов в их корреляцию отдельных координатных интервалов по каждой переменной развертки. Это позволяет удалить из выборки координатные интервалы переменной развертки, "портящие" корреляцию, а также проверить корреляцию на устойчивость к удалению уникальных событий.
Дерево вкладов в корреляцию можно строить также по любой переменной сравнения. Это позволяет проверить устойчивость полученных высоких корреляций к сдвигу по переменной сравнения и ограничить выборку тем диапазоном переменной сравнения, для которого корреляции устойчивы.
Следует отметить, что значимыми являются не только большие положительные, но и большие отрицательные коэффициенты корреляции.
Корреляционный анализ является начальным этапом анализа, после которого возможны следующие переходы.
- В паттерн-анализ для выявления связанного ("синхронно изменяющегося") набора факторов. Этот набор (паттерн) может быть затем подвергнут регрессионному анализу для установления количественных взаимосвязей.
- В кластерный анализ для разделения выборки на части с разным типом связи между факторами. Например, смешанная выборка с приблизительно нулевой корреляцией может распасться на две подвыборки: с высокой положительной и высокой отрицательной корреляцией.
- В регрессионный анализ для построения регрессии выбранного фактора на все другие факторы, с которыми он достаточно сильно коррелирован, или только на какой-либо один выбранный фактор.