Для проведения регрессионного анализа необходимо следующее.
- Выбор одного блока, из которого берется координатный интервал, чьи данные (переменная значения) дают зависимую переменную регрессии. Например, в качестве переменной Y из блока заболеваемости берется обращаемость в координатном интервале "пневмония" координаты "диагноз".
- Выбор одного или нескольких блоков, из которых аналогично берутся факторы в качестве независимых переменных регрессии. Например, данные в координатном интервале "концентрация SO2" берутся в качестве X1, а в координатном интервале "скорость ветра" - в качестве X2. При этом необходимо, чтобы блок, дающий зависимую переменную, и все блоки, дающие независимые переменные, имели какие-либо общие координаты (обычно пространство и время), которые служат переменными развертки и дают точки, по которым проводится регрессионная кривая или поверхность.
- Выбор типа и "степени" функций от независимых переменных, которые включаются в регрессию. Например, при выборе полиномиальных функций с максимальной степенью 2 и при двух независимых переменных X1 и X2 регрессия ищется в виде
Y = a + bX1 + cX2 + dX12 + eX22 + fX1X2
(a - f -регрессионные коэффициенты).
- Задание координатных интервалов переменных сравнения, внутри которых регрессионная функция не должна значимо изменяться. Так, в вышеописанном случае можно потребовать, чтобы регрессионная функция вообще не зависела от половозрастной группы, или была одной для всех мужчин и другой - для всех женщин, или своей в каждой половозрастной группе. Эта информация используется для регуляризации регрессии гребневым или энтропийным методом.
Регрессия проводится последовательно с увеличением числа независимых переменных и степени регрессионной функции. При этом общесистемным оптимизатором находится минимум среднеквадратичного отклонения точек данных от регрессионной кривой.
Для регрессионной кривой вычисляются характеристики неопределенности - показатели тесноты регрессии: кривые доверительного интервала и коэффициент детерминации. Последний может вычисляться сразу для всех комбинаций "зависимая переменная - независимая переменная" и представляться в виде цветокодированной таблицы. Такое представление близко к цветокодированию коэффициента корреляции. Разница между ними связана с возможностью выбора типа и степени регрессионной функции при регрессионном анализе.
Аналогично построению таблицы условных корреляций, в регрессионном анализе может строиться таблица "условных" коэффициентов детерминации. При этом в регрессию для каждой пары факторов дополнительно включается еще несколько факторов, выбранных пользователем. Например, строятся регрессии данных обращаемости по каждому диагнозу на концентрацию каждого загрязнителя, и при этом в регрессию дополнительно включается в качестве независимой переменной скорость ветра. Сравнение таких таблиц с аналогичными "безусловными" позволяет определить, в какие регрессии нужно дополнительно включить факторы, выбранные пользователем в качестве условных.
Как и для коэффициентов корреляции, для коэффициентов детерминации можно строить дерево вкладов координатных интервалов переменных развертки. Оно позволяет скорректировать выборку для достижения более тесной регрессии. Кроме того, выбрав координатный интервал в дереве, можно построить отдельные регрессионные функции во всех его подынтервалах и по результатам расслоить выборку на части с более устойчивой регрессией. В частности, можно построить "иерархическую регрессию", при которой коэффициенты регрессии внутри каждого координатного интервала рассчитываются как поправки к коэффициентам регрессии координатного интервала, следующего вверх по иерархии. При использовании такой регрессии в качестве эмпирической модели, разные коэффициенты выступают как варианты модели.
Как и корреляция, регрессия рассчитывается для фиксированных координатных интервалов каждой переменной сравнения. Как указано выше, проверяется устойчивость регрессии к смене координатного интервала на том же уровне иерархии. Строится также дерево вкладов подынтервалов для выбранных пользователем переменной сравнения и координатного интервала. Возможно также построение иерархической регрессии по дереву выбранной переменной сравнения. При этом, в отличие от иерархической регрессии по дереву переменной значения, разные регрессии в дереве выступают не как варианты, а применяются соответственно значениям переменных сравнения, подаваемым на вход модели.
Возможно также построение отдельной регрессии для каждого диапазона значений независимой или зависимой переменной. В первом случае получаются сплайны с числом узлов, задаваемым пользователем. Во втором случае различные регрессии образуют пакет вариантов, так что выбор подходящего диапазона при использовании такой регрессии в качестве эмпирической модели осуществляется в рамках общей идеологии выбора оптимального варианта.
Для визуализации многофакторной регрессии пользователь выбирает тот фактор, который представляется как абсцисса регрессионной кривой, и фиксирует значения прочих независимых факторов. На коэффициенты регрессии это не влияет.
Из регрессионного анализа возможны следующие переходы.