Логлинейный анализ в таблицах частот

Логлинейный анализ в таблицах частот

Общее назначение

Одним из основных методов разведочного анализа данных является кросстабуляция. Например, в медицине можно табулировать частоты различных симптомов заболевания по возрасту и полу пациентов; в области образования можно табулировать число учащихся, покинувших среднюю школу в зависимости от возраста, пола и этнического происхождения; экономист может табулировать число банкротств в зависимости от вида промышленности, региона и начального капитала; исследователь спроса может табулировать предпочтения потребителя в зависимости от вида товара, возраста и пола и т.д. Во всех этих случаях результаты представляются в виде многовходовых (многомерных) таблиц частот, то есть в виде таблиц сопряженности с двумя или более факторами.

Логлинейный анализ предлагает более глубокие методы исследования этих таблиц. А именно, он позволяет проверить статистическую значимость (см. раздел Элементарные понятия статистики) различных факторов и взаимодействий, присутствующих в таблице сопряженности (например, пол, место жительства и т.п.).

Анализ соответствий является описательным/разведочным методом, созданным для анализа сложных таблиц, содержащих некоторые меры соответствий между переменными - столбцами и переменными - строками. Получаемые результаты содержат информацию, похожую по своей природе на результаты Факторного анализа. Они позволяют изучить структуру категориальных переменных, включенных в таблицу.

В начало

Двумерные таблицы частот

Обзор методов логлинейного анализа начнем с наиболее простой таблицы сопряженности 2 x 2. Представьте, что вы интересуетесь зависимостью между возрастом людей и сединой волос. Вы имеете выборку из 100 человек и определяете, у кого из них седые волосы. Вы также записываете примерный возраст людей. Результаты этого исследования представлены в таблице следующим образом:

Седые волосы	Возраст		Всего
Седые волосы	до 40 лет	от 40 и старше	Всего
Нет Да	40 20	5 35	45 55
Всего	60	40	100

Это и есть простейшая таблица сопряженности 2 x 2 (название ее понятно: в таблице имеется две строки и два столбца, соответствующие двум сопряженным переменным, каждая из которых принимает два значения). Далее, в процессе интерпретации результатов этого маленького анализа, вы познакомитесь с терминологией, которая будет полезна при анализе более сложных таблицы.

Объясняющие переменные и переменные отклика. В теории множественной регрессии и в дисперсионном анализе обычно различают независимые и зависимые переменные. Зависимые переменные, это те переменные, поведение которых исследователь пытается "объяснить", то есть он предполагает, что эти переменные зависят от независимых переменных и хочет эту зависимость (связь) оценить. Факторы в таблицах 2x2 могут также рассматриваться с этой точки зрения: рассмотрите цвет волос (седой, не седой) как зависимую переменную, а возраст - как независимую. Альтернативные термины, которые используются при анализе таблиц сопряженности (называемых иногда также кросс-таблицами) - это переменные отклика и объясняющие переменные, соответственно. Переменные отклика - это те переменные, которые изменяются в ответ на изменение объясняющих переменных. Поэтому в приведенной выше таблице цвет волос можно рассматривать как переменную отклика, а возраст - как объясняющую (независимую) переменную.

Подгонка маргинальных частот. Вернемся теперь к анализу нашего примера таблицы. Вы можете спросить, как выглядела бы таблица, если бы между переменными не было зависимости (нулевая гипотеза). Не вдаваясь в детали, можно ожидать, что в таком случае частоты в каждой ячейке будут пропорциональны маргинальным частотам, т.е. частотам, расположенным на краях таблицы (строки и столбцы Всего). Для примера рассмотрим таблицу:

Седые волосы	Возраст		Всего
Седые волосы	до 40 лет	от 40 и старше	Всего
Нет Да	27 33	18 22	45 55
Всего	60	40	100

Здесь маргинальные частоты показаны в отдельных ячейках по краям таблицы. Вы видите, что маргинальные частоты в последней строке равны сумме частот в столбцах (60 = 27+33, 40 = 18+22), а маргинальные частоты в последнем столбце равны сумме частот в строках (45 = 27+18, 55 = 33+22). Заметим далее, что 27/33=18/22=45/55 и 27/18=33/22=60/40. При заданных маргинальных частотах в ячейках содержатся частоты, которые следовало бы ожидать при отсутствии связи между возрастом и цветом волос. В отличие от данной таблицы, таблица, приведенная выше, показывает зависимость между двумя табулированными переменными. Для нее мы имеем соотношение: 40 > (40+5)*(40+20)/100 т.к. наблюдается меньше, чем ожидается при нулевой гипотезе, людей без седых волос при возрасте менее 40 лет и повышенное число людей с седыми волосами для возраста больше 40 лет. Другими словами, возраст и седина положительно связаны друг с другом.

Этот пример поясняет общий принцип, на котором основан логлинейный анализ: имея маргинальные суммы частоты для двух (или более) факторов вы можете вычислить частоты в ячейках, которые следовало бы ожидать при отсутствии связи между факторами. Статистически значимые отклонения наблюдаемых частот от ожидаемых указывают на зависимость между табулированными переменными.

Подход, основанный на подгонке модели. Можно сказать, что подгонка модели для двух переменных (возраст и цвет волос) сводится к вычислению частот в ячейках таблицы на основании маргинальных частот (сумм по строкам и по столбцам). Значимые отклонения наблюдаемых частот от ожидаемых указывают на несогласие с гипотезой независимости двух переменных, т.е. на наличие связи (в данном примере на наличие связи (зависимости) между возрастом и цветом волос.

В начало

Многомерные таблицы частот

Рассуждения, проведенные для таблицы 2 на 2, можно обобщить на более сложные таблицы. Предположим, что имеется третья переменная, показывающая имели, или не имели люди, попавшие в выборку, стрессы на работе. Так как вы интересуетесь влиянием стресса на цвет волос, переменную Стресс следует рассматривать как объясняющую. (Заметим, если "перевернуть" задачу и исследовать влияние седых волос на стресс, то стресс должен рассматриваться как отклик, а цвет волос будет уже объясняющей переменной.) В итоге мы получим таблицу частот с тремя входами.

Модель подгонки. Предыдущие рассуждения также применимы к анализу этой таблицы. Однако можно рассмотреть более сложные модели. Например, вы можете начать с гипотезы о независимости факторов. Как и ранее, ожидаемые частоты в этом случае должны соответствовать, т.е. быть пропорциональны, маргинальным частотам. Если возникают какие-либо значимые отклонения от этого соответствия (пропорциональности частот в ячейках и маргинальных частот), то гипотезу о независимости табулированных переменных следует отклонить.

Эффекты взаимодействия. Другой очевидной моделью является модель, в которой возраст и стресс связаны с цветом волос, но ни возраст, ни стресс не взаимодействуют в своем влиянии на цвет волос (иными словами, их влияние независимо). В этом случае нужно одновременно подобрать маргинальные суммы в двумерной (двухвходовой) таблице для возраста и цвета волос, полученной суммированием по уровням стресса, и для двумерной таблицы для стресса и цвета волос, полученной суммированием по уровням возраста. Если эта модель не согласуется с данными, то вы можете заключить, что возраст, стресс и цвет волос являются полностью взаимосвязанными (взаимозависимыми). Другими словами, что возраст и стресс взаимодействуют в своем влиянии на зависимую переменную.

Понятие взаимодействия, рассматриваемое здесь, аналогично к понятию взаимодействия в дисперсионном анализе. Например, взаимодействие возраста и стресса можно интерпретировать как изменение зависимости между возрастом и цветом волос под влиянием стресса. Хотя возраст приводит только к небольшому поседению в отсутствие стресса, он оказывает весьма большое влияние в присутствии стресса. Другими словами, влияние возраста и стресса на поседение не аддитивно. Если вы не знакомы с концепцией взаимодействия, то можете прочитать об этом в разделе Вводный обзор главы Дисперсионный анализ. Интерпретация результатов логлинейного анализа многовходовых таблиц часто похожа на интерпретацию результатов дисперсионного анализа (ANOVA).

Итеративная пропорциональная подгонка. Вычисление ожидаемых частот значительно усложняется, когда таблица содержит более двух факторов. Тем не менее, они тоже могут быть вычислены, и поэтому, рассуждения, относительно таблиц типа 2x2 применимы к более сложным таблицам. Широко используемым методом вычисления ожидаемых частот является метод итеративной пропорциональной подгонки.

В начало

Логлинейная модель

Термин логлинейный (или логарифмически-линейный) происходит из-за того, что с помощью логарифмического преобразования можно переформулировать задачу анализа многомерных таблиц частот в терминах дисперсионного анализа. В частности, многовходовую таблицу частот можно рассматривать как отражение различных главных и взаимодействующих влияний, которые складываются вместе линейным образом. Бишоп, Файенберг и Холланд (Bishop, Fienberg, Holland, 1974) приводят подробное описание того, каким образом можно вывести логлинейные уравнения, выражающие соотношения между факторами в многовходовых таблицах частот.

В начало

Согласие

В предшествующем обсуждении была сделана ссылка на "значимость" отклонений наблюдаемых частот от ожидаемых. Можно вычислить статистическую значимость этого отклонения с помощью критерия хи-квадрат. Модуль Логлинейный анализ вычисляет два типа статистики хи-квадрат: традиционную статистику хи-квадрат Пирсона и статистику максимума отношения правдоподобия хи-квадрат (термин отношение правдоподобия был впервые использован в работе Neyman and Pearson, 1931; термин максимум правдоподобия был впервые использован в работе Fisher, 1922a). На практике интерпретация этих двух статистик хи-квадрат в общем случае схожа. Оба критерия оценивают, являются ли ожидаемые частоты в ячейках для соответствующей модели значимо отличающимися от наблюдаемых частот или нет. Если отличие значимо, то гипотеза об отсутствии связей отвергается.

Просмотр и отображение остаточных частот. После того, как модель выбрана, хорошей идеей, конечно, является исследование остаточные частоты. По определению, остаточные частоты равны разности наблюдаемых и ожидаемых частот. Если модель согласуется с таблицей, все остаточные частоты будут представлять собой " остаточный шум", то есть, состоять из положительных и отрицательных значений примерно одинакового размаха, случайным образом распределенных по всем ячейкам таблицы.

Статистическая значимость эффектов. Статистики хи-квадрат для моделей, связанных иерархически друг с другом или иерархически вкладывающихся друг в друга, могут сравниваться непосредственно. В общем случае, мы говорим, что две модели связаны иерархически друг с другом, если одна из них может быть получена из другой добавлением членов (переменных или взаимодействий) или путем их удаления (но не того и другого одновременно). Можно оценить разницу между статистиками хи-квадрат для двух моделей на основании разности между их степенями свободы. Если статистика хи-квадрат для разности значима, то можно заключить, что трехфакторная модель взаимодействия дает значимо лучшее согласие для наблюдаемой таблицы, чем модель без этого взаимодействия. Поэтому трехфакторное взаимодействие является статистически значимым.

В общем случае, две модели иерархически связаны друг с другом, если одна может быть получена из другой добавлением некоторых членов (переменных или взаимодействий) или удалением некоторых членов (но не тем и другим одновременно).

В начало

Автоматическая подгонка модели

Когда анализируются четырехмерные таблицы или таблицы с большим числом измерений, нахождение наилучшей модели может оказаться достаточно трудоемким. С целью облегчения поиска "хорошей модели" по имеющимся данным вы можете использовать автоматическую подгонку модели. Общая логика этого алгоритма следующая. Сначала программа подгоняет модель, в которой нет связей между факторами. Если она отвергается (т.е. соответствующая статистика хи-квадрат имеет значимую величину), то подгоняется модель со всеми возможными взаимодействиями двух факторов. Если эта модель тоже не принимается, то программа проверит модель со всеми трехфакторными взаимодействиями и т.д. Теперь предположим, что в ходе этого процесса установлено, что модель со всеми двухфакторными взаимодействиями подходит для имеющихся данных. Тогда программа начнет устранять двухфакторные взаимодействия, которые не являются статистически значимыми. Результирующей моделью станет такая модель, которая включает наименьшее необходимое для согласия число взаимодействующих факторов.

В начало