EHIPS: термины и понятия

БАЗА ДАННЫХ (БД)
любой систематизированный архив измерений. Система умеет считывать данных из баз данные следующих форматов: dbf, Paradox, текст с полями, разделенными запятой, текст с полями фиксированной длины. В остальном организация базы данных практически произвольна: система адаптируется к ней в процессе подключения данной БД, причем пользователь указывает, какие поля БД соответствуют каким переменным, и задает другие подобные установки. Различным уровням иерархии переменной могут соответствовать разные БД. Система тестировалась с БД, включающими данные из следующих источников: для блока выбросов - 2-тп и ПДВ (уровень города) и ежегодные выбросы основных загрязнителей (уровень области); для блока концентраций - измерения постов Росгидромета и пробы Санэпиднадзора (уровень города) и ежегодная статистика превышений ПДК (уровень области); для блока заболеваемости - статталоны поликлиник и данные вызовов Скорой помощи (уровень города) и ежегодная госстатистика (уровень области); для блока смертности - данные загсов (уровень города) и ежегодная госстатистика (уровень области). Имеются также общесистемные БД, включающие географическую информацию об изучаемой территории, в т.ч. численность населения, данные по токсичности различных загрязнителей и др.
[Вверх]

БЛОК (МОДУЛЬ)
совокупность кубов данных, содержащих результаты измерений, модельные прогнозы и фоновые значения, относящиеся к одному типу переменной значения: выбросу, концентрации, риску, заболеваемости или смертности. Блок - наиболее крупный элемент структурирования данных в системе. Блоки однотипны, но каждый связан со специфическими базами данных и моделями.
[Вверх]

-В-

ВЫБОРКА
набор блоков, координатных деревьев и соответствующих им кубов данных, заполненных информацией, выбранной из базы данных. Выборка может заполняться либо "под задачу", т.е. поиском в БД кодов данных, соответствующих координатным интервалам, либо "под БД", т.е. созданием координатных деревьев по тем кодам данных, которые реально имеются в БД. Выборка также может содержать результаты обсчета выборки по моделям на основе исходных данных из БД. Может итеративно уточняться в результате отбрасывания выскакивающих значений или согласования данных из БД с аналогичными расчетами по моделям. Может запоминаться на диск и загружаться с диска во внутреннем формате системы.
[Вверх]

ВЫСКАКИВАЮЩЕЕ ЗНАЧЕНИЕ
так квалифицируются все значения данных, превышающие фон более, чем на заданный порог значимости, но, в отличие от горячих точек, не удовлетворяющие другим критериям, напр., связности вдоль переменной развертки или согласованности с другими переменными. Подлежат удалению из выборки либо могут временно сохраняться как вариант в пакете вариантов.
[Вверх]

ВЫХОДНАЯ ИНФОРМАЦИЯ
специфичная для каждого режима информация, которая включается в формируемый для пользователя выходной документ. Может зависеть от типа пользователя. Типичный пример - портрет ситуации. Настраивается до начала обсчета выборки: выбираются блоки, переменные, уровень иерархии и др., подлежащие включению в выходной документ. Набор настроек выходной информации, зависящий от режима, выводится на экран в виде кнопок.
[Вверх]

ВХОДНАЯ ИНФОРМАЦИЯ
специфичная для каждого режима информация, которая определяет формирование выборки. Настраивается до начала обсчета выборки: выбираются блоки, переменные, уровень иерархии и др., подлежащие включению в выборку. Набор настроек входной информации, зависящий от режима, выводится на экран в виде кнопок.
[Вверх]

-Г-

ГОРЯЧИЕ ТОЧКИ
связные координатные интервалы по одной или нескольким переменным, где переменная значения превышает фоновый уровень значимо по выбранным пользователем критериям. Определяются параллельно с установкой или коррекцией фонового уровня и определением выскакивающих значений. При поиске горячих точек по нескольким переменным, наряду с критериями превышения фона, используются критерии согласованности между различными переменными.
[Вверх]

-Д-

ДАННЫЕ
термин может употребляться

в широком смысле - как любая вообще информация в системе;
как любое наполнение ячеек куба данных;
в узком смысле - как только та часть куба данных, которая заполнена информацией из базы данных, т.е., как правило, результатами измерений, в противоположность информации, получаемой из модельных прогнозов.

[Вверх]

ДЕРЕВО ВКЛАДОВ
распределение значения данных в координатном интервале верхнего уровня иерархии по содержащимся в нем более низким уровням. Напр., дерево вкладов в корреляцию между концентрацией SO₂ и заболеваемостью бронхитом позволяет выявить те координатные интервалы по переменным развертки (время и территория), в которых сосредоточены данные, вносящие наибольший вклад в корреляцию. Аналогично строится дерево вкладов в любой критерий. Используется либо в процессе оптимизации, либо как средство визуализации при экспертном анализе данных, либо как способ дезагрегации данных в процессе решения обратной задачи.
[Вверх]

ДЕРЕВО РЕШЕНИЙ
иерархическая древовидная структура, отражающая последовательные выборы пользователя. В каждом узле производится выбор дальнейшего маршрута вниз по дереву, исходя из значений критерия оптимальности, которые ожидается получить при том или ином выборе. Т.к. оценки ожидаемых значений критерия приближенные и могут не оправдаться при реализации пользовательского выбора, возможен возврат и выбор другой, первоначально отвергнутой ветви дерева. Используется как часть пакета вариантов сценария действий ЛПР по управлению средой и здоровьем.
[Вверх]

-И-

ИСТОЧНИК
координатный интервал одного блока, служащий причинным фактором, определяющим данные в некотором соответственном координатном интервале - приемнике другого блока. Напр., координатный интервал, задающий некую технологию или производство в блоке выбросов, - источник для координатного интервала "Измерительный пост №..." вдоль переменной "Территория" в блоке концентраций. Координатный интервал, задающий экспозиционную группу в блоке риска, - источник сразу для нескольких координатных интервалов переменной "Половозрастная группа" в блоке заболеваемости.
[Вверх]

-К-

КАНАЛ ДАННЫХ
данные для блока первичной оценки, поступающие из предыдущей подсистемы, можно выбирать как из блока итоговой выборки, так и из блока итоговой оценки (разумеется, если для предыдущей подсистемы имеются данные в обеих ветвях). Начало стрелки указывает на источник данных. Переключение канала на другой источник осуществляется щелчком левой кнопки мыши по стрелке, изображающей канал данных для первичной оценки.
[Вверх]

КВАНТИЛЬ
пороговое значение переменной, ниже которого находится заданный процент общего веса ее гистограммы данных. Этот процент называется уровнем квантиля (квантиль уровня 90% и т.д.). Используется для выделения горячих точек и выскакивающих значений, а также как правило агрегации данных (в верхний уровень иерархии помещается некий квантиль гистограммы нижних уровней).
[Вверх]

КЛАСТЕРНЫЙ АНАЛИЗ
создание иерархической группировки данных с последующей записью кластеров в виде координатного дерева. Проводится методом минимизации неопределенности. Используется для уточнения выборки и экспертного анализа групп горячих точек и выскакивающих значений.
[Вверх]

КОД ДАННЫХ
кодовое число или слово в базе данных, которое позволяет отнести ячейку БД к одному из координатных интервалов. Например, координатному интервалу с именем "1 января 1999 г." может соответствовать код данных "1/1/99", координатному интервалу с именем "Дети мужского пола от 0 до 1 года" - код данных "М1" и т.д.
[Вверх]

КООРДИНАТА ЗНАЧЕНИЯ (ПЕРЕМЕННАЯ ЗНАЧЕНИЯ)
переменная, соответствующая основному типу данных блока: объему или концентрации загрязнителя в выбросе - для блока выбросов, числу случаев заболевания - для блока заболеваемости и т.д. Именно ее значение размещается в клетках куба данных. Обычно соответствует ординате графика.
[Вверх]

КООРДИНАТА РАЗВЕРТКИ (ПЕРЕМЕННАЯ РАЗВЕРТКИ)
переменная, играющая роль оси, вдоль которой развертываются данные в портрете ситуации, напр., абсцисса на графике. Одновременно играет роль генератора статистики: вдоль ее дерева координаты производится суммирование данных при вычислении статистических показателей: коэффициента корреляции, коэффициентов регрессии и др.
[Вверх]

КООРДИНАТА СРАВНЕНИЯ (ПЕРЕМЕННАЯ СРАВНЕНИЯ)
переменная, координатный интервал которой фиксирует сечение куба данных, отображаемое в портрете ситуации. Соответствует Z-оси ("глубине") трехмерного графика. Портреты, полученные при разных значениях этой переменной, сравниваются для отбора устойчивых характеристик, отсюда и название. В корреляционной матрице используется "комбинированная" переменная сравнения, составленная из двух, напр. вначале - возможные загрязнители, затем - возможные диагнозы. Она выступает в роли горизонтальной и вертикальной оси матрицы.
[Вверх]

КООРДИНАТНОЕ ДЕРЕВО
совокупность координатных интервалов, относящихся к одной и той же координате, но, возможно, разным уровням иерархии. С указанием правила включения низших интервалов в высшие и правила агрегации данных при переходе от первых ко вторым. Может включать также указание поля базы данных, соответствующего координате, и кодов данных, соответствующих каждому интервалу (напр., интервалу "Вирусная пневмония" по координате "Диагноз" соответствует код данных "480" по МКБ-9). Структура дерева координаты полностью в руках пользователя.
[Вверх]

КООРДИНАТНЫЙ ИНТЕРВАЛ
интервал числовой оси для числовых координат (напр., возраст от 10 до 20 лет) или набор значений - для логических координат (напр., совокупность CO₂, NO₂, SO₂). Может включать координатные подынтервалы более низкого уровня иерархии. Интервалы низшего уровня, не содержащие подынтервалов, (и только они) могут заполняться данными из базы данных. Более высокие части дерева координаты заполняются путем агрегации низших интервалов. Совокупность координатных интервалов различных переменных задает фрагмент пространства переменных в форме параллелепипеда (прямого произведения одномерных интервалов). Такой параллелепипед образует "емкость" или "контейнер", в котором размещаются данные.
[Вверх]

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
система содержит среду для экспертного анализа корреляций между данными различных блоков. Она включает обзор парных корреляций с помощью корреляционной матрицы, автоматическое определение данных, чьи корреляции удовлетворяют пользовательским критериям, визуализацию дерева вкладов в корреляцию и др. Используется для экспертного анализа связей между факторами среды и здоровья, а также для отбора факторов, включаемых в регрессионные модели.
[Вверх]

КОРРЕЛЯЦИОННАЯ МАТРИЦА
визуальное представление коэффициента корреляции между данными, лежащими в координатных интервалах разных блоков. Напр., корреляция между концентрацией загрязнителя SO₂ и заболеваемостью с диагнозом "Бронхит". Строки матрицы - координатные интервалы переменной "загрязнитель", столбцы - координатные интервалы переменной "диагноз", и клетка матрицы на их пересечении дает в цветокоде коэффициент корреляции между ними. Суммирование при расчете корреляции проводится по переменной развертки, которой может быть любая общая для указанных блоков переменная (обычно, пространство и/или время). Переменные сравнения, отличные от строки и столбца, фиксированы, и их изменение дает новую матрицу. Клетки корреляционной матрицы представляют собой "светофор": "горящие" клетки привлекают внимание эксперта к взаимосвязанным факторам.
[Вверх]

КРИТЕРИИ

набор весов или весовых функций, служащих для объединения разнотипных переменных или блоков;
правило, описывающее, что является оптимумом, и используемое в процессе оптимизации; в) правило или число, используемое как порог при разбиении данных по категориям (например, квантиль гистограммы - при разбиении данных на фон, горячие точки и выскакивающие значения). При работе с пакетом вариантов возможно одновременное использование нескольких критериев, например в рамках многокритериальной оптимизации.

[Вверх]

КУБ ДАННЫХ
многомерный набор ячеек, размещенный в пространстве переменных, имеющий форму параллелепипеда и заполненный данными. Оси куба, как правило, соответствуют переменным развертки и переменным сравнения, а заполнение - переменной значения. Куб является основной внутренней структурой данных системы. При считывании из базы данных данные переводятся именно в эту внутреннюю структуру. Размещается в памяти и может быть сохранен на диск и считан оттуда. Данные в кубе неявно организованы в иерархическую структуру, соответствующую уровням иерархии деревьев координат - осей. У каждого блока системы имеется 3 основных куба данных: для данных из базы данных, подключенной к блоку; для модельных прогнозов и для фона.
[Вверх]

-Л-

ЛАГ
сдвиг между соответствующими друг другу координатными интервалами по одной и той же переменной в разных блоках. Напр., сдвиг по времени между горячей точкой в блоке риска и вызванной ею горячей точкой в блоке заболеваемости; сдвиг в пространстве между положением источника выброса и вызванным им максимумом концентрации загрязнителя; сдвиг по возрасту между возрастной группой заболеваемости и соответствующей возрастной группой смертности.
[Вверх]

ЛИЦО, ПРИНИМАЮЩЕЕ РЕШЕНИЯ (ЛПР)
, основной адресат выходной информации системы: глава муниципальной администрации, главный санитарный врач, председатель комитета по экологии и т.д. Работает с системой через своих ведомственных экспертов.
[Вверх]

-М-

МКБ
международный классификатор болезней. В данной работе использовался МКБ-9.
[Вверх]

МОДЕЛЬ
алгоритм преобразования данных при переходе от блока к другому блоку. Предметные модели отражают сущность процесса, который порождает причинную связь между данными. Напр., модель распространения загрязнений, связывающая данные об источнике выброса с данными о концентрациях в среде, отражает физику атмосферного переноса. Регрессионные модели строятся по неким "обучающим" данным из связываемых блоков, и затем экстраполируются на другие, "рабочие" данные. Модели используются также для переноса данных "в обратном направлении" при решении обратной задачи.
[Вверх]

МОДЕЛЬ БАЗЫ ДАННЫХ
набор установок, определяющих порядок считывания из базы данных в куб данных при создании выборки. Задает соответствие между полями БД и переменными, между кодами данных и координатными интервалами и др. Записывается в специальный файл под именем, которое может быть затем использовано в координатных деревьях при задании выборки.
[Вверх]

МОДЕЛЬ РАСПРОСТРАНЕНИЯ ВЫБРОСА
принимает в качестве входных данные блока выбросов о параметрах источника выброса и метеоданные. Выдает в блок концентраций ожидаемые концентрации в заказанных точках и в моменты времени, соответствующие метеоданным. Использует, по выбору эксперта, либо алгоритм ISC3ST, разработанный US EPA, либо алгоритм ОНД-86, разработанный в ГГО им. Воейкова. Параметры модели задают тип местности и способ использования метеоданных.
[Вверх]

МОДЕЛЬ ЗАБОЛЕВАЕМОСТИ
принимает в качестве входных данные блока рисков (риск по методике EPA для канцерогенов и риск по методике С.М.Новикова для неканцерогенов) и данные о половозрастном составе экспозиционных групп, для которых рассчитан риск. Выдает в блок заболеваемости данные об ожидаемой частоте обращаемости выбранных половозрастных групп населения по достаточно агрегированным группам диагнозов. Параметры модели устанавливают связь между уровнем риска и тяжестью эфектов для здоровья, а также лаги между воздействием на здоровье и проявлением в виде обращаемости.
[Вверх]

МОДЕЛЬ СМЕРТНОСТИ
принимает в качестве входных данные блока заболеваемости об обращаемости по тем или иным группам диагнозов. Выдает в блок смертности ожидаемую смертность, связанную с этими заболеваниями, с разбивкой по причинам смерти и с лагами по времени и возрасту. Параметры модели устанавливают динамику развития заболевания и ожидаемые сценарии миграции носителей заболевания между включенными в выборку территориями.
[Вверх]

МОДЕЛЬ ФОРМИРОВАНИЯ РИСКА
принимает в качестве входных данные блока концентраций о распределении концентраций загрязнителей во времени и пространстве, а также данные о сценариях экспозиции выбранных экспозиционных групп населения. Выдает в блок риска 3 типа рисков с разбивкой по экспозиционным группам:

пожизненный риск для канцерогенов, рассчитанный по методике EPA в предположении хронической экспозиции к концентрации, равной входной;
текущий риск для неканцерогенов по системе EPA в виде индексов опасности;
текущий риск по методике С.М.Новикова для неканцерогенов, позволяющий оценить ожидаемые эффекты для здоровья.

Параметрами модели являются характеристики сценариев экспозиции.
[Вверх]

МОДЕЛЬНЫЙ ПРОГНОЗ
решение прямой задачи переноса данных из координатных интервалов источника в координатные интервалы приемника по некоторой модели. Напр., прогноз распространения концентрации загрязнителя во времени и пространстве от источника, согласно модели атмосферного переноса. Прогноз заболеваемости для половозрастной группы, исходя из распределения риска по экспозиционным группам. Прогноз может совершаться по любой переменной, не обязательно по времени.
[Вверх]

-Н-

НЕВЯЗКА
куб данных, заполненный разностью между двумя другими кубами данных той же структуры - как правило, между модельным прогнозом и соответствующими реальными данными.
[Вверх]

НЕОПРЕДЕЛЕННОСТЬ
мера изменчивости данных

вдоль переменной развертки (напр., внутригрупповая дисперсия);
вдоль переменной сравнения (напр., межгрупповая дисперсия).

Может определяться по отношению к различным системам отсчета, напр., невязка - неопределенность данных относительно модельного прогноза как системы отсчета. Обобщенная характеристика неопределенности - отношение внутригрупповой и межгрупповой непределенности. К нему сводятся такие используемые в системе статистические показатели, как коэффициент корреляции, показатель тесноты регрессии, характеристики выделенности кластера и т.п.В зависимости от вида представления данных, неопределенность изображается доверительными кривыми (в регрессии), насыщенностью цвета (в корреляционной матрице) и т.п. Для объединения показателей неопределенности, относящихся к разным переменным или блокам, используются те же весовые критерии, что и для оптимизации.
[Вверх]

НЕВИДИМЫЕ ПЕРЕМЕННЫЕ
те из переменных сравнения, присутствующих в кубе данных, которые не отображаются на экран: ни строкой/столбцом таблицы, ни осью глубины графика. Пользователь выбирает фиксированный координатный интервал по таким переменным. Изменяя этот выбор, можно "сканировать" куб данных каким-либо его сечением, смещаемым вдоль невидимой переменной.
[Вверх]

-О-

ОБРАТНАЯ ЗАДАЧА
обращение модельного прогноза: перенос данных из координатных интервалов приемника в координатные интервалы источника в рамках той же модели, по которой осуществляется прогноз. Напр., обращение наблюдаемого пространственного распределения концентраций по модели распространения выброса с целью идентификации предприятий - источников загрязнения. Также - обращение правила агрегации: перенос данных из верхних уровней иерархии в нижние (дезагрегация), либо перенос параметров модели (точнее, поправок к ним) с верхних уровней модельной иерархии на нижние. Обратные задачи, как правило, неустойчивы, и требуется ограничить класс их возможных решений. Это делается либо указанием критериев приемлемости решения, либо предварительным решением прямой задачи для реперных ситуаций, между которыми затем ищется решение обратной задачи.
[Вверх]

ОБСЧЕТ ВЫБОРКИ
выполнение операций обработки, предусмотренных текущим режимом. Включает как операции настройки, выполняемые экспертом вручную, так и операции, выполняемые автоматически, в конвейерном режиме, на основе установленных настроек. Операции настройки включают задание установок входной и выходной информации, уточнение выборки, формирование пакета вариантов, подгонку модельных параметров на этапе обучения модели, пробные модельные прогнозы, поиск закономерностей в выборке методами регрессионного, корреляционного, кластерного или паттерн-анализа. Типичные конвейерные операции - агрегация данных внутри координатного дерева, модельные прогнозы в рабочем режиме, оценка итоговой неопределенности расчета, построение пакета выходной информации. Они проводятся последовательно от входного блока системы, установленного при задании входной информации, до выходного блока, установленного при задании выходной информации. Обсчет выборки может включать итеративные операции, такие как согласование модельных прогнозов и реальных измерений, решение обратной задачи или оптимизация. Они повторяются до выполнения заданного пользователем _критерия остановки.
[Вверх]

ОПЕРАЦИИ ОБРАБОТКИ ИНФОРМАЦИИ
последовательность операций, задающих технологию обсчета выборки. Зависит от режима обработки. Отображается на экране набором кнопок, которые включаются в соответствующей режиму последовательности. Образуют "конвейер" обработки информации. Помимо этих операций, в системе имеются операции анализа данных - регрессионного, корреляционного, кластерного, паттерн-анализа и др., которые не образуют жесткой последовательности. Они предназначены для настройки выборки и модельных параметров экспертом.
[Вверх]

ОПТИМИЗАЦИЯ
поиск экстремума одного или нескольких критериев с помощью перебора вариантов или варьирования численных параметров. Проводится методом "предсказание - уточнение". Так, оптимизация параметров модели используется при подгонке модельного прогноза под данные. Оптимизация правила агрегации проводится при решении обратной задачи, когда необходимо распределить коррекцию, сделанную для координатного интервала, по его подынтервалам. Оптимизация пакета вариантов при обсчете выборки в конвейерном режиме обычно проводится в конечной точке конвейера и сводится к выбору одного варианта и расчету меры его неопределенности. В процессе оптимизации могут создаваться новые координатные интервалы и уровни иерархии.
[Вверх]

-П-

ПАКЕТ ВАРИАНТОВ
входящий в выборку набор подвыборок, имеющих одинаковую структуру и различающихся координатными деревьями, числовым заполнением кубов данных либо модельными параметрами. Обсчет подвыборок проводится параллельно, одними и теми же методами. В предусмотренных режимом обсчета точках конвейера обработки производится сжатие пакета вариантов. При этом оставляется только подвыборка, оптимальная по пользовательским критериям, а по вариациям данных между остальными подвыборками рассчитываются показатели неопределенности. После сжатия вокруг отобранной подвыборки может быть построен новый пакет вариантов, если это предусмотрено режимом.
[Вверх]

ПАТТЕРН-АНАЛИЗ
выявление паттернов ("рисунков") изменчивости данных вдоль переменной развертки, которые устойчивы к сдвигу по переменным сравнения. Использует модельную аппроксимацию изменчивости. Применяется как средство выделения устойчивых портретов ситуации, а также для настройки параметров модели по правильности воспроизведения паттернов, имеющихся в данных.
[Вверх]

ПАРАМЕТРЫ МОДЕЛИ
численные коэффициенты, необходимые для работы модели, а также выбираемые экспертом дискретные установки. Включают и выбор уровня иерархии для многоуровневых моделей. Могут автоматически оптимизироваться в ходе решения обратной задачи подгонки модели под данные. Для этого необходимые параметры должны быть явно указаны как подгоняемые.
[Вверх]

ПЕРЕМЕННАЯ (КООРДИНАТА)
информационный признак, примерно соответствующий понятию поля в базе данных. Система включает следующие переменные: время, пространство (территория), загрязнитель, среда (воздух, вода и т.п.), источник выброса загрязнителя, тип риска, экспозиционная группа населения, половозрастная группа населения, диагноз. Каждая переменная структурирована как иерархическое дерево координаты, состоящее из координатных интервалов разного уровня иерархии. Переменные могут быть числовыми (время, возраст) или логическими (вещество-загрязнитель). В кубе данных все переменные равноправны. Однако, в зависимости от выбора проекции куба данных, переменная может играть роль переменной развертки, переменной значения или переменной сравнения. По этим "ролям" переменные распределяет пользователь в процессе просмотра данных.
[Вверх]

ПОРТРЕТ СИТУАЦИИ
наиболее выразительная, с точки зрения задачи пользователя, проекция совокупности кубов данных, описывающих задачу, в сокращенное, обычно 2- или 3-мерное пространство переменных. Включает выбор базового уровня иерархии данных для просмотра, выбор адекватных лагов между переменными, выбор фиксированных значений для невидимых переменных.
[Вверх]

ПРИЕМНИК
см. "Источник".
[Вверх]

ПРОЕКЦИЯ КУБА ДАННЫХ
представление куба данных, соответствующее конкретному выбору переменных развертки, переменных сравнения, невидимых переменных, визуализируемых уровней иерархии и др. Для однозначности представления данных необходимо зафиксировать сечение куба данных, выбираемое в рамках данной проекции.
[Вверх]

ПРОСТРАНСТВО КООРДИНАТ (ПРОСТРАНСТВО ПЕРЕМЕННЫХ)
многомерное абстрактное пространство, оси которого соответствуют переменным (координатам). Служит для описания данных и моделей, включающих несколько переменных. Куб данных - заполненный данными фрагмент такого пространства.
[Вверх]

ПРАВИЛО АГРЕГАЦИИ
правило вычисления значения данных для какого-либо координатного интервала по значениям данных содержащихся в нем подынтервалов следующего уровня иерархии. Наиболее простые правила агрегации - усреднение и суммирование данных. Более сложные правила требуются при агрегации угловых данных, данных по риску с логарифмической зависимостью от концентрации и др. Правило используется также для обратной операции - дезагрегации (распределения измененных значений более высоких интервалов по их подынтервалам).
[Вверх]

ПРЕДМЕТНЫЕ МОДЕЛИ
модели, куда заложено знание о существе процесса, порождающего трансформацию данных. В системе 4 модели такого типа: модель распространения выброса, модель формирования риска, модель заболеваемости и модель смертности. Первая ответственна за передачу данных между блоками источника выброса и концентраций, вторая - между блоками концентраций и риска, третья - между блоками риска и заболеваемости, четвертая - между блоками заболеваемости и смертности.
[Вверх]

ПРИОРИТЕТЫ
набор рассчитанных системой ситуаций, упорядоченный согласно пользовательским критериям важности, установленным как веса для отдельных переменных и блоков и их комбинаций. Представляют собой основную выходную информацию системы, предназначенную для ЛПР.
[Вверх]

-Р-

РЕГРЕССИОННЫЙ АНАЛИЗ
система обеспечивает эксперту среду для основных операций по построению регрессионной модели связи данных различных блоков. Это включает выбор переменных, определение степени регрессии и уровня иерархии, на котором она проводится, селекцию и отсев выскакивающих значений, визуализацию дерева вкладов в регрессию и др. Используется как средство экспертного анализа связей между факторами среды и здоровья, а также как способ обучения регрессионной модели для последующего применения в рабочем режиме модельных прогнозов.
[Вверх]

РЕГРЕССИОННЫЕ МОДЕЛИ
модели, описывающие некоторую переменную Z блока, куда подключен выход модели, как функцию Z=F(X,Y) некоторых переменных X, Y блока, куда подключен вход модели. Независимых переменных может быть и больше или меньше, чем две. Параметрами модели являются коэффициенты разложения функции F в ряд - обычно по полиномам. Кроме того, имеются установочные параметры - порядок полинома, допустимое число независимых переменных и др. Параметры формируются на этапе подгонки модели к обучающим данным, в которые входят значения X, Y и Z. На рабочем этапе модель используется для прогноза значений Z по значениям X и Y или для решения обратной задачи восстановления значений X, Y по значениям Z. Возможна комбинация работы и обучения: формируется невязка прогноза с реальными измерениями Z, и для нее решается обратная задача, в результате чего корректируются либо значения X, Y, либо параметры модели.
[Вверх]

РЕПЕРНЫЕ СИТУАЦИИ
пакет вариантов, состоящий из ситуаций, которые ограничивают пространство возможных решений обратной задачи. Содержит модельные прогнозы, представляющие собой решения соответствующих прямых задач. Выборка исходных данных для этого создается пользователем.
[Вверх]

РЕЖИМ ОБРАБОТКИ ИНФОРМАЦИИ
в настоящее время в системе имеется 7 режимов: обзор информации; модельный прогноз; выделение горячих точек; определение приоритетных проблем; решение обратных задач; поиск связей между данными о среде и здоровье; отладка и адаптация моделей. В силу открытости системы, этот набор может быть изменен пользователем, в т.ч. созданы дополнительные режимы. Каждый режим задает набор установок входной и выходной информации, которые должны быть заданы пользователем, и набор операций обработки, которые должны быть выполнены вручную и/или автоматически.
[Вверх]

РИСК
условное название численной меры, характеризующей ожидаемую тяжесть последствий для здоровья в зависимости от загрязнения среды. Индивидуальный риск определяется в зависимости от сценария экспозиции индивида к загрязнению среды. Популяционный риск определяется для популяции в целом, в зависимости от распеределения по ней различных сценариев экспозиции и численности экспозиционных групп. Существуют различные типы риска. Некоторые из них имеют прямой вероятностный смысл как "вероятность получить заболевание данной группы за заданный период времени". Другие имеют достаточно расплывчатый смысл "индекса общей опасности для здоровья, связанной с данным загрязнителем". В моделях формирования риска, используемых в системе, задействованы 3 различных типа риска: один - для канцерогенов, два - для неканцерогенов.
[Вверх]

-С-

СЕЧЕНИЕ ДАННЫХ
подмножество куба данных с меньшей размерностью, получаемое фиксацией одной или нескольких переменных сравнения. Напр., сечение модельного прогноза риска при фиксированном загрязнителе.
[Вверх]

СИСТЕМА ОТСЧЕТА
куб данных, относительно которого рассматриваются данные из другого куба. "Относительно" может означать либо деление, либо вычитание. Напр., представление концентраций относительно ПДК - деление, представление числа случаев заболевания относительно фона - вычитание. Система отсчета не обязана задаваться в явном виде по всем координатам: для расчета смертности "на 1000 чел." задается в качестве системы отсчета куб данных "население по территориям" с одной переменной - "территория".
[Вверх]

СИТУАЦИЯ
совокупность информации (как данных, так и модельных прогнозов) для нескольких, обычно всех, блоков системы. Содержит уровни иерархии: может включать "подситуации", соответствующие тому или иному выбору уровня координатных интервалов в деревьях координат одного или нескольких блоков.
[Вверх]

СЦЕНАРИЙ ЭКСПОЗИЦИИ
модель коэффициентов связи концентрации загрязнителя с индивидуальным риском, описывающая их зависимость от принадлежности индивида к той или иной экспозиционной группе. Эти группы различаются половозрастным и профессиональным составом, территорией и временным интервалом, где происходит экспозиция, и т.д. Сценарии экспозиции вырабатываются экспертом применительно к той или иной конкретной территории, однако существуют и типовые сценарии. Помимо коэффициентов, связанных с экспозицией, зависимость риска от концентрации включает коэффициент токсичности загрязнителя, который берется из специальных баз данных, прилагаемых к системе.
[Вверх]

-Т-

ТИП ПОЛЬЗОВАТЕЛЯ
система предусматривает два типа пользователей: ЛПР и эксперт. Они различаются функционально: ЛПР работает с готовой выходной информацией и не может самостоятельно произвести повторный обсчет выборки. Если в функции ЛПР входит отбор одного из нескольких вариантов, все они должны быть включены в выходную информацию. Функция эксперта - постановка задачи, создание пакета вариантов ее решения, его настройка, в т.ч. с повторным обсчетом задачи, и селекция результатов для включения в выходную информацию.
[Вверх]

-У-

УРОВЕНЬ ИЕРАРХИИ
характеристика расположения координатного интервала в дереве координаты. Практически по всем координатам интервалы имеют естественную иерархическую структуру: момент времени-день-месяц-год; точка-район-город-область; годовая возрастная группа-стандартная возрастная группа-все возраста данного пола - все население; диагноз по МКБ-группа диагнозов 3 уровня-... Однако, пользователь может создавать любые другие уровни иерархии. При этом необходимо обязательно включать те уровни, которые представлены в доступных пользователю базах данных. Также - характеристика компонент модели. Например, регрессионная модель F(X,Y) может быть произведением двух подмоделей-компонент более низкого уровня: f(X) и g(Y).
[Вверх]

-Ф-

ФОН
набор данных, который можно считать "типичным", за вычетом горячих точек и выскакивающих значений. Для одномерного набора данных вдоль некоторой переменной развертки и при фиксированных остальных переменных, фон - константа. Для всего куба данных фоновый куб получается согласованием этих констант по пользовательским критериям при всевозможных способах выбора переменной развертки и переменных сравнения. В результате фон получается изменяющимся вдоль всех переменных. Эта зависимость аппроксимируется моделью. Фоновый куб данных блока используется в качестве одной из систем отсчета.
[Вверх]

-Э-

ЭКСПЕРТ

представитель ведомства-пользователя системы, обученный интерпретации выходной информации системы и постановке задач;
сотрудник команды, обслуживающей систему, ответственный за методы обработки информации;
специалист в предметной области (эколог, эпидемиолог,..), поддерживающий работу системы или использующий ее для специализированных исследований.

[Вверх]