БАЗА ДАННЫХ (БД)
любой систематизированный архив измерений. Система умеет считывать данных из баз данные следующих форматов: dbf, Paradox, текст с полями, разделенными запятой, текст с полями фиксированной длины. В остальном организация базы данных практически произвольна: система адаптируется к ней в процессе подключения данной БД, причем пользователь указывает, какие поля БД соответствуют каким переменным, и задает другие подобные установки. Различным уровням иерархии переменной могут соответствовать разные БД. Система тестировалась с БД, включающими данные из следующих источников: для блока выбросов - 2-тп и ПДВ (уровень города) и ежегодные выбросы основных загрязнителей (уровень области); для блока концентраций - измерения постов Росгидромета и пробы Санэпиднадзора (уровень города) и ежегодная статистика превышений ПДК (уровень области); для блока заболеваемости - статталоны поликлиник и данные вызовов Скорой помощи (уровень города) и ежегодная госстатистика (уровень области); для блока смертности - данные загсов (уровень города) и ежегодная госстатистика (уровень области). Имеются также общесистемные БД, включающие географическую информацию об изучаемой территории, в т.ч. численность населения, данные по токсичности различных загрязнителей и др. [Вверх]
БЛОК (МОДУЛЬ)
совокупность кубов данных, содержащих результаты измерений, модельные прогнозы и фоновые значения, относящиеся к одному типу переменной значения: выбросу, концентрации, риску, заболеваемости или смертности. Блок - наиболее крупный элемент структурирования данных в системе. Блоки однотипны, но каждый связан со специфическими базами данных и моделями. [Вверх]
-В-
ВЫБОРКА
набор блоков, координатных деревьев и соответствующих им кубов данных, заполненных информацией, выбранной из базы данных. Выборка может заполняться либо "под задачу", т.е. поиском в БД кодов данных, соответствующих координатным интервалам, либо "под БД", т.е. созданием координатных деревьев по тем кодам данных, которые реально имеются в БД. Выборка также может содержать результаты обсчета выборки по моделям на основе исходных данных из БД. Может итеративно уточняться в результате отбрасывания выскакивающих значений или согласования данных из БД с аналогичными расчетами по моделям. Может запоминаться на диск и загружаться с диска во внутреннем формате системы. [Вверх]
ГОРЯЧИЕ ТОЧКИ
связные координатные интервалы по одной или нескольким переменным, где переменная значения превышает фоновый уровень значимо по выбранным пользователем критериям. Определяются параллельно с установкой или коррекцией фонового уровня и определением выскакивающих значений. При поиске горячих точек по нескольким переменным, наряду с критериями превышения фона, используются критерии согласованности между различными переменными. [Вверх]
в узком смысле - как только та часть куба данных, которая заполнена информацией из базы данных, т.е., как правило, результатами измерений, в противоположность информации, получаемой из модельных прогнозов.
ДЕРЕВО ВКЛАДОВ
распределение значения данных в координатном интервале верхнего уровня иерархии по содержащимся в нем более низким уровням. Напр., дерево вкладов в корреляцию между концентрацией SO2 и заболеваемостью бронхитом позволяет выявить те координатные интервалы по переменным развертки (время и территория), в которых сосредоточены данные, вносящие наибольший вклад в корреляцию. Аналогично строится дерево вкладов в любой критерий. Используется либо в процессе оптимизации, либо как средство визуализации при экспертном анализе данных, либо как способ дезагрегации данных в процессе решения обратной задачи. [Вверх]
ДЕРЕВО РЕШЕНИЙ иерархическая древовидная структура, отражающая последовательные выборы пользователя. В каждом узле производится выбор дальнейшего маршрута вниз по дереву, исходя из значений критерия оптимальности, которые ожидается получить при том или ином выборе. Т.к. оценки ожидаемых значений критерия приближенные и могут не оправдаться при реализации пользовательского выбора, возможен возврат и выбор другой, первоначально отвергнутой ветви дерева. Используется как часть пакета вариантовсценария действий ЛПР по управлению средой и здоровьем. [Вверх]
-И-
ИСТОЧНИК координатный интервал одного блока, служащий причинным фактором, определяющим данные в некотором соответственном координатном интервале - приемнике другого блока. Напр., координатный интервал, задающий некую технологию или производство в блоке выбросов, - источник для координатного интервала "Измерительный пост №..." вдоль переменной "Территория" в блоке концентраций. Координатный интервал, задающий экспозиционную группу в блоке риска, - источник сразу для нескольких координатных интервалов переменной "Половозрастная группа" в блоке заболеваемости. [Вверх]
-К-
КАНАЛ ДАННЫХ
данные для блока первичной оценки, поступающие из предыдущей подсистемы, можно выбирать как из блока итоговой выборки, так и из блока итоговой оценки (разумеется, если для предыдущей подсистемы имеются данные в обеих ветвях). Начало стрелки указывает на источник данных. Переключение канала на другой источник осуществляется щелчком левой кнопки мыши по стрелке, изображающей канал данных для первичной оценки. [Вверх]
КВАНТИЛЬ
пороговое значение переменной, ниже которого находится заданный процент общего веса ее гистограммы данных. Этот процент называется уровнем квантиля (квантиль уровня 90% и т.д.). Используется для выделения горячих точек и выскакивающих значений, а также как правило агрегации данных (в верхний уровень иерархии помещается некий квантиль гистограммы нижних уровней). [Вверх]
КОД ДАННЫХ
кодовое число или слово в базе данных, которое позволяет отнести ячейку БД к одному из координатных интервалов. Например, координатному интервалу с именем "1 января 1999 г." может соответствовать код данных "1/1/99", координатному интервалу с именем "Дети мужского пола от 0 до 1 года" - код данных "М1" и т.д. [Вверх]
КООРДИНАТА ЗНАЧЕНИЯ (ПЕРЕМЕННАЯ ЗНАЧЕНИЯ) переменная, соответствующая основному типу данных блока: объему или концентрации загрязнителя в выбросе - для блока выбросов, числу случаев заболевания - для блока заболеваемости и т.д. Именно ее значение размещается в клетках куба данных. Обычно соответствует ординате графика. [Вверх]
КООРДИНАТА СРАВНЕНИЯ (ПЕРЕМЕННАЯ СРАВНЕНИЯ) переменная, координатный интервал которой фиксирует сечениекуба данных, отображаемое в портрете ситуации. Соответствует Z-оси ("глубине") трехмерного графика. Портреты, полученные при разных значениях этой переменной, сравниваются для отбора устойчивых характеристик, отсюда и название. В корреляционной матрице используется "комбинированная" переменная сравнения, составленная из двух, напр. вначале - возможные загрязнители, затем - возможные диагнозы. Она выступает в роли горизонтальной и вертикальной оси матрицы. [Вверх]
КООРДИНАТНОЕ ДЕРЕВО
совокупность координатных интервалов, относящихся к одной и той же координате, но, возможно, разным уровням иерархии. С указанием правила включения низших интервалов в высшие и правила агрегации данных при переходе от первых ко вторым. Может включать также указание поля базы данных, соответствующего координате, и кодов данных, соответствующих каждому интервалу (напр., интервалу "Вирусная пневмония" по координате "Диагноз" соответствует код данных "480" по МКБ-9). Структура дерева координаты полностью в руках пользователя. [Вверх]
КООРДИНАТНЫЙ ИНТЕРВАЛ
интервал числовой оси для числовых координат (напр., возраст от 10 до 20 лет) или набор значений - для логических координат (напр., совокупность CO2, NO2, SO2). Может включать координатные подынтервалы более низкого уровня иерархии. Интервалы низшего уровня, не содержащие подынтервалов, (и только они) могут заполняться данными из базы данных. Более высокие части дерева координаты заполняются путем агрегации низших интервалов. Совокупность координатных интервалов различных переменных задает фрагмент пространства переменных в форме параллелепипеда (прямого произведения одномерных интервалов). Такой параллелепипед образует "емкость" или "контейнер", в котором размещаются данные. [Вверх]
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
система содержит среду для экспертного анализа корреляций между данными различных блоков. Она включает обзор парных корреляций с помощью корреляционной матрицы, автоматическое определение данных, чьи корреляции удовлетворяют пользовательским критериям, визуализацию дерева вкладов в корреляцию и др. Используется для экспертного анализа связей между факторами среды и здоровья, а также для отбора факторов, включаемых в регрессионные модели. [Вверх]
КОРРЕЛЯЦИОННАЯ МАТРИЦА
визуальное представление коэффициента корреляции между данными, лежащими в координатных интервалах разных блоков. Напр., корреляция между концентрацией загрязнителя SO2 и заболеваемостью с диагнозом "Бронхит". Строки матрицы - координатные интервалы переменной "загрязнитель", столбцы - координатные интервалы переменной "диагноз", и клетка матрицы на их пересечении дает в цветокоде коэффициент корреляции между ними. Суммирование при расчете корреляции проводится по переменной развертки, которой может быть любая общая для указанных блоков переменная (обычно, пространство и/или время). Переменные сравнения, отличные от строки и столбца, фиксированы, и их изменение дает новую матрицу.
Клетки корреляционной матрицы представляют собой "светофор": "горящие" клетки привлекают внимание эксперта к взаимосвязанным факторам.
[Вверх]
набор весов или весовых функций, служащих для объединения разнотипных переменных или блоков;
правило, описывающее, что является оптимумом, и используемое в процессе оптимизации; в) правило или число, используемое как порог при разбиении данных по категориям (например, квантиль гистограммы - при разбиении данных на фон, горячие точки и выскакивающие значения). При работе с пакетом вариантов возможно одновременное использование нескольких критериев, например в рамках многокритериальной оптимизации.
КУБ ДАННЫХ
многомерный набор ячеек, размещенный в пространстве переменных, имеющий форму параллелепипеда и заполненный данными. Оси куба, как правило, соответствуют переменным развертки и переменным сравнения, а заполнение - переменной значения. Куб является основной внутренней структурой данных системы. При считывании из базы данных данные переводятся именно в эту внутреннюю структуру. Размещается в памяти и может быть сохранен на диск и считан оттуда. Данные в кубе неявно организованы в иерархическую структуру, соответствующую уровням иерархиидеревьев координат - осей. У каждого блока системы имеется 3 основных куба данных: для данных из базы данных, подключенной к блоку; для модельных прогнозов и для фона. [Вверх]
-Л-
ЛАГ
сдвиг между соответствующими друг другу координатными интервалами по одной и той же переменной в разных блоках. Напр., сдвиг по времени между горячей точкой в блоке риска и вызванной ею горячей точкой в блоке заболеваемости; сдвиг в пространстве между положением источника выброса и вызванным им максимумом концентрации загрязнителя; сдвиг по возрасту между возрастной группой заболеваемости и соответствующей возрастной группой смертности. [Вверх]
МКБ
международный классификатор болезней. В данной работе использовался МКБ-9.
[Вверх]
МОДЕЛЬ
алгоритм преобразования данных при переходе от блока к другому блоку. Предметные модели отражают сущность процесса, который порождает причинную связь между данными. Напр., модель распространения загрязнений, связывающая данные об источнике выброса с данными о концентрациях в среде, отражает физику атмосферного переноса. Регрессионные модели строятся по неким "обучающим" данным из связываемых блоков, и затем экстраполируются на другие, "рабочие" данные. Модели используются также для переноса данных "в обратном направлении" при решении обратной задачи. [Вверх]
МОДЕЛЬ РАСПРОСТРАНЕНИЯ ВЫБРОСА
принимает в качестве входных данные блока выбросов о параметрах источника выброса и метеоданные. Выдает в блок концентраций ожидаемые концентрации в заказанных точках и в моменты времени, соответствующие метеоданным. Использует, по выбору эксперта, либо алгоритм ISC3ST, разработанный US EPA, либо алгоритм ОНД-86, разработанный в ГГО им. Воейкова. Параметры модели задают тип местности и способ использования метеоданных. [Вверх]
МОДЕЛЬ ЗАБОЛЕВАЕМОСТИ
принимает в качестве входных данные блока рисков (риск по методике EPA для канцерогенов и риск по методике С.М.Новикова для неканцерогенов) и данные о половозрастном составе экспозиционных групп, для которых рассчитан риск. Выдает в блок заболеваемости данные об ожидаемой частоте обращаемости выбранных половозрастных групп населения по достаточно агрегированным группам диагнозов. Параметры модели устанавливают связь между уровнем риска и тяжестью эфектов для здоровья, а также лаги между воздействием на здоровье и проявлением в виде обращаемости. [Вверх]
МОДЕЛЬ СМЕРТНОСТИ
принимает в качестве входных данные блока заболеваемости об обращаемости по тем или иным группам диагнозов. Выдает в блок смертности ожидаемую смертность, связанную с этими заболеваниями, с разбивкой по причинам смерти и с лагами по времени и возрасту. Параметры модели устанавливают динамику развития заболевания и ожидаемые сценарии миграции носителей заболевания между включенными в выборку территориями. [Вверх]
МОДЕЛЬ ФОРМИРОВАНИЯ РИСКА
принимает в качестве входных данные блока концентраций о распределении концентраций загрязнителей во времени и пространстве, а также данные о сценариях экспозиции выбранных экспозиционных групп населения. Выдает в блок риска 3 типа рисков с разбивкой по экспозиционным группам:
пожизненный риск для канцерогенов, рассчитанный по методике EPA в предположении хронической экспозиции к концентрации, равной входной;
текущий риск для неканцерогенов по системе EPA в виде индексов опасности;
текущий риск по методике С.М.Новикова для неканцерогенов, позволяющий оценить ожидаемые эффекты для здоровья.
МОДЕЛЬНЫЙ ПРОГНОЗ
решение прямой задачи переноса данных из координатных интервалов источника в координатные интервалы приемника по некоторой модели. Напр., прогноз распространения концентрации загрязнителя во времени и пространстве от источника, согласно модели атмосферного переноса. Прогноз заболеваемости для половозрастной группы, исходя из распределения риска по экспозиционным группам. Прогноз может совершаться по любой переменной, не обязательно по времени. [Вверх]
Может определяться по отношению к различным системам отсчета, напр., невязка - неопределенность данных относительно модельного прогноза как системы отсчета. Обобщенная характеристика неопределенности - отношение внутригрупповой и межгрупповой непределенности. К нему сводятся такие используемые в системе статистические показатели, как коэффициент корреляции, показатель тесноты регрессии, характеристики выделенности кластера и т.п.В зависимости от вида представления данных, неопределенность изображается доверительными кривыми (в регрессии), насыщенностью цвета (в корреляционной матрице) и т.п.
Для объединения показателей неопределенности, относящихся к разным переменным или блокам, используются те же весовые критерии, что и для оптимизации. [Вверх]
НЕВИДИМЫЕ ПЕРЕМЕННЫЕ те из переменных сравнения, присутствующих в кубе данных, которые не отображаются на экран: ни строкой/столбцом таблицы, ни осью глубины графика. Пользователь выбирает фиксированный координатный интервал по таким переменным. Изменяя этот выбор, можно "сканировать" куб данных каким-либо его сечением, смещаемым вдоль невидимой переменной. [Вверх]
-О-
ОБРАТНАЯ ЗАДАЧА
обращение модельного прогноза: перенос данных из координатных интервалов приемника в координатные интервалы источника в рамках той же модели, по которой осуществляется прогноз. Напр., обращение наблюдаемого пространственного распределения концентраций по модели распространения выброса с целью идентификации предприятий - источников загрязнения. Также - обращение правила агрегации: перенос данных из верхних уровней иерархии в нижние (дезагрегация), либо перенос параметров модели (точнее, поправок к ним) с верхних уровней модельной иерархии на нижние.
Обратные задачи, как правило, неустойчивы, и требуется ограничить класс их возможных решений. Это делается либо указанием критериев приемлемости решения, либо предварительным решением прямой задачи для реперных ситуаций, между которыми затем ищется решение обратной задачи. [Вверх]
ОБСЧЕТ ВЫБОРКИ
выполнение операций обработки, предусмотренных текущим режимом. Включает как операции настройки, выполняемые экспертом вручную, так и операции, выполняемые автоматически, в конвейерном режиме, на основе установленных настроек. Операции настройки включают задание установок входной и выходной информации, уточнение выборки, формирование пакета вариантов, подгонку модельных параметров на этапе обучения модели, пробные модельные прогнозы, поиск закономерностей в выборке методами регрессионного, корреляционного, кластерного или паттерн-анализа. Типичные конвейерные операции - агрегация данных внутри координатного дерева, модельные прогнозы в рабочем режиме, оценка итоговой неопределенности расчета, построение пакета выходной информации. Они проводятся последовательно от входного блока системы, установленного при задании входной информации, до выходного блока, установленного при задании выходной информации.
Обсчет выборки может включать итеративные операции, такие как согласование модельных прогнозов и реальных измерений, решение обратной задачи или оптимизация. Они повторяются до выполнения заданного пользователем _критерия остановки. [Вверх]
ПАРАМЕТРЫ МОДЕЛИ
численные коэффициенты, необходимые для работы модели, а также выбираемые экспертом дискретные установки. Включают и выбор уровня иерархии для многоуровневых моделей. Могут автоматически оптимизироваться в ходе решения обратной задачи подгонки модели под данные. Для этого необходимые параметры должны быть явно указаны как подгоняемые. [Вверх]
ПЕРЕМЕННАЯ (КООРДИНАТА)
информационный признак, примерно соответствующий понятию поля в базе данных. Система включает следующие переменные: время, пространство (территория), загрязнитель, среда (воздух, вода и т.п.), источник выброса загрязнителя, тип риска, экспозиционная группа населения, половозрастная группа населения, диагноз. Каждая переменная структурирована как иерархическое дерево координаты, состоящее из координатных интервалов разного уровня иерархии. Переменные могут быть числовыми (время, возраст) или логическими (вещество-загрязнитель). В кубе данных все переменные равноправны. Однако, в зависимости от выбора проекции куба данных, переменная может играть роль переменной развертки, переменной значения или переменной сравнения. По этим "ролям" переменные распределяет пользователь в процессе просмотра данных. [Вверх]
ПРАВИЛО АГРЕГАЦИИ
правило вычисления значения данных для какого-либо координатного интервала по значениям данных содержащихся в нем подынтервалов следующего уровня иерархии. Наиболее простые правила агрегации - усреднение и суммирование данных. Более сложные правила требуются при агрегации угловых данных, данных по риску с логарифмической зависимостью от концентрации и др. Правило используется также для обратной операции - дезагрегации (распределения измененных значений более высоких интервалов по их подынтервалам). [Вверх]
РЕГРЕССИОННЫЕ МОДЕЛИ модели, описывающие некоторую переменную Z блока, куда подключен выход модели, как функцию Z=F(X,Y) некоторых переменных X, Y блока, куда подключен вход модели. Независимых переменных может быть и больше или меньше, чем две. Параметрами модели являются коэффициенты разложения функции F в ряд - обычно по полиномам. Кроме того, имеются установочные параметры - порядок полинома, допустимое число независимых переменных и др. Параметры формируются на этапе подгонки модели к обучающим данным, в которые входят значения X, Y и Z. На рабочем этапе модель используется для прогноза значений Z по значениям X и Y или для решения обратной задачи восстановления значений X, Y по значениям Z. Возможна комбинация работы и обучения: формируется невязка прогноза с реальными измерениями Z, и для нее решается обратная задача, в результате чего корректируются либо значения X, Y, либо параметры модели. [Вверх]
РЕЖИМ ОБРАБОТКИ ИНФОРМАЦИИ
в настоящее время в системе имеется 7 режимов: обзор информации; модельный прогноз; выделение горячих точек; определение приоритетных проблем; решение обратных задач; поиск связей между данными о среде и здоровье; отладка и адаптация моделей. В силу открытости системы, этот набор может быть изменен пользователем, в т.ч. созданы дополнительные режимы. Каждый режим задает набор установок входной и выходной информации, которые должны быть заданы пользователем, и набор операций обработки, которые должны быть выполнены вручную и/или автоматически. [Вверх]
РИСК
условное название численной меры, характеризующей ожидаемую тяжесть последствий для здоровья в зависимости от загрязнения среды. Индивидуальный риск определяется в зависимости от сценария экспозиции индивида к загрязнению среды. Популяционный риск определяется для популяции в целом, в зависимости от распеределения по ней различных сценариев экспозиции и численности экспозиционных групп.
Существуют различные типы риска. Некоторые из них имеют прямой вероятностный смысл как "вероятность получить заболевание данной группы за заданный период времени". Другие имеют достаточно расплывчатый смысл "индекса общей опасности для здоровья, связанной с данным загрязнителем". В моделях формирования риска, используемых в системе, задействованы 3 различных типа риска: один - для канцерогенов, два - для неканцерогенов. [Вверх]
СИСТЕМА ОТСЧЕТА куб данных, относительно которого рассматриваются данные из другого куба. "Относительно" может означать либо деление, либо вычитание. Напр., представление концентраций относительно ПДК - деление, представление числа случаев заболевания относительно фона - вычитание. Система отсчета не обязана задаваться в явном виде по всем координатам: для расчета смертности "на 1000 чел." задается в качестве системы отсчета куб данных "население по территориям" с одной переменной - "территория". [Вверх]
СЦЕНАРИЙ ЭКСПОЗИЦИИ модель коэффициентов связи концентрации загрязнителя с индивидуальным риском, описывающая их зависимость от принадлежности индивида к той или иной экспозиционной группе. Эти группы различаются половозрастным и профессиональным составом, территорией и временным интервалом, где происходит экспозиция, и т.д. Сценарии экспозиции вырабатываются экспертом применительно к той или иной конкретной территории, однако существуют и типовые сценарии. Помимо коэффициентов, связанных с экспозицией, зависимость риска от концентрации включает коэффициент токсичности загрязнителя, который берется из специальных баз данных, прилагаемых к системе. [Вверх]
-Т-
ТИП ПОЛЬЗОВАТЕЛЯ
система предусматривает два типа пользователей: ЛПР и эксперт. Они различаются функционально: ЛПР работает с готовой выходной информацией и не может самостоятельно произвести повторный обсчет выборки. Если в функции ЛПР входит отбор одного из нескольких вариантов, все они должны быть включены в выходную информацию. Функция эксперта - постановка задачи, создание пакета вариантов ее решения, его настройка, в т.ч. с повторным обсчетом задачи, и селекция результатов для включения в выходную информацию. [Вверх]
-У-
УРОВЕНЬ ИЕРАРХИИ
характеристика расположения координатного интервала в дереве координаты. Практически по всем координатам интервалы имеют естественную иерархическую структуру: момент времени-день-месяц-год; точка-район-город-область; годовая возрастная группа-стандартная возрастная группа-все возраста данного пола - все население; диагноз по МКБ-группа диагнозов 3 уровня-... Однако, пользователь может создавать любые другие уровни иерархии. При этом необходимо обязательно включать те уровни, которые представлены в доступных пользователю базах данных. Также - характеристика компонент модели. Например, регрессионная модель F(X,Y) может быть произведением двух подмоделей-компонент более низкого уровня: f(X) и g(Y). [Вверх]
-Ф-
ФОН
набор данных, который можно считать "типичным", за вычетом горячих точек и выскакивающих значений. Для одномерного набора данных вдоль некоторой переменной развертки и при фиксированных остальных переменных, фон - константа. Для всего куба данных фоновый куб получается согласованием этих констант по пользовательским критериям при всевозможных способах выбора переменной развертки и переменных сравнения. В результате фон получается изменяющимся вдоль всех переменных. Эта зависимость аппроксимируется моделью. Фоновый куб данных блока используется в качестве одной из систем отсчета. [Вверх]