Внутренний "мотор обработки информации" системы постоянно поддерживает связь с существующими на постоянной основе собственными базами данных мониторинга окружающей среды, здоровья населения, социально-демографической обстановки и др. В окончательном варианте автономной системы предусматривается доступ к следующим массивам данных:
по выбросам загрязнителей;
по гидрометеорологии;
по концентрациям загрязнителей в первичных средах;
по концентрациям в контактных средах;
по демографии;
по эпидемиологическим рискам здоровью населения;
по заболеваемости;
по смертности;
по социально-экономическим показателям;
по экологическим паспортам и технологиям;
по нормативно-справочной документации.
Модели взаимодействуют с БД по методу "предсказание - уточнение". При появлении в БД новых данных модель соответствующего уровня иерархии делает собственную оценку того, какими должны быть эти данные, если модель верна (предсказание). Это происходит с соответствующей этому уровню агрегацией (обобщением).
В настоящий момент к системе подключены следующие базы данных разного содержания и формата, за разный период времени и с разной пространственно - временной разбивкой.
по выбросам загрязнителей в атмосферу промышленных городов РФ;
по концентрациям загрязнителей в атмосфере (стационарные измерения) промышленных городов РФ;
по смертности населения во всех областях РФ;
по заболеваемости населения во всех областях РФ;
по детской заболеваемости, г. Череповец;
по концентрациям загрязнителей в атмосфере (стационарные измерения), г. Череповец;
по обращаемости (данные скорой помощи) в г. Нижний Тагил;
по концентрациям загрязнителей в атмосфере (стационарные измерения), г. Нижний Тагил;
по смертности населения, г. Нижний Тагил.
Система использует единое координатное представление этих БД, несмотря на их разноформатность. Она дает возможность представить содержание каждой из этих БД в единой форме - графиков, таблиц, карт ,- и быстро оценить полноту данных и их пригодность для той или иной задачи. Кроме того, возможно сопоставление разноформатных БД через корреляционные матрицы (см. ниже). При этом данные приводятся к "общему знаменателю" пространственно - временного разбиения. Пользователь может определять группы данных для более обобщенного обзора. Правило агрегации, по которому рассчитываются групповые показатели, задается пользователем.
Наряду с количественными данными мониторинга среды и здоровья, система использует качественную, логическую информацию от экспертов, из литературы и т.д. Она формируется в процессе создания и эксплуатации системы в виде базы знаний. Базы знаний не только используются в качестве входной информации, поддерживающей анализ данных, но должны быть доступны для обзора экспертами как компактная форма представления выходных результатов анализа, проводимого в рамках системы.
Система поддерживает следующие базы знаний:
по основным группам риска для каждого типа опасности применительно к данной территории, событию (сценарии) экспозиции к загрязнителям и группам со схожими сценариями экспозиции;
по результатам экспертиз риска и эколого-эпидемиологических исследований, в т.ч. информации о социальных и других факторах, влияющих на риск и индивидуальную чувствительность к загрязнителям, для отдельных групп населения;
по устойчивым группировкам загрязнителей и заболеваний, характерным для различных территорий и групп (паттерны), в т.ч. по результатам проведенных с помощью системы расчетов;
по информации о спектре реакции населения на остроту социально-гигиенической ситуации.
Экспертные оценки, представляя собой качественный тип информации, в техническом отношении являются частью баз знаний. Они отличаются от последних в содержательном отношении субъективным, необязательным характером. Система поддерживает и использует, как минимум, следующие типы экспертных оценок:
сведения об особенностях реальных выбросов, не отраженных в официальной отчетности, по отдельным предприятиям;
источники вероятных искажений в измерениях концентраций загрязнителей (методика измерений, расположение станций) и оценки, заменяющие и дополняющие несистематически измеряемые концентрации (в почве, продуктах питания и т.п.);
оценки факторов, влияющих на обращаемость, для отдельных групп населения или территорий, в т.ч. источники вероятных искажений в медицинской статистике;
оценки вероятных отклонений от планов реализации различных типов мер по защите окружающей среды и здоровья населения.
Текущая версия содержит и постоянно расширяемую гипертекстовую базу знаний о различных загрязнителях, включая медицинские данные о их влиянии на организм. Эта база знаний программно состыкована с базами данных и в перспективе позволит сочетать количественный и логический анализ информации. В настоящее время она может использоваться только как справочное пособие для работающего с программой эксперта.
По каждому конкретному загрязнителю установлены следующие разделы:
производство и источники выбросов;
пути поступления в организм;
источники данных;
влияние на здоровье;
данные эколого-эпидемиологических исследований;
данные из кратких сводок EPA по токсичности;
коррекция измерений;
выводы из анализа данных.
Внутри них есть свои подразделы и т.д. Эта структура может быть детализирована как угодно глубоко, в т.ч. и самими пользующимися ею экспертами, с помощью средств редактирования гипертекста.
Гипертекст организован следующим образом. На каждой его странице есть ключевые слова - "представители" других страниц, где дается более детальная информация, соответствующая этому слову. Ключевые слова - зеленого цвета. При нажатии мыши на ключевое слово совершается скачок, и на экран выводится та страница, с которой связано ключевое слово.
Информация в этой части гипертекста представляет собой организованные соответствующим образом отчеты-обзоры экспертов - эпидемиологов.
Аналогичная база знаний имеется для групп заболеваний. Она включает рефераты эколого-эпидемиологических исследований, которые выявили данный тип заболеваний как следствие факторов, связанных с окружающей средой. В эту базу вводятся гипертекстовые связи типа "загрязнитель - вызванное им заболевание".
Аналогичная же база знаний создается и по каждой территории (области РФ, промышленные города). В данный момент она включает доступ к полному комплекту баз данных по соответствующей территории и к рефератам эколого-эпидемиологических исследований, проведенных для данной территории. Планируется включение сюда любых специфичных для территории сведений.
Имеется режим "Редактирование", в котором пользователь получает возможность добавлять и изменять текст базы знаний. Это делается, как в любом текстовом редакторе. Поддерживаются возможности переноса текста из и в другие документы с помощью стандартных операций "скопировать" и "вклеить".
Наиболее важная возможность при редактировании - самостоятельно устанавливать ключевые слова и скачки (далее они называются для краткости ссылками). Для этого нужно отметить фрагмент текста, который предполагается сделать ключевым словом, и нажать кнопку "Установить ссылку". На экране появляется окно, в котором можно определить, в какой текстовый файл ведет ссылка, и на какое его место. Место в файле определяется специальными метками, которые видны в режиме редактирования.
Возможность для эксперта оперативно редактировать систему ссылок - редкость среди известных средств поддержки гипертекста. Это весьма ценно для использования гипертекста в режиме базы знаний.
Какие ссылки имеет смысл устанавливать? Первое соображение - удобство работы эксперта. Второе - то, что в своем развитии программа получит возможность конструктивно использовать содержащуюся в системе ссылок информацию. Например, связи между страницами загрязнителей и страницами территорий или страницами заболеваний могут использоваться при формировании выборок для анализа как индикатор того, что нужно учитывать.
Важная часть информационной среды системы - "внешние" компьютерные модели, разработанные различными сторонними организациями, например, модели переноса загрязнителей, медико-демографической динамики, отдельных терриорий и водоемов и др.
В ряде случаев внешние модели могут иметь структуру, аналогичную соответствующим внутренним моделям. Принципиальное их различие в том, что пользователи не могут изменять структуру и параметры внешних моделей: они - предмет ответственности разработавших их организаций. В то же время внутренние модели меняются как в ходе адаптации к данным, так и в результате вмешательства пользователя.
Предусмотрена возможность подключения следующих внешних моделей.
распространения загрязнителей в конкретном водоеме или для конкретной почвенной структуры, характерной для данной территории;
официальные универсальные модели распространения загрязнителей в воздухе (ОНД-86 и ISC3ST;
расчета индивидуального и условного рисков;
демографическая модель для конкретной территории, в т.ч. подобранная для нее стандартная популяция.
В настоящее время к системе из вышеперечисленных подключены следующие: ISC3ST и модель, предназначенная для расчета индивидуального риска.
Географическая информация, содержащаяся в ГИС, предназначенной для системы, должна носить как общий, так и специфический (ориентированный на конкретную территорию) характер. Ниже перечислен обязательный минимум этой информации к моменту начала эксплуатации системы.
Общая информация:
коды городов и субъектов РФ, используемые в федеральной статистике;
политико-административная карта РФ с территориальным делением масштаба не менее, чем 1:10 000 000, в векторном формате;
аналогичная физико-географическая карта;
аналогичная гидрологическая карта с указанием административных границ бассейнов;
аналогичная карта плотности населения.
Специфическая информация:
карты региона, аналогичные по содержанию вышеуказанным федеральным картам, масштаба не менее, чем 1:1 000 000, в векторном формате;
административные карты (планы) основных промышленных городов региона масштаба не менее, чем 1:100 000, в векторном или растровом формате;
расположение стационарных точек мониторинга окружающей среды (станции Росгидромета, водозаборы и т.д.);
расположение основных источников выброса загрязнителей (с точностью до отдельной трубы или с агрегацией до размера территории предприятия);
данные о численности населения по всем единицам административного деления, отраженным на вышеуказанных картах;
границы компактных территорий, обслуживаемых медицинскими учреждениями, детскими учреждениями и т.п.;
для больших водоемов - карта течений;
при наличии данных аэро- или космической съемки - исходные данные, привязанные к картографической основе, и построенные по ним тематические карты землепользования.
В текущей версии географическая информационная система, строго говоря, отсутствует. Однако ряд ГИС - подобных функций, тесно связанных с главным конвейером обработки информации, - картографическое представление данных, чувствительные точки на карте и т.п. - уже сейчас встроен в систему. В то же время менее критичные функции - например, поддержание топоосновы, выдача на печать карт с соблюдением всех необходимых реквизитов, и т.д. - будут переданы в ведение ГИС. Таким образом, ГИС будет играть роль своего рода картографического интерфейса для импорта информации в систему и ее экспорта, а также для поддержания "картографического архива".
Кроме того, подключены коды городов и субъектов РФ, политико-административная карта РФ с территориальным делением масштаба крупнее 1:10. 000000 в векторном формате, а также карта г. Череповец с обозначением на ней стационарных точек мониторинга окружающей среды (станции Росгидромета), основных источников загрязнителей (с точностью до отдельной трубы или с агрегацией до размера территории предприятия), границ компактных территорий, обслуживаемых медицинскими учреждениями, детскими учреждениями и т.п.
Он предназначен для выполнения сервисных функций. Одна часть программ этого комплекса выполняет функции интерфейса с различными элементами внешней информационной среды и с потенциальными пользователями, в то время как другая предназначена для обеспечения работ с входными и выходными данными, а также для проведения специализированных исследований.
Среди них следует выделить следующие.
Интерфейс с пользователем, позволяющий последнему задавать на карте выбранного участка местности методами геокодирования положение и параметры источников загрязнений, положение точек измерения (приемников) концентраций загрязнителей, а также отображать пространственное распределение метеопараметров.
Интерфейс программы ISC3ST c базами данных и с внутренними моделями, позволяющий подавать на вход данные об источниках загрязнений, метеопараметрах, рельефе местности и городских строениях и т. п., выводить результаты расчета концентраций на карту местности и подавать их на вход модельного блока расчета риска.
Программа обзора баз данных, предназначенная для их просмотра с помощью окна таблицы. Оно может также использоваться для перехода к просмотру данных в виде диаграммы и карты.
Пакеты статистической обработки (помимо подключенной Statistica for Windows), предназначенные для анализа и отбора входных данных на предмет их полноты и качества, оценки достоверности выходных данных посредством их сравнения с результатами измерений, а также программы корреляционного, регрессионного и кластерного анализа.
В систему предполагается встраивать следующие группы процедур статистической обработки данных:
те, что будет использоваться в обзорном режиме, т.е. работать быстро и с большими массивами данных (в настоящее время видны две группы таких процедур - корреляционные и регрессионные);
те, что являются составной частью функционирования модельных объектов, например подгонки нелинейных моделей, оценки параметров байесовым методом в сочетании с методом максимума энтропии, оптимизации отношения межгрупповой к внутригрупповой дисперсии.
Для остальных почти необозримых вариантов статистического анализа предполагается передача анализируемой выборки из данных в один из стандартных пакетов статистического анализа, образующий часть информационной среды. В настоящее время рассматриваются 3 таких пакета: Statistica for Windows, SPSS, SAS (первый из них уже подключен). Предполагается выполнять с их помощью кластерный анализ, анализ временных рядов и т.д. Чтобы эксперт не потерялся в море возможностей, предоставляемых этими пакетами, предполагается проложить в них стандартные "маршруты" с помощью макросов и системы значений по умолчанию. Вызов этих макросов будет производиться автоматически, однако в тех точках анализа, где необходимо суждение или выбор эксперта, макрос будет переходить в диалоговый режим. Разумеется, пользователь будет волен остановить стандартную процедуру анализа на любом этапе и продолжать в режиме свободного поиска. Однако при этом он должен будет рано или поздно вернуться на одну из "трасс", установленных макросами, хотя бы для того, чтобы результаты обработки могли быть импортированы обратно в систему.
Примерно на той же основе предполагается подключение ГИС. Ряд ГИС-подобных функций, тесно связанных с главным конвейером обработки информации, - картографическое представление данных, чувствительные точки на карте и т.п. - уже сейчас встроен в пилотный прототип. Однако менее критичные функции - например, поддержание топоосновы, выдача на печать карт с соблюдением всех необходимых реквизитов, и т.д. - будут переданы в ведение ГИС. Т.о., ГИС будет играть роль своего рода картографического интерфейса для импорта информации в систему и ее экспорта, а также для поддержания "картографического архива".
Вероятно, в ходе работ по созданию и опытной эксплуатации системы выяснится необходимость подключения в подобном режиме и других полезных программных пакетов. При этом система будет играть роль пульта управления этими пакетами.
Как сказано выше, система сможет функционировать в двух основных режимах: конвейерном и специализированных (экспертных) эколого-эпидемиологических исследований. Последний представляет большой интерес в методическом плане. В связи с этим целесообразно подробнее остановиться на нем.
Место эколого-эпидемиологических исследований по отношению к системе нуждается в дальнейшем уточнении с участием специалистов - эпидемиологов. В настоящее время ясно, что такие исследования могут играть в информационной среде двойную роль:
как своего рода средство мониторинга эколого-эпидемиологического риска в некоторых группах риска, для пополнения базы данных и знаний по этой группе;
как аналог внешней модели, работающей по запросам системы с имеющимися базами данных и выдающей оценки связи экспозиционных показателей с показателями, характеризующими эпидемиологический риск.
В первом своем качестве эколого-эпидемиологические исследования могут проводиться практически независимо от работы системы. Однако они были бы более эффективными, если бы система осуществляла их "наводку" на требуемые группы населения, загрязнители, заболевания и т.п., наиболее критичные для процедур и результатов расчета оценок риска и их связи со здоровьем населения. В какой-то степени система может также служить средством анализа данных в ходе таких эколого-эпидемиологических исследований; при этом она будет использоваться не в режиме конвейера, а выборочно, например для моделирования расположения зон наибольшей экспозиции. Во втором качестве эколого-эпидемиологические исследования целесообразно проводить целиком с помощью системы, которая для этой цели должна поддерживать соответствующие алгоритмы анализа данных и обеспечивать интеграцию результатов исследования в свои внутренние модели. Здесь имеется серьезная проблема: токсикологические и эпидемиологические методы оценки риска для здоровья используют как бы разные системы отсчета для характеристики одного и того же феномена. Необходимо иметь в рамках системы алгоритм, обеспечивающий их совместимость друг с другом.
В настоящее время к системе подключен фрагмент базы знаний, содержащий резюме различных эколого-эпидемиологических исследований, проведенных в РФ. Эта информация может быть использована как минимум следующим образом:
как подсказка эксперту для оценки осмысленности результатов анализа количественных данных (режим справочника);
как источник количественной или качественной информации о виде функции связи типа "доза - эффект" для определенной комбинации "загрязнитель-нозология;"
как индикатор определенного вида опасности для той территории, к которой относится исследование;
как источник информации об основных экспозиционных группах в исследованной проблеме.
Чтобы эту базу знаний можно было более эффективно использовать как подспорье при обработке количественных данных, необходимы усилия экспертов-эпидемиологов по ее переводу в форму логических правил анализа, насколько это возможно.