Словарь

простой материал

ВЫБОРКА ДАННЫХ

EHIPS - система СРЕДА-ЗДОРОВЬЕ


Создать выборку данных из базы данных можно одним из трех способов.
Таблица тянет на себя данные из БД Способ 1 Выборка под задачу
Используются координатные деревья, отражающие решаемую задачу. В заданную ими структуру куба данных считываются данные из базы данных согласно соответствию "поле базы данных - координата", задаваемому моделью базы данных. Данные в базе данных ищутся с помощью SQL-запроса или другим подобным методом. Гарантии наличия необходимых данных в базе данных нет.

БД толкает от себя данные в таблицу Способ 2 Выборка под базу данных
Координатные деревья создаются из имеющихся в базе данных кодов данных. Затем коды автоматически заменяются на осмысленные имена координатных интервалов. Например, коды диагнозов по МКБ - на названия диагнозов. Базы данных сканируются построчно и данные размещаются в кубе данных согласно своим кодам. Этот способ быстрее первого при большом объеме куба данных. Однако необходимо вручную отобрать коды, нужные для конкретной задачи.

Открыть файл Способ 3 Загрузка готовой выборки
Созданную методами 1 и 2 выборку можно запомнить на диске во внутреннем формате, то есть в виде кубов данных и соответствующих координатных деревьев для каждого блока. При последующем запуске системы можно считать эту выборку прямо в память, что значительно быстрее методов 1 и 2.

Откорректировать имеющуюся выборку можно одним из следующих способов:
  1. Добавить или удалить несколько координатных интервалов в одном из координатных деревьев одного из блоков. При добавлении необходимо затем заполнить новые области куба данных информацией из баз данных по методу 1.
  2. Убрать выскакивающие значения, автоматически заменив их в соответствующих координатных интервалах на значение фона либо на код "нет данных".
  3. Оставить в выборке только "горячие точки" или аналогичные выделенные группы, автоматически поставив во всех прочих координатных интервалах код "нет данных".
  4. Автоматически создать новую подвыборку, состоящую только из "горячих точек" или других аналогично выделенных групп.
  5. Подставить квантиль гистограммы в качестве значения координатного интервала, следующего вверх по иерархии. Это эквивалентно введению статистической "гарантии от недооценки опасности" с заданной вероятностью (обычно 95%).
   Все по-разному откорректированные варианты выборки можно объединить в пакет вариантов, чтобы по результатам обсчета выборки посмотреть, какой вариант лучше удовлетворяет введенным критериям, например лучше согласуется с данными или с модельным прогнозом.

Оглавление

© ИКИ РАН, 1998-2001