Создать выборку данных из базы данных можно одним из трех способов.
- Способ 1 Выборка под задачу
- Используются координатные деревья, отражающие решаемую задачу. В заданную ими структуру куба данных считываются данные из базы данных согласно соответствию "поле базы данных - координата", задаваемому моделью базы данных. Данные в базе данных ищутся с помощью SQL-запроса или другим подобным методом. Гарантии наличия необходимых данных в базе данных нет.
- Способ 2 Выборка под базу данных
- Координатные деревья создаются из имеющихся в базе данных кодов данных. Затем коды автоматически заменяются на осмысленные имена координатных интервалов. Например, коды диагнозов по МКБ - на названия диагнозов. Базы данных сканируются построчно и данные размещаются в кубе данных согласно своим кодам. Этот способ быстрее первого при большом объеме куба данных. Однако необходимо вручную отобрать коды, нужные для конкретной задачи.
- Способ 3 Загрузка готовой выборки
- Созданную методами 1 и 2 выборку можно запомнить на диске во внутреннем формате, то есть в виде кубов данных и соответствующих координатных деревьев для каждого блока. При последующем запуске системы можно считать эту выборку прямо в память, что значительно быстрее методов 1 и 2.
Откорректировать имеющуюся выборку можно одним из следующих способов:
- Добавить или удалить несколько координатных интервалов в одном из координатных деревьев одного из блоков. При добавлении необходимо затем заполнить новые области куба данных информацией из баз данных по методу 1.
- Убрать выскакивающие значения, автоматически заменив их в соответствующих координатных интервалах на значение фона либо на код "нет данных".
- Оставить в выборке только "горячие точки" или аналогичные выделенные группы, автоматически поставив во всех прочих координатных интервалах код "нет данных".
- Автоматически создать новую подвыборку, состоящую только из "горячих точек" или других аналогично выделенных групп.
- Подставить квантиль гистограммы в качестве значения координатного интервала, следующего вверх по иерархии. Это эквивалентно введению статистической "гарантии от недооценки опасности" с заданной вероятностью (обычно 95%).
Все по-разному откорректированные варианты выборки можно объединить в пакет вариантов, чтобы по результатам обсчета выборки посмотреть, какой вариант лучше удовлетворяет введенным критериям, например лучше согласуется с данными или с модельным прогнозом.