Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Документ'
Существенной характеристикой текстов Н. С. Лескова является семантическая многослойность. По образному выражению Л. Аннинского, «лирика будет прикрыв...полностью>>
'Документ'
АПКиПРО МОРФ 03.0 , 10-11.0 7 ч. 7 ч. Москва удостоверение 091 8 8 5 Четырехлетнее обучение по образовательной программе «Школа 100»....полностью>>
'Документ'
Современная информационная научная революция приводит к лавинообразному нарастанию информации, что в свою очередь приводит к быстрому моральному стар...полностью>>
'Автореферат'
Защита состоится «28» ноября 2008 года в 12 часов на заседании диссертационного совета Д.212.005.09 при ГОУ ВПО «Алтайский государственный университе...полностью>>

Хранилища данных (курс лекций)

Главная > Курс лекций
Сохрани ссылку в одной из сетей:

Хранилища данных

(курс лекций)

СОДЕРЖАНИЕ

Эволюция корпоративных информационных систем 4

Что такое OLAP 6

Общие свойства хранилищ 10

Ориентированность на предметную область 10

Зависимость от времени 11

Данные хранилища 12

Источники данных 12

Хранилище данных (в узком смысле) 12

Оперативный склад данных (Operational Data Store - ODS) 12

Витрины данных (Data mart) 13

Компоненты хранилища 14

Подсистема загрузки данных 14

Подсистема обработки запросов и представления данных 15

Подсистема администрирования хранилища 15

Методика (методология) построения хранилищ данных 16

Постановка задачи 16

Системно-аналитическое обследование 16

Техническое задание 17

Автоматизируемые процессы и функции 17

Информационное обеспечение 18

Компонентная архитектура 20

Техническая архитектура 21

Выбор метода реализации Хранилищ данных 21

Продукция Microsoft 23

Продукция Sybase 25

Продукция Oracle 29

Oracle BI Suite EE - самая «интеллектуальная» из аналитических платформ 31

Рис.1.Архитектура Oracle BI Suite EE 32

Клиентские приложения 33

Рис. 2. Слои корпоративной семантической модели 35

Выбор продукта 36

Многомерные кубы 37

Некоторые термины и понятия 41

Типичная структура хранилищ данных 43

Таблица фактов 44

Таблицы измерений 46

OLAP на клиенте и на сервере 50

Технические аспекты многомерного хранения данных 51

Data mining 53

Условные сокращения и обозначения 58

Список использованных источников 60

Введение

Эффективное управление крупным и средним бизнесом сегодня немыслимо без применения передовых информационных технологий — систем поддержки принятия решений (СППР).

Процесс управления сводится к решению 3 задач:

  • Где мы находимся?

  • Куда мы хотим прийти?

  • Как мы туда попадем?

Процесс управления — итерационный характер (принятие решения — применение управляющего воздействия — оценка состояния системы — оценка правильности выбранного решения — при наличии отклонений снова принятие решения).

Современные информационные технологии позволяют аналитику формулировать и решать следующие классы:

  • Аналитические (вычисление заданных показателей и статистических характеристик).

  • Визуализация данных

  • Добыча знаний (data mining —проверка статистических гипотез, кластеризация, нахождение ассоциаций и временных шаблонов и т.п.)

  • Имитационные (проведение на ЭВМ экспериментов на моделях, описывающих поведение сложных систем, например, в интервалы времени для анализа возможных последствий принятия того или иного решения)

  • Синтез управления (для определения допустимых управляющих воздействий, обеспечивающих достижение заданной цели, оценка достижимости цели, определение множества возможных управляющих воздействий)

  • Оптимизационные (интеграция имитационных, управленческих, оптимизационных и статистических методов моделирования и прогнозирования, выбор наиболее эффективного решения).

Однако в настоящее время нет информационных средств для решения всех задач в комплексе.

Бизнес — это сложный объект, который состоит из множества различных по свойствам подсистем, между которыми действует большое число разнородных связей. В кибернетике такие объекты получили название сложных систем, а методы их изучения — системным анализом (эта наука развивается с начала 40-х гг. в период 2-й мировой войны).

Общая с точки зрения теории познания триада имеет вид:

Гипотеза — модель — решение.

Гипотеза — это открытие, которое является новым положением, осуществляется на основе интуиции (из глубин человеческого подсознания, сформированного на основе личного опыта).

По гипотезе строится модель — формальное математическое описание — и находится решение. Полученное решение проверяется в эксперименте (отвергается или принимается). В результате получается знание, которым можно руководствоваться в практике.

Проблемы (в бизнесе):

  1. динамичное изменение экономической ситуации, что мешает применять накопленный опыт, не успевает вырабатываться интуиция.

  2. в условиях свободного рынка нет возможности проводить целенаправленные эксперименты.

В настоящее время актуальна разработка и использование комплексного ПО, реализующего задачи 1, 2 и 3-го классов. Сейчас стремительно развиваются OLAP- технологии.

Сейчас более 100 крупных производителей программ включились в конкуренцию.

OLAP — это инструменты оперативного анализа данных, содержащихся в хранилище, которые предназначены для общения аналитика с проблемой, а не с компьютером.

Эволюция корпоративных информационных систем

Развитие предприятий происходило без стратегического плана, снизу вверх по мере осознания необходимости автоматизации того или иного участка производства.

Условия для автоматизации — появление:

  • информационных технологий

  • аппаратно-программных средств

  • людских ресурсов

  • бюджетных средств.

В большинстве компаний имеются информационные системы (ИС) на базе СУБД и обслуживают повседневную деятельность отделов компании.

Такие ИС получили название транзакционных или OLТP (On-Line Transactions Processing).

Накопление больших объемов данных в последнее время сделали актуальными прикладные задачи, предназначенные для извлечения, сбора и представления конечному пользователю информации, необходимой для анализа текущего состояния дел и прогноза будущего решения. Такие ИС получили название систем поддержки принятия решений. Исторически первыми такими системами стали ИС руководителя (EIS — Executive Information Systems).

Существует два подхода к интеграции корпоративной информации:

  • децентрализованное объединение источников (схема спагетти) (рис.1а)

  • централизованное объединение источников (рис.1б)

(рис.1а) (рис.1б)

Второй подход стимулировал появление технологии хранилищ данных, позволяющей извлекать, преобразовывать и представлять информацию из общей кучи данных.

Хранилища данных (Datawarehouse) и оперативный анализ данных (On-LineAnalyticalProcessing, OLAP) – новые информационные технологии, которые обеспечивают аналитикам, управленцам и руководителям высшего звена возможность изучать большие объемы взаимосвязанных данных при помощи быстрого интерактивного отображения информации на разных уровнях детализации с различных точек зрения в соответствии с представлениями пользователя о предметном пространстве.

Основная цель хранилищ — создание единого логического представления данных, содержащихся в разнотипных БД или в единой модели корпоративных данных.

Другими словами:

Хранилище данных создается с целью:

Интеграции в одном месте, согласования и, возможно, агрегации ранее разъединенных детализированных данных:

  • Исторических архивов

  • Данных из оперативных систем

  • Данных из внешних источников

Разделения наборов данных, используемых для оперативной обработки, и наборов данных, используемых для решения задач поддержки принятия решений.

Обеспечения всесторонней информационной поддержки максимальному кругу пользователей.

Еще лет пять назад мало, кто слышал об этих технологиях. Сегодня хранилища данных и OLAP становятся неотъемлемой частью современных корпоративных систем поддержки принятия решений. Это одно из наиболее динамично развивающихся направлений индустрии создания программного обеспечения.

Концепция информационных хранилищ, зародилась в 80-х годах в недрах IBM. Идея хранилищ данных обязана своим развитием многим людям. Хотя эту идею предвосхищали в своих работах многие исследователи, можно смело утверждать, что первой публикацией, посвященной именно хранилищам данных, была статья Девлина (Devlin) и Мэрфи(Murphy) , вышедшая в 1988 году. В 1992 году Уильям Г.Инмон(William H. Inmon), который был техническим директором компании Prism и написал монументальную монографию «Building the Data Warehouse» («Построение хранилищ данных»), в которой дал определение хранилища данных:

Опр.: Хранилище данных — это предметно-ориентированная, интегрированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений.

Имеются 2 определения хранилищ данных:

В узком смысле: по Инмону.

В широком:

Хранилище данных — ориентированная на поддержку управленческих решений автоматизированная система, состоящая из организационной структуры, технических средств, базы или совокупности базы данных (БД) и ПО, которое выполняет, как правило, следующие функции:

  • извлечение данных из разрозненных источников, их трансформация и загрузка в хранилище;

  • администрирование данных и хранилища;

  • извлечение данных из хранилища, аналитическая обработка и представление данных конечным пользователям.

Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как «место, где люди могут получить доступ к своим данным» (см., например, Ralph Kimball, «The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses», John Wiley & Sons, 1996 и «The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse», John Wiley & Sons, 2000). Он же сформулировал и основные требования к хранилищам данных:

  • поддержка высокой скорости получения данных из хранилища;

  • поддержка внутренней непротиворечивости данных;

  • возможность получения и сравнения так называемых срезов данных (slice and dice);

  • наличие удобных утилит просмотра данных в хранилище;

  • полнота и достоверность хранимых данных;

  • поддержка качественного процесса пополнения данных.

Что такое OLAP

Системы поддержки принятия решений обычно обладают средствами предоставления пользователю агрегатных данных для различных выборок из исходного набора в удобном для восприятия и анализа виде. Как правило, такие агрегатные функции образуют многомерный (и, следовательно, нереляционный) набор данных (нередко называемый гиперкубом или метакубом), оси которого содержат параметры, а ячейки — зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации. Благодаря такой модели данных пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных.

Технология комплексного многомерного анализа данных получила название OLAP (On-Line Analytical Processing). OLAP — это ключевой компонент организации хранилищ данных. Концепция OLAP была описана в 1993 году Эдгаром Коддом, известным исследователем баз данных и автором реляционной модели данных (см. E.F. Codd, S.B. Codd, and C.T.Salley, Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate. Technical report, 1993). В 1995 году на основе требований, изложенных Коддом, был сформулирован так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information — быстрый анализ разделяемой многомерной информации), включающий следующие требования к приложениям для многомерного анализа:

  • предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), пусть даже ценой менее детального анализа;

  • возможность осуществления любого логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для конечного пользователя виде;

  • многопользовательский доступ к данным с поддержкой соответствующих механизмов блокировок и средств авторизованного доступа;

  • многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий (это — ключевое требование OLAP);

  • возможность обращаться к любой нужной информации независимо от ее объема и места хранения.

Следует отметить, что OLAP-функциональность может быть реализована различными способами, начиная с простейших средств анализа данных в офисных приложениях и заканчивая распределенными аналитическими системами, основанными на серверных продуктах

Отличия хранилищ от обычных БД

Типичное хранилище данных, как правило, отличается от обычной реляционной базы данных. Во-первых, обычные базы данных предназначены для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений. Например, продажа товара и выписка счета производятся с использованием базы данных, предназначенной для обработки транзакций, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, с помощью хранилища данных.

Во-вторых, обычные базы данных подвержены постоянным изменениям в процессе работы пользователей, а хранилище данных относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно — в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.

И в-третьих, обычные базы данных чаще всего являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов.


OLAP — это надстройка над OLТP и использует транзакционные системы в качестве источников данных.

В контуре управления взаимосвязаны 5 функций (по кольцу) :

  • планирование

  • учет

  • контроль

  • анализ

  • принятие решений.

Рис. 2. Контур управления

2 типа контура:

  • системы оперативной обработки транзакций

  • системы класса поддержки принятия решений

Рис. 3. Распределение функционала между аналитическими
и транзакционными информационными системами.

Развитие хранилищ данных обусловлено:

  • созданием развитого ПО оперативного анализа данных и нерегламентированных запросов пользователей;

  • появлением новых типов БД на основе многомерной модели и параллельной обработки запросов, которые опирались на достижения в области параллельных компьютеров;

  • появлением ПО промежуточного слоя, обеспечившие связь между разнотипными БД;

  • резким снижением стоимости хранения информации.

При перенесении данных из оперативной системы в хранилище перед загрузкой они преобразуются. Различного рода несоответствия в кодировании, типах данных и других «свойствах», присущих исходной системе, устраняются. Это также отличный повод для анализа данных исходной системы и приведения в соответствие всех расхождений реального состояния данных с их типами и кодами, представленными в документации. Вообще говоря, построение хранилища данных открывает возможность избавиться от нежелательных «свойств» оперативной системы.

Другим важным свойством, отличающим хранилище данных от оперативной системы, является то, что оно не разрушается. В то время как оперативная система выполняет над хранимыми данными операции обновления, удаления и вставки, в хранилище помещается большой объем данных, которые, будучи раз загруженными, уже никогда более не подвергаются каким-либо изменениям. Конечно, редкие исключения из этого правила бывают. Характерной особенностью хранилища данных является то, что два разных корпоративных пользователя, выполняющие один и тот же запрос к хранилищу данных в разное время, получат один и тот же результат. Это исключает ситуации, при которых незапланированное извлечение данных и генерация отчетов приводят к различным результатам.

Еще одна особенность хранилища данных – независимость от времени. Если оперативная система содержит только текущие данные, то системы хранилищ данных содержат как исторические данные, так и данные, которые имели статус текущих при последней загрузке хранилища. Временные рамки данных, содержащихся в хранилище, изменяются в широких пределах в зависимости от типа системы. Однако обычно временные рамки данных, находящихся в хранилище, лежат в пределах от 15-ти месяцев до пяти лет. Данные большей давности, как правило, переносятся в архив на магнитной ленте или CDROM, если, конечно, их присутствие в хранилище данных больше не требуется.

Системы оперативных данных и информационные системы на основе хранилищ данных обладают рядом противоположных характеристик, которые лучше всего сравнивать непосредственно одну с другой. В таблице 1.1. приведен краткий перечень основных свойств систем каждого типа.

Таблица 1.1. Сравнительные характеристики хранилищ данных и оперативных систем

Системы хранилищ данных

Оперативные системы

Используются руководством

Используются работниками «переднего края»

Стратегическое значение

Тактическое значение

Поддерживают стратегические направления развития бизнеса

Поддерживают повседневную деятельность

Используются для интерактивного анализа

Используются для обработки транзакций

Предметно-ориентированные

Ориентированны на приложения

Хранят исторические данные

Хранят только текущие данные

Непредсказуемые запросы

Предсказуемые запросы

В настоящее время хранилища данных построены для столь большого числа предметных областей, что их невозможно здесь перечислить. Масштабы и способ использования этих хранилищ данных изменяются в широких пределах в зависимости от типа организации и вида деловой информации, для поддержки которых они разрабатывались. Вот некоторые из наиболее распространенных областей применения хранилищ данных.

Анализ рисков.

Финансовый анализ.

Анализ случаев мошенничества.

Маркетинг взаимоотношений.

Управление активами.

Анализ стереотипов поведения клиентов.

Общие свойства хранилищ

Хранилище данных играет в первую очередь роль интегратора и аккумулятора исторических данных. Структура организации хранилища ориентированна на предметные области. Предметно-ориентированное хранилище содержит данные, поступающие из различных оперативных БД и внешних источников. Хранилище представляет собой совокупность данных, отвечающую следующим характеристикам:

  • ориентированность на предметную область или ряд предметных областей,

  • интегрированность,

  • зависимость от времени (поддержка хронологии),

  • постоянство.

Ориентированность на предметную область

Первая особенность хранилища данных заключается в его ориентированности на предметный аспект. Предметная направленность контрастирует с классической ориентированностью прикладных приложений на функциональность и процессы.

Приложения всегда оперируют функциями, такими, например, как открытие сделки, кредитование, выписка накладной, зачисление на счет и т.д. Хранилище данных организовано вокруг фактов и предметов, таких, как сделка, сумма кредита, покупатель, поставщик, продукт и т.д.

Интегрированность

Наиболее важный аспект хранилища данных состоит в том, что данные, находящиеся в хранилище, интегрированы.

Интегрированность проявляется во многих аспектах:

  • в согласованности имен,

  • в согласованности единиц измерения переменных,

  • в согласованности структур данных,

  • в согласованности физических атрибутов данных и др.

Контраст между интеграцией данных в хранилище данных и в прикладном окружении иллюстрируется следующим образом.

Первая причина возможного рассогласования приложений заключается в наличии множества средств разработки. Каждое средство разработки диктует определенные правила, часть из которых индивидуальна для данного средства. Не секрет, что каждый разработчик предпочитает одни средства разработки другим. Если два разработчика используют различные средства разработки, они, как правило, применяют индивидуальные особенности средств, а значит, возникает вероятность несогласованности между создаваемыми системами.

Вторая причина возможного рассогласования приложений заключается в существовании множества способов построения приложения. Способ построения конкретного приложения зависит от стиля разработчика, от времени, когда это приложение разрабатывалось, а также от ряда факторов, характеризующих конкретные условия разработки приложения. Все это отражается на используемых способах задания ключевых структур, способах кодирования, обозначения данных, физических характеристиках данных и т.д. Таким образом, если два разработчика создают различные способы построения приложений, имеется высокая вероятность того, что полной согласованности между системами не будет.

Интеграция данных по единицам измерения атрибутов состоит в следующем. Разработчики приложений к вопросу о способе задания размеров продукции могут подходить несколькими путями. Размеры могут задаваться в сантиметрах, дюймах, ядрах и т.д. Каков бы ни был источник данных, если информация поступит в хранилище, она должна быть приведена к одним и тем же единицам измерения, принятым в качестве стандарта в хранилище.

Зависимость от времени

Все данные в хранилище в определенный момент времени совместны (непротиворечивы). Для оперативных систем эта базовая характеристика данных соответствует совместности данных в момент доступа. Когда в оперативной среде осуществляется доступ к данным, ожидается, что данные имеют совместные значения только в момент доступа к ним.

Зависимость от времени хранилища данных проявляется в следующем. Данные в хранилище представлены за временной промежуток от года до 10 лет. В оперативной среде представление данных осуществляется в промежутке от текущего значения до нескольких десятков дней. Приложения с высокой производительностью для обеспечения эффективного процесса транзакций должны работать с минимальным количеством данных. Следовательно, оперативные приложения ориентированны на короткий временной промежуток.

Другое проявление зависимости хранилища данных от времени заключается в его структуре. Каждая структура хранилища включает – явно или неявно – элемент времени.

Третье проявление зависимости хранилища данных от времени состоит в неукоснительном выполнении правила, что данные, однажды корректно в хранилище записанные, не могут быть обновлены. Хранилище данных с точки зрения практического использования представляет собой большую серию моментальных снимков. Естественно, если моментальный снимок данных был сделан некорректно, он может быть изменен. Но если был получен корректный моментальный снимок, то, однажды сделанный, он в последующем изменению не подлежит. Оперативные данные, будучи корректны в момент доступа к ним, могут обновляться по мере необходимости.

Постоянство

Четвертая определяющая характеристика хранилища данных – это постоянство. В оперативной среде операции обновления, добавления, удаления и изменения производятся над записями регулярно. Базовые манипуляции с данными хранилища ограничены начальной загрузкой данных и доступом к ним. В хранилище данных обновление данных не производится. Исходные (исторические) данные, после того как они были согласованны, верифицированы и внесены в хранилище данных, остаются неизменными и используются исключительно в режиме чтения.

Существуют важные последствия различия обработки данных в оперативной среде и обработки в хранилище данных. На уровне проектирования хранилища данных необходимость в поддержке механизмов, обеспечивающих корректность обновлений, отпадает – обновления в хранилище данных не производятся. Это означает, что на физическом уровне проектирования при решении проблемы нормализации и физической денормализации доступ к данным может оптимизироваться без каких-либо ограничений. Другое последствие простоты работы с данными хранилища касается технологии работы с данными. Технология работы с данными в оперативной среде отличается большей сложностью. Она поддерживает функции оперативного резервного копирования и восстановления, обеспечивает целостность данных, включает механизмы разрешения конфликтов и тупиковых ситуаций. Для обработки информации в хранилище данных указанные функции не столь критичны.

Характеристики хранилища данных – ориентированность на предметную область при проектировании, интегрированность данных, зависимость от времени и простота управления данными – определяют среду, которая существенно отличается от классической транзакционной среды.

Источником почти всех данных среды хранилища данных являются оперативные среды. Может возникнуть ощущение, что существует огромная избыточность данных в обеих средах. Однако на практике избыточность данных в средах минимальна, поскольку:

  • При передаче данных из оперативной среды в хранилище данных эти данные фильтруются. Многие данные вообще никогда не выгружаются из оперативной среды. В хранилище данных передается только информация, используемая для обработки в системе поддержки принятия решений.

  • Временной горизонт в средах существенно различается. Данные в оперативной среде всегда являются текущими. Данные в хранилище имеют хронологию. С точки зрения временного горизонта пересечение между оперативной средой и средой хранилища данных минимально.

  • Хранилище данных содержит агрегированные (итоговые) данные, которые никогда не включаются в оперативную среду.

  • Передача данных из оперативной среды в хранилище данных сопровождается фундаментальными преобразованиями. Большинство данных при поступлении в хранилище видоизменяется.



Скачать документ

Похожие документы:

  1. Курс лекций по дисциплине «Информатика»

    Курс лекций
    Рассматривается история развития информатики и излагается предмет информатики (в узком и широком понимании), основные три ее направления (теоретическая, прикладная и техническая), а также междисциплинарная, мировоззренческая, воспитательная,
  2. Курс лекций тема Экономическая информация как часть информационного ресурса общества

    Курс лекций
    Понятие, обозначаемое термином «информация», относится к группе общенаучных категорий и занимает важное место в различных науках. В Федеральном законе «Об информации, информатизации и защите информации» информация определяется как
  3. Курс лекций по дисциплине «безопасность жизнедеятельности» для специальности иаб (Архитектура) 1-й

    Курс лекций
    Проблемы возникновения биоповреждений городских сооружений и памятников архитектуры при нарушении экологического равновесия урбанизированных территорий
  4. Л. В. Козловская социально-экономическая география беларуси курс лекций (2)

    Курс лекций
    Во второй части курса лекций в соответствии с программой дисциплины дается экономико-географическая характеристика межотраслевых комплексов Беларуси: топливно-энергетического,
  5. Курс лекции по компьютерным сетям Оглавление

    Лекции
    Курс представляет собой введение в сетевую тематику и дает базовые знания по организации и функционированию сетей. В лекциях даны общие понятия компьютерных сетей, их структуры, сетевых компонентов в простой и доступной форме.

Другие похожие документы..