Microsegment.ru
  • Главная страница
  • О проекте
  • Портфолио
  • Блог
Информационная система

Хранилище данных

Хранилище данных
Информационная система

Хранилище данных — (англ. Data Warehouse, сокращённо DWH) — система для хранения обработанных данных из разных источников в целях расширенного анализа данных.

Основы теории хранилищ данных в 1970-1980 годах заложили Билл Инмон и Ральф Кимбалл. Они же предложили первые и по сей день используемые концепции создания хранилищ. В концепции Инмона используются «снежинки» (данные в третьей нормальной форме, 3NF) В концепции Кимбалла используются «звезды» (денормализованные данные).

В общем случае конфигурация хранилища данных состоит из следующих элементов:

  1. Staging-область (англ. Staging Area) — область временного хранения данных. Staging-область предназначена для ускорения «затягивания» данных из их источников.
  2. Ядро DWH — место хранения очищенных данных.
  3. Витрина данных (англ. Data Mart, DM) — инструмент для доступа к очищенным данным.

Важное значение в построении хранилищ данных имеет отслеживание версионности данных. Механизм отслеживания версионности данных называется SCD (англ. Slowly Changing Dimensions, рус. Медленно меняющиеся измерения). Существуют несколько типов SCD:

  1. SDD0 — данные не изменяются.
  2. SCD1 — не храниться история изменения, только актуальное значение. При поступлении нового значения, оно записывается на место предыдущего.
  3. SCD2 — новые данные добавляются новой строкой в таблицу.
  4. SCD3 — в истории хранится только одно предыдущее значение, как правило в дополнительном поле таблицы.
  5. SCD6 — является комбинацией SCD1, SCD2 и SCD3. Нумерация в названии типа означает сложение номеров 1, 2 и 3 в названии типов. SCD6 позволяет наиболее полно и гибко отслеживать версионность данных, но платой за это является его сложность и тяжеловесность.
  6. Комбинированный тип SCD.

Наиболее распространенными на сегодняшний день являются «гибкие» концепции построения хранилищ. Таковыми являются модели Data Vault и якорная модель. Data Vault состоит из хаба (hub), ссылок (links) и сателлитов (satellite). Причем, сателлиты могут быть как у хабов, так и ссылок. Якорная модель состоит из якорей (ankhor), атрибутов (attribute), узлов (knot) и связей (tie). Основными достоинствами этих моделей является отсутствие дублей в данных и жестких кардинальных связей, более простая доработка хранилища в сравнении с классическими моделями Инмона и Кимбалла. Недостатками этих моделей являются сложность стартового проектирования и разработки хранилища, нетривиальный доступ к данным, большая нагрузка на вычислительные ресурсы.


Список используемых источников:

  1. Управление организацией на основе информационных систем [В Интернете] / авт. Microsegment.ru // Microsegment.ru. — Microsegment.ru, 25 июнь 2021 г. — 11 янв. 2024 г.. —https://microsegment.ru/blog/information/system/organization-management-based-on-information-systems/.

информационная система информация корпоративная информационная система

Предыдущая статьяСистема хранения данныхСледующая статья Озеро данных

Рубрики

Метки

abc abcd excel Python sql VBA xyz Комбинаторика Математика Теория вероятностей анализ виртуальный помощник данные знания информационная система информация корпоративная информационная система маркетинг мудрость о проекте оптимизация практика программное обеспечение пэст ролевая модель теория юмор языки программирования

Политика конфиденциальности

Продолжая использовать данный сайт вы подтверждаете свое согласие с условиями его политики конфиденциальности. Подробнее…




Администрация и владельцы данного информационного ресурса не несут ответственности за возможные последствия, связанные с использованием информации, размещенной на нем.


Все права защищены. При копировании материалов сайта обязательно указывать ссылку на © Microsegment.ru (2020-2025)