Хранилище данных — (англ. Data Warehouse, сокращённо DWH) — система для хранения обработанных данных из разных источников в целях расширенного анализа данных.
Основы теории хранилищ данных в 1970-1980 годах заложили Билл Инмон и Ральф Кимбалл. Они же предложили первые и по сей день используемые концепции создания хранилищ. В концепции Инмона используются «снежинки» (данные в третьей нормальной форме, 3NF) В концепции Кимбалла используются «звезды» (денормализованные данные).
В общем случае конфигурация хранилища данных состоит из следующих элементов:
- Staging-область (англ. Staging Area) — область временного хранения данных. Staging-область предназначена для ускорения «затягивания» данных из их источников.
- Ядро DWH — место хранения очищенных данных.
- Витрина данных (англ. Data Mart, DM) — инструмент для доступа к очищенным данным.
Важное значение в построении хранилищ данных имеет отслеживание версионности данных. Механизм отслеживания версионности данных называется SCD (англ. Slowly Changing Dimensions, рус. Медленно меняющиеся измерения). Существуют несколько типов SCD:
- SDD0 — данные не изменяются.
- SCD1 — не храниться история изменения, только актуальное значение. При поступлении нового значения, оно записывается на место предыдущего.
- SCD2 — новые данные добавляются новой строкой в таблицу.
- SCD3 — в истории хранится только одно предыдущее значение, как правило в дополнительном поле таблицы.
- SCD6 — является комбинацией SCD1, SCD2 и SCD3. Нумерация в названии типа означает сложение номеров 1, 2 и 3 в названии типов. SCD6 позволяет наиболее полно и гибко отслеживать версионность данных, но платой за это является его сложность и тяжеловесность.
- Комбинированный тип SCD.
Наиболее распространенными на сегодняшний день являются «гибкие» концепции построения хранилищ. Таковыми являются модели Data Vault и якорная модель. Data Vault состоит из хаба (hub), ссылок (links) и сателлитов (satellite). Причем, сателлиты могут быть как у хабов, так и ссылок. Якорная модель состоит из якорей (ankhor), атрибутов (attribute), узлов (knot) и связей (tie). Основными достоинствами этих моделей является отсутствие дублей в данных и жестких кардинальных связей, более простая доработка хранилища в сравнении с классическими моделями Инмона и Кимбалла. Недостатками этих моделей являются сложность стартового проектирования и разработки хранилища, нетривиальный доступ к данным, большая нагрузка на вычислительные ресурсы.
Список используемых источников:
- Управление организацией на основе информационных систем [В Интернете] / авт. Microsegment.ru // Microsegment.ru. — Microsegment.ru, 25 июнь 2021 г. — 11 янв. 2024 г.. —https://microsegment.ru/blog/information/system/organization-management-based-on-information-systems/.