Гибридное хранилище данных

Гибридное хранилище данных (англ. Data Lakehouse, сокращенно DLH) — это архитектурный паттерн, реализующий возможности, аналогичные возможностям баз данных (далее БД), поверх масштабируемого объектного хранилища [1]. Этот паттерн предлагает многослойную конструкцию, где каждый слой отвечает за определённые функции [1]. Концепция Data Lakehouse является закономерным этапом эволюции архитектур управления корпоративными данными, обеспечивающий фундамент для построения AI-Ready платформы.

В современном корпоративном ландшафте данные перестали быть просто побочным продуктом операционной деятельности — они стали стратегическим активом и топливом для цифровой трансформации. Однако, организации сталкиваются с фундаментальной дилеммой: как совместить гибкость хранения любых форматов данных с дисциплиной, необходимой для получения надёжных аналитических выводов? Традиционные Data Warehouse (DWH) предлагали структурированность, высокую производительность запросов и дисциплину данных, но оказались дороги в масштабировании и негибки при работе с неструктурированными форматами [2]. Data Lake решили проблему стоимости хранения, позволив накапливать данные в любом виде, однако быстро превращались в «Data Swamp» (болото данных) из-за отсутствия ACID-транзакций, согласованности и эффективных механизмов управления [1][6].

Ответом на эти вызовы стала архитектура Data Lakehouse — конвергентное решение, которое наносит структуру и дисциплину хранилища поверх гибкости и масштабируемости озера данных. Как показывают исследования Harby и Zulkernine (2025), Lakehouse объединяет сильные стороны обеих парадигм, обеспечивая поддержку ACID-транзакций, управление схемой и эффективную аналитику без многократного копирования данных [4][8]. Эволюция архитектур управления данными [2]:

Характеристика	Data Warehouse (1990-е)	Data Lake (2010-е)	Data Lakehouse (2020-е)
Основной фокус	Бизнес-аналитика, отчётность	Big Data, ML, неструктурированные данные	Единая платформа для BI и AI/ML
Формат данных	Структурированные, очищенные	Любые (сырые, структурированные и нет)	Любые, с управляемой схемой
Стоимость хранения	Высокая	Низкая	Низкая
ACID-транзакции	Полная поддержка	Отсутствуют	Полная поддержка на уровне таблиц
Производительность	Высокая	Низкая без доп. обработки	Высокая (индексы, кэширование)
Управление схемой	Schema-on-write	Schema-on-read	Schema-on-write с эволюцией

Концепция AI-Ready Data, определяемая IBM как данные с унифицированным доступом к структурированной и неструктурированной информации, единым семантическим слоем и возможностью безопасного масштабирования [3], находит свою естественную реализацию именно в архитектуре Lakehouse. Исследователи подчёркивают, что большинство GenAI-проектов останавливаются на стадии пилотов именно из-за неподготовленности данных [3]. Lakehouse для AI-Ready платформ обеспечивает:

Прямой доступ к данным для фреймворков машинного обучения без необходимости предварительной выгрузки [1].
Открытые форматы хранения (Parquet, Iceberg), исключающие привязку к вендору [1][7].
Единый семантический слой для согласованной интерпретации данных бизнес-пользователями и AI-моделями.
Поддержку как транзакционных, так и аналитических нагрузок в рамках единой платформы [3].

Пример практической реализации проекта гибридного хранилища

Пример исходных условий и требований

Источник данных: операционная таблица table_1 в MS SQL Server (db_1) со следующими характеристиками:

Текущий объём: 3 ТБ
Ежегодный прирост: 2 ТБ
Структура: 5 колонок (включая UUID, дату-время, неструктурированные данные в формате JSON)
Режим работы: несколько тысяч пользователей 23/7, пик 9:00-18:00, окно обслуживания 7:00-8:00

Цель: обеспечить долгосрочное (5+ лет) хранение данных и доступ для аналитики, минимизируя влияние на операционную систему и создавая фундамент для AI-инициатив.

Архитектурное решение

В проекте предлагается использовать архитектуру гибридного хранилища данных, адаптированную под цели проекта, реализованную в три этапа (создание MVP, промышленное внедрение и развитие) с использованием PostgrSQL с квартальным партиционированием и долгосрочным хранением данных, оркестрацией на основе Airflow и мониторингом на основе Zabbix и Grafana. На первом этапе проекта предлагается создать минимальное жизнеспособное хранилище со слоями STAGING и RAW DATA LAKE, на втором этапе осуществить промышленное внедрение хранилища с оркестрацией и мониторингом, а на третьем добавить слои OPERATIONAL и DETAILED DATA STORE, COMMON DATA MARTS и продолжить развивать хранилище.

Слой 1: STAGING (STG)

Описание: загрузочный слой (англ. STAGING, сокращенно STG).
Назначение: первичная загрузка свежих данных из источника.
Характеристики: перезаписывается при каждой загрузке (интервал — сутки в окно 7:00-8:00), минимизирует нагрузку на операционную БД.
Технология: временные таблицы PostgreSQL.

Слой 2: RAW DATA LAKE (RAW)

Описание: озеро сырых данных (англ. RAW DATA LAKE, сокращенно RAW).
Назначение: долговременное накопление сырых данных в неизменном виде (append-only).
Характеристики: партиционирование по кварталам, хранение 5+ лет (прогнозируемый объём 11 ТБ).
Технология: PostgreSQL с декларативным партиционированием и табличными пространствами на отдельных LVM-томах.

Слой 3: OPERATIONAL DATA STORE (DDS)

Описание: операционное хранилище данных (англ. OPERATIONAL DATA STORE, сокращенно ODS).
Назначение: приведение данных к единому формату, удаление из них ошибок и несоответствий, их связываение.
Характеристики: дополнительные таблицы для интеграции данных из нескольких источников.
Технология: PostgreSQL.

Слой 4: DETAILED DATA STORE (DDS)

Описание: хранилище детализированных данных (англ. DETAILED DATA STORE, сокращенно DDS).
Назначение: хранение детализированных данных.
Характеристики: партиционирование по кварталам, хранение очищенных детализированных 5+ лет.
Технология: PostgreSQL с декларативным партиционированием и табличными пространствами на отдельных LVM-томах.

Слой 5: COMMON DATA MARTS (CDM)

Описание: общие витрины данных (англ. COMMON DATA MARTS, сокращенно CDM).
Назначение: витрины данных для аналитики и операционного использования.
Характеристики: агрегированные, очищенные данные, оптимизированные для BI-инструментов.
Технология: представления (views) и материализованные представления PostgreSQL.

Трёхэтапный план реализации

Этап	Технологии	Сроки	Результат
MVP	PostgreSQL, cron, LVM, Python + ODBC	От 2 дней	Автоматическая ежесуточная загрузка, двухслойное хранение, партиционирование
Промышленное внедрение	Apache Airflow, Zabbix, Grafana, Docker (опционально)	От 3 месяцев	Оркестрация, мониторинг, загрузка исторических данных чанками, резервное копирование
Развитие	dbt (опционально), расширение PostgreSQL	От 1 года	Витрины данных, интеграция новых источников, SCD, семантические слои

В результате реализации трёхэтапного плана проекта предполагается создание промышленнго четырехслойного гибридного хранилища данных на PostgreSQL с поквартальным партиционированием основного массива данных, оркестрацией и мониторингом.

Ключевые технические решения

ETL/ELT-механизмы

MVP: ELT-подход: данные выгружаются в staging (минимальная обработка), затем загружаются в raw. Трансформации не выполняются.
Этап 2: Airflow управляет процессом. Возможна лёгкая трансформация на лету (например, парсинг JSON) в Python перед вставкой в staging, но предпочтительнее хранить raw как есть и обрабатывать в слоях выше.
Этап 3: Трансформации внутри PostgreSQL (SQL) или с помощью dbt для построения ODS, DDS и витрин.

Партиционирование и управление томами

Используется декларативное партиционирование PostgreSQL по диапазону дат.
Каждая партиция создаётся в отдельном табличном пространстве, которое физически располагается на отдельном LVM-томе.
Пример: табличное пространство ts_2025_q1 → том /dev/vg_data/lv_2025_q1, смонтирован в /pg_data/2025_q1.
Автоматическое создание новых партиций выполняется хранимой процедурой, вызываемой из Airflow перед началом нового квартала.

Архивирование и доступ к старым данным

Тома с данными старше 2 лет отмонтируются (umount) и могут быть перенесены на медленное хранилище.
Для запроса данных администратор монтирует том и выполняет ALTER TABLESPACE ... MOVE ... или просто подключает табличное пространство (если оно было отключено, PostgreSQL не сможет обратиться к партиции, пока табличное пространство не станет доступно). Вместо отключения можно использовать монтирование только при необходимости.

Мониторинг и оповещения

Zabbix отслеживает: свободное место на томах, размер БД, возраст WAL, состояние репликации.
Grafana отображает дашборды для аналитиков и администраторов.
Airflow уведомляет об ошибках через e-mail (если настроен внутренний почтовый сервер).

Безопасность в закрытом контуре

Все компоненты устанавливаются из локального репозитория RedHat или офлайн-пакетов.
Доступ к PostgreSQL по паролям, роли разграничены.
Сетевое взаимодействие между VM и MS SQL через закрытую сеть.

Заключение

План реализации проекта покрывает создание масштабируемого хранилища от прототипа до промышленной системы с учётом ограничений закрытого контура. Каждый этап даёт работоспособный результат и готовит почву для следующего. Основные решения (партиционирование, LVM, Airflow, PostgreSQL) обеспечивают долгосрочное хранение больших объёмов данных с возможностью экономии ресурсов за счёт архивации старых томов.

Пошаговый план реализации проекта

Этап 1. MVP (от 2 дней)

Минимальные затраты, база для развития. Слои: STAGING (перезаписываемый) и RAW DATA LAKE (накопительный).

Шаг	Действие	Технологии	Ресурсы	Лучшие практики
1.1	Создание VM и настройка ОС	RedHat, KVM/VMware	8 vCPU, 32 ГБ RAM, диски: система (50 ГБ), данные (4×2 ТБ для первого года + запас)	Использовать LVM для гибкости. Выделить тома: `pg_data`, `pg_wal`, `backups`, `logs`.
1.2	Установка PostgreSQL 15+	RPM из локального репозитория	Те же диски	Инициализировать кластер, настроить `postgresql.conf: shared_buffers, work_mem, maintenance_work_mem` с учётом 32 ГБ RAM.
1.3	Создание табличных пространств и томов под партиции	LVM, PostgreSQL	Создать тома для каждого квартала (например, `/pg_data/2025_q1`, `/pg_data/2025_q2` и т.д.)	Каждый том монтируется в свою директорию, в PostgreSQL создаётся табличное пространство, указывающее на эту директорию.
1.4	Проектирование таблиц	PostgreSQL	–	Создать таблицу `raw_data` (партиционированная по дате) для RAW слоя и таблицу `staging` (обычная, без партиций) для временного хранения свежих данных. Партиции `raw_data` привязываются к табличным пространствам.
1.5	Настройка выгрузки из MS SQL (ELT)	Python + ODBC, crond	Установить `unixODBC` и драйвер MS SQL (офлайн-пакеты).	Скрипт загрузки: 1) подключение к источнику; 2) выгрузка данных за последние сутки (или неделю) в `staging` с помощью `SELECT ... WHERE date >= ...`; 3) вставка в raw через `INSERT INTO raw_data ...`; 4) очистка `staging`.
1.6	Выбор интервала загрузки	–	–	Раз в сутки в окно 7:00–8:00 (минимальная нагрузка на источник). Если данных много – можно раз в неделю, но для MVP лучше ежедневно, чтобы продемонстрировать работу.
1.7	Автоматизация через cron	crond	Добавить задание в crontab на нужное время.	Логировать выполнение скрипта в отдельный файл для быстрого контроля.
1.8	Проверка и документирование	–	–	Убедиться, что данные загружаются, партиции создаются автоматически (использовать декларативное партиционирование с автоматическим созданием новых партиций через триггер или функцию).

Результат MVP: работающее хранилище с двухслойной архитектурой, данные накапливаются в raw_data за 1 год (до 2 ТБ), свежие данные доступны в staging (перезаписываются каждый раз). Возможно расширение.

Этап 2. Промышленное внедрение

Оркестрация, мониторинг, обработка исторических данных, отказоустойчивость.

Шаг	Действие	Технологии	Ресурсы	Лучшие практики
2.1	Установка и настройка Apache Airflow	Python, systemd (или Docker)	Выделить ресурсы: 4 vCPU, 8 ГБ RAM для Airflow (можно на той же VM или отдельной).	Развернуть Airflow в режиме офлайн: скачать пакеты на машине с интернетом и перенести. Использовать `systemd` для запуска сервисов.
2.2	Миграция скриптов выгрузки в DAG Airflow	Python, ODBC	Перенести логику из cron в PythonOperator.	DAG должен включать: загрузку в staging, проверку целостности, загрузку в raw, архивацию (опционально). Настроить retry и оповещения.
2.3	Реализация загрузки исторических данных (чанками)	Python, SQL	Создать отдельный DAG для бэкфилла.	Загрузка чанками по датам или по первичному ключу. Использовать LIMIT/OFFSET или курсор на стороне MS SQL. Позволить задавать диапазон дат через переменные Airflow.
2.4	Архивация на лету (опционально)	Python, gzip	При необходимости сжимать JSON-колонку перед вставкой или хранить в сжатом виде в PostgreSQL (TOAST).	Можно использовать сжатие на уровне PostgreSQL (по умолчанию) или дополнительно сжимать в скрипте.
2.5	Внедрение Docker (по желанию)	Docker, Docker Compose	Контейнеризация Airflow и вспомогательных сервисов.	Облегчает развертывание, но требует наличия Docker в офлайн-режиме. Возможно, избыточно для закрытого контура.
2.6	Мониторинг: Zabbix и Grafana	Zabbix Server/Agent, Grafana	Установить Zabbix-агент на VM, настроить сбор метрик ОС и PostgreSQL. Grafana для визуализации.	Включить мониторинг: загрузка CPU, дисков, размер БД, состояние репликации (если есть), длительность выполнения DAG.
2.7	Резервное копирование и WAL-архивация	pg_basebackup, WAL-G или простой скрипт	Отдельный том под бэкапы (не менее 2× объёма данных).	Настроить ежедневные полные бэкапы и непрерывное архивирование WAL. Хранить WAL не менее 2 недель.
2.8	Партиционирование и управление томами	LVM, PostgreSQL	Создать тома на каждый будущий квартал.	Автоматизировать создание новых партиций и табличных пространств через процедуру в БД (вызов по крону или из Airflow).
2.9	Обеспечение отказоустойчивости (опционально)	Репликация PostgreSQL (Hot Standby)	Дополнительная VM с аналогичными дисками.	Настроить стриминг-репликацию для чтения и аварийного переключения.

Результат этапа 2: полностью автоматизированное хранилище с оркестрацией, мониторингом, бэкапами и возможностью загрузки исторических данных. Готово к промышленной эксплуатации.

Этап 3. Развитие проекта

Расширение архитектуры, добавление слоёв и источников.

Шаг	Действие	Технологии	Ресурсы	Лучшие практики
3.1	Создание слоя ODS (Operational Data Store)	PostgreSQL, SQL	Дополнительные таблицы для интеграции данных из нескольких источников.	Здесь данные очищаются, приводятся к единым форматам, связываются.
3.2	Создание слоя DDS (Detail Data Store)	PostgreSQL, SQL	Таблицы измерений и фактов (звезда/снежинка).	Реализация медленно меняющихся измерений (SCD типа 2) для сохранения историчности.
3.3	Создание витрин данных (Common Data Marts)	PostgreSQL, возможно Materialized Views	Агрегированные таблицы для аналитики.	Обновляются по расписанию или через триггеры.
3.4	Интеграция дополнительных источников	Python, Airflow	Разработка новых DAG для выгрузки из других таблиц MS SQL или внешних систем.	Расширение архитектуры без изменения ядра.
3.5	Внедрение инструментов трансформации (например, dbt)	dbt (офлайн-установка)	Виртуальная среда Python.	dbt позволяет версионировать SQL-преобразования, тестировать данные.
3.6	Архивация данных старше 2 лет	LVM, скрипты	–	Периодически отмонтировать тома с партициями старше 2 лет. Для доступа — монтировать обратно и подключать табличное пространство.
3.7	Документирование и каталогизация данных	Markdown, схемы данных	Внутренний wiki или репозиторий.	Ведение словаря данных, описание ETL-процессов.

Расчёт ресурсов проекта

Исходные данные и допущения

Источник: таблица table_1 (MS SQL Server) размером 3 ТБ на старте, ежегодный прирост 2 ТБ.
Сырые данные (RAW): хранятся без изменений. За 5 лет общий объем RAW достигнет 3 + 4×2 = 11 ТБ (с учетом начальных 3 ТБ и 4 лет прироста по 2 ТБ). В дальнейшем будем оперировать максимальным расчетным объемом 11 ТБ для сырых данных.
Производные слои: ODS, DDS, витрины (Common Data Marts). Их объем зависит от степени агрегации и нормализации. Примем коэффициент 1.5 от объема сырых данных (на основе опыта подобных проектов). Тогда общий объем данных в PostgreSQL составит: 11 × 1.5 ≈ 16.5 ТБ.
Индексы: для таблиц фактов и измерений необходимы индексы. В среднем индексы занимают 30% от объема таблиц. С учетом индексов общий объем БД: 16.5 × 1.3 ≈ 21.5 ТБ.
Партиционирование: данные разбиты по кварталам. Каждая квартальная партиция RAW содержит примерно 2 ТБ / 4 = 0.5 ТБ сырых данных. С индексами и накладными расходами – 0.65 ТБ. Для 5 лет (20 кварталов) – 13 ТБ только RAW. Остальные слои также будут партиционированы по датам, но их размер меньше.

Дисковая подсистема

Тома должны обеспечивать разделение данных по производительности и надежности. Используем комбинацию быстрых SSD (RAID10) для активных данных и медленных HDD (RAID6) для архивов и бэкапов. Далее использованы поэтапные расчеты параметров инфраструктуры проекта.

Параметры дисковой инфраструктуры DLH на этапе MVP с учетом RAID:

Виртуальная машина	Тип диска	RAID	Размер диска	IOPS
dlh	SSD	RAID10	10.41	Высокие (не менее 5000, но лучше 10000+) IOPS (случайная запись/чтение), низкая задержка, пропускная способность не менее 500 МБ/с на последовательное чтение/запись
dlh	SSD	RAID10	0.40	Высокие (в пределах 1000-2000) IOPS (случайная запись/чтение), низкая задержка (должна быть < 1 мс)
dlh	SSD	RAID1	0.80	Умеренные IOPS
dlh	HDD	RAID6	424.83	Низкие IOPS, важна пропускная способность при записи/чтении
dlh	HDD	RAID10	1.00	Высокие IOPS (случайная запись/чтение), низкая задержка

Параметры дисковой инфраструктуры DLH на этапе промышленного внедрения с учетом RAID:

Виртуальная машина	Тип диска	RAID	Размер диска	IOPS
airflow	SSD	RAID1	0.80	Умеренные IOPS
dlh	SSD	RAID10	10.41	Высокие (не менее 5000, но лучше 10000+) IOPS (случайная запись/чтение), низкая задержка, пропускная способность не менее 500 МБ/с на последовательное чтение/запись
dlh	SSD	RAID10	0.40	Высокие (в пределах 1000-2000) IOPS (случайная запись/чтение), низкая задержка (должна быть < 1 мс)
dlh	SSD	RAID1	0.80	Умеренные IOPS
dlh	HDD	RAID6	424.83	Низкие IOPS, важна пропускная способность при записи/чтении
dlh	HDD	RAID10	1.00	Высокие IOPS (случайная запись/чтение), низкая задержка
zabbix_grafana	SSD	RAID1	0.80	Умеренные IOPS

Параметры дисковой инфраструктуры DLH на этапе развития с учетом RAID:

Виртуальная машина	Тип диска	RAID	Размер диска	IOPS
airflow	SSD	RAID1	0.80	Умеренные IOPS
dlh	SSD	RAID10	15.62	Высокие (не менее 5000, но лучше 10000+) IOPS (случайная запись/чтение), низкая задержка, пропускная способность не менее 500 МБ/с на последовательное чтение/запись
dlh	SSD	RAID10	0.40	Высокие (в пределах 1000-2000) IOPS (случайная запись/чтение), низкая задержка (должна быть < 1 мс)
dlh	SSD	RAID1	0.80	Умеренные IOPS
dlh	HDD	RAID6	637.25	Низкие IOPS, важна пропускная способность при записи/чтении
dlh	HDD	RAID10	1.00	Высокие IOPS (случайная запись/чтение), низкая задержка
zabbix_grafana	SSD	RAID1	0.80	Умеренные IOPS

Оперативная память (RAM)

Рекомендации для PostgreSQL:

Shared buffers: 25% RAM, но не более 16-32 ГБ для БД до 10 ТБ (по старым правилам). Современные версии могут использовать больше, но выделим 32 ГБ.
Эффективный кэш ОС: остальная память будет использоваться для кэширования данных файловой системы. Для активного набора данных (11.8 ТБ) кэшировать всё невозможно, но важно иметь достаточно для рабочих наборов запросов.
Рабочая память для сортировок/хешей: параметры work_mem и maintenance_work_mem. При большом количестве одновременных соединений нужно достаточно памяти. Рекомендуется 64–128 ГБ для БД.
Дополнительно: память для Airflow (8–16 ГБ), мониторинга (4–8 ГБ).

Итого: для сервера БД минимум 128 ГБ, лучше 256 ГБ. Для сервера Airflow: 16 ГБ. Для сервера мониторинга: 8 ГБ.

Общая RAM в системе виртуализации: 128+16+8 = 152 ГБ (минимум), лучше 256+32+16 = 304 ГБ.

Процессор (CPU)

Сервер БД: PostgreSQL хорошо масштабируется на многоядерных системах. Требуется параллельная обработка запросов, загрузка данных, создание индексов. Рекомендуется 16–32 физических ядра (или vCPU с учетом hyper-threading). При использовании виртуализации – 32 vCPU.
Сервер Airflow: 4–8 vCPU.
Сервер мониторинга: 2–4 vCPU.

Итого: около 44 vCPU.

Сеть

Связь с источником MS SQL: для загрузки исторических данных (например, 10 ТБ за неделю) потребуется пропускная способность: 10e12 / (7*86400) ≈ 16.5 МБ/с. Это легко покрывается 1 Гбит/с (125 МБ/с). Но для параллельной загрузки и ускорения процесса рекомендуется 10 Гбит/с.
Внутренняя сеть между компонентами: для репликации БД (если будет) и обмена данными между Airflow и БД достаточно 1 Гбит/с, но для надежности лучше заложить 10 Гбит/с на всех узлах.

Дополнительные соображения

LVM: все тома должны быть на LVM для возможности расширения.
Zabbix/Grafana: требуют незначительных ресурсов, но необходимо предусмотреть дисковое пространство под историю метрик (например, 100 ГБ).
Возможность роста: при увеличении объема данных до 10-15 ТБ потребуется пропорциональное увеличение RAM и CPU. Архитектура должна позволять добавление ресурсов без остановки.

Итоговые требования к ресурсам

Минимальные требования к вычислительным ресурсам проекта:

Компонент	Ресурс	Значение (минимум)
Сервер БД (PostgreSQL)	CPU (vCPU)	32
	RAM	128+ ГБ
Сервер Airflow	CPU (vCPU)	8
	RAM	16 ГБ
Сервер мониторинга	CPU (vCPU)	4
	RAM	8 ГБ
Сеть	Интерконнект	10 Гбит/с

Минимальные требования к дисковым томам для создания MVP:

Виртуальная машина	Тип диска	RAID	Размер диска	IOPS
dlh	SSD	RAID10	10.41	Высокие (не менее 5000, но лучше 10000+) IOPS (случайная запись/чтение), низкая задержка, пропускная способность не менее 500 МБ/с на последовательное чтение/запись
dlh	SSD	RAID10	0.40	Высокие (в пределах 1000-2000) IOPS (случайная запись/чтение), низкая задержка (должна быть < 1 мс)
dlh	SSD	RAID1	0.80	Умеренные IOPS
dlh	HDD	RAID6	424.83	Низкие IOPS, важна пропускная способность при записи/чтении
dlh	HDD	RAID10	1.00	Высокие IOPS (случайная запись/чтение), низкая задержка

Эти цифры являются отправной точкой для проектирования. Финальные параметры должны быть уточнены после пилотного тестирования и анализа реальной нагрузки.

Почему вынос данных из операционной БД — единственно верное решение

У проекта создания Data Lakehouse на PostgreSQL есть альтернативное решение — оптимизировать хранение данных внутри исходной БД db_1 на MS SQL Server.

Подробное сравнение двух подходов

Описание подхода 1 (предложенное решение создания отдельного Data Lakehouse на PostgreSQL):

Данные выгружаются из table_1 в отдельное хранилище на базе PostgreSQL.
Используются слои: STAGING (перезаписываемый), RAW DATA LAKE (накопительный), в перспективе ODS, DDS и витрины.
Партиционирование по кварталам в PostgreSQL с размещением на отдельных томах LVM, архивация томов старше 2 лет.
Оркестрация: Airflow.
Мониторинг: Zabbix + Grafana.

Описание подхода 2 (оптимизация хранения внутри исходной MS SQL Server db_1):

Таблица table_1 остаётся в db_1, но к ней применяется партиционирование по дате (например, по кварталам).
Исторические партиции (старше 2 лет) перемещаются на медленные (архивные) диски, возможно, в другой файловой группе.
Используются возможности MS SQL Server: секционирование, перемещение секций между файловыми группами, сжатие данных, индексы.
Обеспечивается доступ к историческим данным через ту же таблицу (прозрачно для приложений) или через представления.
Для аналитики можно строить отчёты непосредственно по table_1 или создать отдельные индексы/представления.
Мониторинг осуществляется с помщью Zabbix и Grafana.

Сравнение подходов по ключевым критериям:

Критерий	Подход 1: Отдельное Data Lakehouse (PostgreSQL)	Подход 2: Оптимизация внутри исходной MS SQL Server
Влияние на операционную БД	Минимальное. Выгрузка данных происходит в окно 7:00–8:00 через чтение из `table_1`. Исторические загрузки можно выполнять чанками вне пиковых часов. Сама операционная БД не нагружается дополнительными индексами или партиционированием.	Существенное. Партиционирование больших таблиц в активно используемой БД может вызывать блокировки при переключении секций, обслуживании индексов, обновлении статистики. Операции по перемещению старых данных между дисками требуют времени и ресурсов, могут конфликтовать с рабочей нагрузкой.
Производительность операционной системы	Не изменяется, т.к. все операции с историей вынесены.	Может ухудшиться из-за фоновых задач обслуживания партиций, сжатия, перестроения индексов. Также запросы к историческим данным могут конкурировать за ресурсы с оперативными.
Доступность исторических данных для аналитики	Полноценная аналитика на отдельном сервере без риска повлиять на production. Можно строить сложные запросы, агрегации, витрины.	Аналитика выполняется на том же сервере, что может создавать нагрузку и замедлять оперативную работу. Чтобы избежать этого, придётся использовать реплики чтения или изолировать нагрузку.
Управление жизненным циклом данных (архивация)	Гибкое: тома с партициями старше 2 лет можно отмонтировать и хранить отдельно. Доступ по запросу через монтирование тома. В PostgreSQL можно отключать табличные пространства.	В MS SQL Server можно перемещать партиции в другую файловую группу на медленных дисках, но отключение/включение файловых групп без остановки БД ограничено. Полное изъятие данных из БД (detach) сложнее и может потребовать создания архивных таблиц.
Резервное копирование и восстановление	Можно выполнять независимо от production. Резервное копирование Data Lakehouse оптимизировано под большие объёмы (например, только изменения).	Бэкапы `db_1` будут включать и исторические данные, что увеличивает время бэкапа и восстановления. Приходится делать более частые бэкапы production, что дороже.
Масштабируемость	Горизонтальное масштабирование: можно вынести Data Lakehouse на отдельные мощные серверы, использовать реплики для отчётов.	Масштабирование ограничено возможностями одного экземпляра MS SQL Server. Для больших объёмов придётся использовать дорогие редакции Enterprise с поддержкой секционирования и продвинутого сжатия.
Стоимость лицензирования	PostgreSQL — бесплатен (GPL). Не требуется дополнительных лицензий. Airflow, Zabbix, Grafana — Open Source. Затраты только на оборудование и поддержку.	MS SQL Server требует лицензий. Для партиционирования необходима редакция Enterprise (очень дорогая). Также могут потребоваться дополнительные лицензии на ядра для обработки исторических данных.
Сложность внедрения и поддержки	Требуется развернуть новый стек технологий (PostgreSQL, Airflow, мониторинг). Но это делается однократно и независимо от production.	Меньше новых компонентов, но требуется глубокое знание MS SQL Server, тюнинг партиционирования, планирование окон обслуживания. Риск ошибок выше из-за работы на живой системе.
Гибкость аналитических слоёв	Максимальная: можно создавать любые промежуточные слои (ODS, DDS, витрины) без ограничений.	Ограничена возможностями SQL Server. Для построения сложных витрин придётся либо создавать дополнительные таблицы в той же БД (увеличивая нагрузку), либо использовать ETL в другую БД (фактически подход 1).
Сохранение историчности (SCD)	Реализуется на уровне DDS с поддержкой SCD типа 2.	В исходной таблице, скорее всего, данные только добавляются или обновляются? Если нужна история изменений, придётся реализовывать триггеры или CDC, что дополнительно нагружает production.
Возможность добавления новых источников	Легко расширяется: новые таблицы или внешние данные интегрируются в Data Lakehouse без влияния на production.	Всё остаётся в одной БД, что может привести к её перегрузке и усложнению структуры.
Надёжность и риск для production	Риск минимален: выгрузка данных — только чтение. Сбой в Data Lakehouse не влияет на работу прикладной системы.	Любые операции с историческими данми (обслуживание, резервное копирование) могут повлиять на production.
Архивация старых данных	Простое отмонтирование томов LVM	Требуется сложное перемещение партиций внутри БД
Скорость доступа к историческим данным	Может быть ниже, если данные на отмонтированных томах, но при подключении — приемлемо. На активных данных — высокая производительность благодаря отдельным ресурсам.	Данные всегда в БД, но на медленных дисках. Запросы к ним могут тормозить, если не оптимизированы. Но доступ прозрачен.
AI/ML-готовность	Прямой доступ к данным для фреймворков ML [1][3]	Требуется предварительная выгрузка данных

Анализ влияния на production при подходе 2:

Партиционирование в MS SQL Server требует начальной операции секционирования, которая может заблокировать таблицу на время (для больших таблиц это часы). Это нужно делать в окно обслуживания.
Перемещение исторических партиций между файловыми группами (например, на медленные диски) выполняется командой ALTER TABLE ... SWITCH — это быстрая метаданная операция, но требует, чтобы целевая партиция была пуста и находилась в нужной файловой группе. Однако сама файловая группа должна быть создана, и диски должны быть доступны.
Сжатие данных (ROW или PAGE) может снизить объём, но увеличивает нагрузку на CPU при чтении/записи.
Индексы на партиционированной таблице должны обслуживаться (перестроение, реорганизация), что также требует ресурсов.
Резервное копирование всей БД (включая историю) будет длительным и может перекрываться с рабочим временем.

Выводы из сравнения двух подходов

Подход 1 (отдельное Data Lakehouse на PostgreSQL) предпочтительнее по следующим причинам:

Минимизация рисков для операционной системы. Производственная БД остаётся нетронутой, её производительность не страдает от фоновых задач по обслуживанию истории.
Экономическая эффективность. Бесплатное ПО (PostgreSQL, Airflow) против дорогих лицензий MS SQL Server Enterprise по некоторым оценкам позволяют снизить совокупную стоимость владения до 53% [3], а по другим оценкам совокупная стоимость владения за 5 лет может быть снижена в 3-4 раза:
- Экономия на лицензиях: MS SQL Server Enterprise для 32 ядер на 5 лет составляет ~7-10 млн руб. (оценка).
- Затраты на оборудование: ~2-3 млн руб. однократно (дисковые массивы, серверы).
- Трудозатраты: поэтапное внедрение позволяет распределить нагрузку на существующую команду.
Гибкость и масштабируемость. Data Lakehouse можно развивать независимо, добавлять новые источники, строить сложные витрины без ограничений.
Удобство архивации. Отмонтирование томов LVM с партициями старше 2 лет — простое и надёжное решение, не требующее сложных операций внутри СУБД.
Разгрузка production. Аналитические запросы не конкурируют с оперативными.

Подход 2 может быть оправдан только в исключительных случаях:

Если в организации уже есть неиспользуемые мощности MS SQL Server и лицензии Enterprise.
Если требования к аналитике минимальны и достаточно простых отчётов по историческим данным.
Если невозможно развернуть дополнительную инфраструктуру из-за политик безопасности.

Однако в условиях задачи (несколько тысяч пользователей, 23-часовая работа, необходимость долгосрочного хранения и аналитики) риски и стоимость подхода 2 перевешивают его преимущества. Поэтому рекомендуется реализовать отдельное хранилище данных на PostgreSQL, как описано в первом решении.

Научное обоснование решения создания гибридного хранилища данных

Предложенное решение по созданию долгосрочного гибридного хранилища данных на базе PostgreSQL с поэтапным внедрением (MVP → промышленная эксплуатация → развитие) представляет собой архитектурный подход, который не только решает конкретную бизнес-задачу, но и соответствует ряду фундаментальных концепций и современных трендов, признанных авторитетными аналитическими и консалтинговыми компаниями. Настоящий анализ рассматривает соответствие проекта следующим ключевым направлениям: эволюция медальон-архитектуры (Medallion Architecture), принципы Data Mesh, тренды платформенной инженерии и самообслуживаемой инфраструктуры, концепция AI-Ready Data, а также фундаментальные принципы построения корпоративных хранилищ данных.

Соответствие медальон-архитектуре (Bronze-Silver-Gold)

Медальон-архитектура, популяризированная Databricks, определяет трёхслойную организацию данных: бронзовый слой (bronze) — сырые данные в исходном виде, серебряный слой (silver) — очищенные и структурированные данные, золотой слой (gold) — агрегированные витрины для бизнес-пользователей [13].

Предложенное решение полностью воспроизводит данную логику с учётом специфики закрытого контура и ограниченных ресурсов:

Слои STAGING и RAW DATA LAKE соответствует бронзовому слою: данные загружаются и сохраняются в исходном виде (включая JSON-поля), накапливаются за весь период хранения (5+ лет), обеспечивая возможность пересмотра бизнес-логики без повторного обращения к источникам.
Слой DDS выполняют функции, близкие к серебряному слою: обеспечивает быструю загрузку свежих данных и их первичную подготовку.
Слой COMMON DATA MARTS (третий этап) — классический золотой слой с агрегированными витринами для аналитики и операционного использования.

Harby и Zulkernine (2025) подтверждают, что трёхслойная организация данных (бронза-серебро-золото) обеспечивает оптимальный баланс между гибкостью и производительностью [8]. Как отмечает эксперт DWHPro, «медальон-архитектура — это не новая идея, а ваш старый подход, работающий на новой инфраструктуре» [13]. Действительно, классические хранилища данных использовали аналогичные слои (staging, integration, presentation) на протяжении десятилетий. Однако современная интерпретация, реализованная в проекте, добавляет критически важные элементы:

Постоянное хранение сырых данных — в традиционных подходах staging-слой часто был эфемерным из-за дороговизны дискового пространства [13]. В предложенном решении, благодаря современным экономическим моделям хранения (LVM на относительно недорогих носителях), сырые данные сохраняются постоянно, что обеспечивает возможность пересмотра трансформаций при изменении бизнес-требований.
Партиционирование с возможностью архивации — использование отдельных томов для квартальных партиций с возможностью отмонтирования данных старше двух лет соответствует принципу разделения горячих и холодных данных (hot/cold data separation), который является ключевым для современных платформ данных [13][15]. Исследования подтверждают, что экономическая эффективность Lakehouse достигается за счёт интеллектуального управления жизненным циклом данных и размещения горячих данных на быстрых носителях, а холодных — на ёмких и дешёвых [1].
Двухслойная структура на этапе MVP — подход «start small, experiment and remain flexible» [11] позволяет избежать «analysis paralysis» и начать с минимально жизнеспособного продукта, что полностью соответствует рекомендациям Thoughtworks по внедрению современных data-архитектур.

Соответствие принципам Data Mesh

Data Mesh — социотехнический подход к архитектуре данных, введённый Замак Дегхани в 2019 году, который основывается на четырёх принципах: предметно-ориентированное децентрализованное владение данными, данные как продукт, самообслуживаемая инфраструктура данных как платформа и федеративное вычислительное управление [11][18].

Хотя проект не предполагает полномасштабного внедрения Data Mesh, он содержит элементы, соответствующие этой парадигме:

Данные как продукт (Data as a Product) — на третьем этапе предусмотрено создание витрин COMMON DATA MARTS, которые по своей сути являются data-продуктами: они имеют чётких потребителей (аналитики, операционные подразделения), определённое качество и метрики доступности. Как отмечается в анализе Thoughtworks, именно этот принцип делает ценность Data Mesh осязаемой [11].
Самообслуживаемая инфраструктура (Self-Serve Data Platform) — в проекте заложено создание платформенных компонентов (Apache Airflow для оркестрации, Zabbix и Grafana для мониторинга), которые снижают когнитивную нагрузку на команды, работающие с данными. Это соответствует определению self-serve платформы как инструмента, который позволяет «убрать трение» для доменных команд [11].
Эволюционный подход — Thoughtworks подчёркивает, что организации, успешно внедрившие Data Mesh, учились на том, что «изменение способов работы сложнее, чем изменение технологий» [11]. Предложенный поэтапный подход (MVP → промышленное внедрение → развитие) позволяет адаптировать организационные процессы постепенно.

Важно отметить, что проект не требует полномасштабной трансформации в Data Mesh, что было бы избыточно для описанного контекста. Однако заложенные принципы модульности, расширяемости и возможности добавления новых источников данных на третьем этапе создают предпосылки для эволюционного движения в сторону децентрализованной архитектуры данных в будущем.

Платформенная инженерия и самообслуживаемая инфраструктура

Платформенная инженерия (Platform Engineering) — emerging-тренд, направленный на создание внутренних платформ для разработчиков (Internal Developer Platforms), которые обеспечивают баланс между централизованным контролем и децентрализованной ценностью [11].

Реализация в проекте:

Разделение инфраструктурных компонентов — выделение отдельных томов под данные, WAL-архивы, бэкапы и логи с использованием LVM соответствует лучшим практикам построения надёжных платформ данных [15].
Инструментарий для мониторинга и оркестрации — включение Apache Airflow, Zabbix и Grafana создаёт основу для наблюдаемости (observability) данных, что в 2026 году становится не просто преимуществом, а базовым требованием [10].
Баланс между централизацией и автономией — как отмечается в анализе Thoughtworks, наиболее эффективный паттерн — централизованная платформа, предоставляющая «инфраструктурный водопровод», при сохранении возможности доменных команд использовать инструменты, наилучшим образом подходящие для их задач [11]. Предложенное решение с PostgreSQL в качестве ядра и возможностью расширения на третьем этапе реализует именно такой подход.

Тренд на консолидацию data-инструментов (сокращение «стека из 50 инструментов до 5 платформ» [10]) полностью соответствует выбору ограниченного, но функционального набора технологий: PostgreSQL как единая платформа хранения, Airflow как единый оркестратор, Zabbix+Grafana как единая система мониторинга. Это позволяет минимизировать интеграционные издержки, которые, по данным исследований, составляют до 40% времени data-инженеров [10].

Соответствие концепции AI-Ready Data

IBM определяет AI-Ready Data как данные, которые обладают унифицированным доступом к структурированной и неструктурированной информации, единым семантическим слоем и возможностью безопасного масштабирования от пилотов до промышленной эксплуатации [12]. По данным Dell и Noventiq, Lakehouse-архитектура является единственным viable-решением для подготовки данных к использованию в AI/ML-нагрузках, поскольку обеспечивает прямой доступ к данным без их дублирования [3].

Реализация в проекте:

Работа с неструктурированными данными — исходная таблица содержит JSON-данные, что представляет собой классический пример неструктурированной информации, составляющей до 90% корпоративных данных [12]. Сохранение этих данных в неизменном виде в RAW-слое позволяет в будущем применять к ним современные методы анализа, включая LLM.
Семантический слой — на третьем этапе предусмотрено создание COMMON DATA MARTS, которые фактически являются реализацией семантического слоя (semantic layer). Как отмечается в прогнозах на 2026 год, семантический слой становится критически важным, поскольку «без него text-to-SQL — это просто угадывание» [10].
Качество данных как бизнес-функция — согласно Gartner, плохое качество данных обходится предприятиям в среднем в $12,9 млн в год [10]. Заложенная в проекте поэтапная очистка данных (STAGING → ODS + DDS → витрины) создаёт основу для управления качеством на системном уровне.

IBM подчёркивает, что большинство GenAI-проектов останавливаются на стадии пилотов именно из-за неподготовленности данных [12]. Предложенное решение, обеспечивающее чистое, структурированное и документированное хранение данных, создаёт фундамент для будущего применения AI-технологий, даже если на текущем этапе это не является приоритетом.

Фундаментальные принципы построения хранилищ данных

Независимо от технологических трендов, базовые принципы построения хранилищ данных остаются неизменными: разделение слоёв, управление жизненным циклом данных, обеспечение качества, документирование и наблюдаемость [10][13].

Реализация в проекте:

Управление жизненным циклом данных — партиционирование по кварталам с возможностью архивации томов старше двух лет обеспечивает экономически эффективное хранение больших объёмов данных (до 11 ТБ за 5 лет) без деградации производительности.
Разделение транзакционных и аналитических нагрузок — выгрузка данных в отдельное хранилище полностью исключает влияние аналитических запросов на операционную систему, что критически важно при работе нескольких тысяч пользователей 23 часа в сутки.
Резервное копирование и восстановление — выделение отдельных томов под WAL-архивы и бэкапы, использование RAID-массивов с учётом требований к надёжности и производительности соответствует enterprise-стандартам.
Наблюдаемость (Observability) — включение Zabbix и Grafana обеспечивает переход от пассивного мониторинга к активному управлению качеством данных, что является ключевым трендом 2026 года [10].

Как подчёркивается в прогнозах на 2026 год, «архитектурные изменения всё ещё могут ломать пайплайны, NULL-значения всё ещё могут разрушать отчёты, аномалии трафика всё ещё могут происходить, когда никто не мониторит в выходные» [10]. Заложенные в проекте механизмы мониторинга, резервирования и контроля качества являются не просто «nice-to-have», а необходимыми компонентами промышленного решения.

Соответствие тренду упрощения и консолидации data-стека

Аналитики фиксируют тренд на сокращение количества инструментов в корпоративном data-стеке: от 15-30 разрозненных решений к 5 интегрированным платформам [10].

Реализация в проекте:

Минималистичный стек на этапе MVP — только PostgreSQL и cron, что позволяет начать с минимальными компетенциями за 2-3 дня.
Постепенное наращивание функциональности — добавление Airflow, Zabbix, Grafana только тогда, когда это действительно требуется.
Отказ от избыточных компонентов — использование возможностей PostgreSQL для партиционирования и управления JSON-данными вместо внедрения специализированных NoSQL-решений.
Открытые технологии — выбор PostgreSQL (open-source) вместо проприетарных СУБД соответствует тренду на использование открытых форматов и предотвращение vendor lock-in [14]. Использование открытых форматов хранения и PostgreSQL гарантирует, что организация сохраняет контроль над своими данными и может менять инфраструктуру без потери информации [7].

ClickHouse в своём анализе облачных хранилищ данных отмечает, что современные архитектуры должны обеспечивать «верифицируемую свободу» от привязки к вендору [14]. Использование PostgreSQL и LVM с открытыми форматами хранения даёт организации возможность контролировать свои данные и менять инфраструктуру при необходимости без потери информации.

Итоги анализа соответствия решения проекта существующим трендам

Предложенное решение по созданию долгосрочного хранилища данных на базе PostgreSQL демонстрирует соответствие следующим ключевым концепциям и трендам в области информационных технологий:

Концепция / Тренд	Соответствие в проекте	Источник
Медальон-архитектура (Bronze-Silver-Gold)	Слои STG + RAW → DDS → CDM	[13]
Данные как продукт (Data as a Product)	Витрины данных с чёткими потребителями	[11][17]
Платформенная инженерия	Самообслуживаемая инфраструктура с Airflow и мониторингом	[11]
AI-Ready Data	Сохранение неструктурированных данных, семантический слой	[12]
Разделение hot/cold данных	Партиционирование по кварталам с отмонтированием томов	[13][15]
Наблюдаемость (Observability)	Zabbix, Grafana, мониторинг метрик	[10]
Консолидация data-стека	Ограниченный набор технологий, поэтапное внедрение	[10][14]
Экономическая эффективность	Использование open-source, LVM, поэтапное финансирование	[11][13]

Особую ценность представляет то, что решение не просто следует модным трендам, а базируется на фундаментальных принципах построения хранилищ данных, проверенных десятилетиями практики, адаптируя их к современным экономическим реалиям и технологическим возможностям. Поэтапный подход (MVP → промышленное внедрение → развитие) минимизирует риски, позволяет начать с ограниченными ресурсами и компетенциями, создавая при этом основу для масштабирования и внедрения передовых практик в будущем.

Заключение

Представленный проект гибридного хранилища данных на базе PostgreSQL представляет собой не просто техническое решение конкретной задачи по долгосрочному хранению даных на базе гибридного хранилища данных, а первый шаг к созданию корпоративной AI-Ready платформы. Соответствуя современным архитектурным трендам и научным рекомендациям, он:

Минимизирует влияние на операционную систему.
Обеспечивает долгосрочное хранение данных с управляемым жизненным циклом.
Создаёт фундамент для аналитики и машинного обучения.
Экономически эффективен благодаря использованию открытого ПО и поэтапному внедрению.
Защищает от вендор-локина за счёт открытых форматов.

Как показывают успешные кейсы (Members 1st Federal Credit Union с 20 ТБ данных и 89% ускорением ML-моделей [5]; NinjaVan с трансформацией legacy-архитектуры [9]), такой подход не только реализуем, но и даёт измеримые бизнес-результаты.

Гибридное хранилище данных — это не компромисс, а эволюционно зрелое решение, объединяющее лучшее из двух миров и открывающее путь к данным, готовым для любых задач — от операционной отчётности до передовых AI-приложений.

Библиография

ClickHouse. (2026). Data Lakehouse: Озёрное хранилище данных. ClickHouse Documentation.
Открытая школа Т1. (2024). Разработчик DWH: Сквозной проект №2. GitHub Repository.
Шарипов, А. (2025). Data Lakehouse от Dell: Единая платформа для данных, аналитики и ИИ. Noventiq Blog.
Harby, A. A., & Zulkernine, F. (2025). Data Lakehouse: A survey and experimental study. Information Systems, 127, 102460. Elsevier.
Microsoft. (2025). Members 1st builds a modern data lakehouse with 3Cloud and Azure. Microsoft Partner Success Stories.
Кальченко, И. (2021). Преимущества Hybrid Data Lake. Как сочетать Data Warehouse с Data Lake. Dou.ua.
Oracle. (2025). Autonomous AI Database Data Studio. Oracle Documentation.
Harby, A. A., & Zulkernine, F. (2024). From data warehouse to lakehouse: A comparative review. In Proceedings of CIDR.
Singdata. (2025). NinjaVan’s Journey from Traditional Spark to Singdata Lakehouse. Singdata Customer Stories.
36Kr. (2026). Top 7 Predictions for Data and AI in 2026.
Thoughtworks. (2026). The state of data mesh in 2026: From hype to hard-won maturity.
IBM. (2026). The biggest data trends for 2026.
DWHPro. (2026). The Medallion Architecture Is Not New. We Just Called It Something Else.
ClickHouse. (2025). Top 5 cloud data warehouses in 2026: Architecture, cost, and open-source.
Lark. (2026). Cloud Database Management Systems: The Complete Guide.
Gartner. (2026). Data Lake, Lakehouse, Warehouse: How to Choose?
Conduktor. (2026). Data Mesh Principles and Implementation.
AllegroGraph. (2026). Data in 2026: Interchangeable Models, Clouds, and Specialization.

AI-Ready платформа Data Lakehouse ELT PostgreSQL гибридное хранилище данных корпоративная информационная система медальон-архитектура практика теория