Хранилище данных (ДВХ)
Зачем эта функция в ОМВИ
ИИ-инициатива без данных — это презентация, а не продукт. При этом данные обычно живут в хранилище данных (ДВХ), озере данных и десятках систем-источников, за которые отвечает отдельная Data-функция. Если ОМВИ не состыкована с ДВХ, происходит типичное: инициативу одобрили, бюджет выделили, а нужных данных нет, они плохого качества или их нельзя использовать по правовым причинам.
ДВХ подключается рано — чтобы оценка осуществимости по данным была частью входной квалификации инициативы, а не сюрпризом в середине деливери.
Где подключается
| Этап ОМВИ | Роль ДВХ / Data-команды |
|---|---|
| Оценка | Подтверждает наличие, доступность и пригодность данных |
| Деливери | Предоставляет доступ к витринам, готовит датасеты, настраивает пайплайны |
| Перед продом | Фиксирует контракт данных и SLA по свежести/качеству |
| Подтверждение эффекта | Поставляет данные для расчёта метрик и эффекта |
Что функция получает на вход
- Сценарий использования: какие данные, в каком объёме и с какой свежестью нужны.
- Требования к качеству и к режиму обработки (вместе с ИБ — классификация).
- Назначение данных: обучение, RAG-контекст, аналитика, расчёт эффекта.
Что функция отдаёт на выход
- Доступ к источникам и витринам (или обоснованный отказ с альтернативой).
- Оценку готовности данных: полнота, качество, история, документированность.
- Контракт данных — согласованную структуру, свежесть, владельца и SLA.
Ключевые артефакты стыка
- Контракт данных (data contract) — что за данные, кто владелец, какое качество и SLA гарантируется.
- Витрина под инициативу/продукт — подготовленный слой данных для RAG, обучения или аналитики.
- Метрики эффекта — данные, на которых считается подтверждённый эффект инициативы.
Антипаттерны
- «Данные найдём по ходу». Инициатива стартует без проверки данных и встаёт в деливери. Лечится обязательной оценкой данных на этапе оценки.
- Ручные выгрузки вместо витрин. Пилот живёт на разовом экспорте, который невозможно повторить в проде.
- Нет контракта данных. Источник меняется, пайплайн ломается, и никто не отвечает за свежесть и качество.
- Эффект некому посчитать. Данные для метрик не предусмотрели заранее, и подтвердить эффект нечем.