Перейти к основному содержимому

Хранилище данных (ДВХ)

Зачем эта функция в ОМВИ

ИИ-инициатива без данных — это презентация, а не продукт. При этом данные обычно живут в хранилище данных (ДВХ), озере данных и десятках систем-источников, за которые отвечает отдельная Data-функция. Если ОМВИ не состыкована с ДВХ, происходит типичное: инициативу одобрили, бюджет выделили, а нужных данных нет, они плохого качества или их нельзя использовать по правовым причинам.

ДВХ подключается рано — чтобы оценка осуществимости по данным была частью входной квалификации инициативы, а не сюрпризом в середине деливери.

Где подключается

Этап ОМВИРоль ДВХ / Data-команды
ОценкаПодтверждает наличие, доступность и пригодность данных
ДеливериПредоставляет доступ к витринам, готовит датасеты, настраивает пайплайны
Перед продомФиксирует контракт данных и SLA по свежести/качеству
Подтверждение эффектаПоставляет данные для расчёта метрик и эффекта

Что функция получает на вход

  • Сценарий использования: какие данные, в каком объёме и с какой свежестью нужны.
  • Требования к качеству и к режиму обработки (вместе с ИБ — классификация).
  • Назначение данных: обучение, RAG-контекст, аналитика, расчёт эффекта.

Что функция отдаёт на выход

  • Доступ к источникам и витринам (или обоснованный отказ с альтернативой).
  • Оценку готовности данных: полнота, качество, история, документированность.
  • Контракт данных — согласованную структуру, свежесть, владельца и SLA.

Ключевые артефакты стыка

  • Контракт данных (data contract) — что за данные, кто владелец, какое качество и SLA гарантируется.
  • Витрина под инициативу/продукт — подготовленный слой данных для RAG, обучения или аналитики.
  • Метрики эффекта — данные, на которых считается подтверждённый эффект инициативы.

Антипаттерны

  • «Данные найдём по ходу». Инициатива стартует без проверки данных и встаёт в деливери. Лечится обязательной оценкой данных на этапе оценки.
  • Ручные выгрузки вместо витрин. Пилот живёт на разовом экспорте, который невозможно повторить в проде.
  • Нет контракта данных. Источник меняется, пайплайн ломается, и никто не отвечает за свежесть и качество.
  • Эффект некому посчитать. Данные для метрик не предусмотрели заранее, и подтвердить эффект нечем.