Управление данными

Назначение

Документ определяет, как в ИИ-конвейере проверяются данные для инициатив: наличие, качество, доступ, конфиденциальность, законность обработки и пригодность для деливери.

Данные — один из главных источников провала инициатив. Если вопрос данных откладывается до деливери, команда часто поздно узнаёт, что нужного источника нет, доступ невозможен, качество низкое или данные нельзя использовать в выбранном контуре.

Основные идеи

Владелец данных должен быть известен. Нельзя строить инициативу на источнике, за который никто не отвечает.
Качество данных проверяется до деливери. На этапе оценки достаточно предварительной проверки, но перед внедрением нужны факты.
Доступ должен соответствовать цели. Доступ для анализа, обучения, проверки и рабочей эксплуатации — это разные режимы.
Чувствительные данные требуют отдельного контроля. Персональные данные, банковская тайна, коммерческая тайна и клиентская информация не должны попадать в неподходящие контуры.
Минимизация важнее удобства. Инициатива должна использовать только те данные, которые действительно нужны для результата.

Как это работает

Управление данными встроено в контрольные точки:

Этап	Что проверяется	Типовое решение
Новая	понятно ли, какие данные могут потребоваться	отправить в оценку или уточнить бриф
Оценка	существуют ли источники, кто владелец, есть ли ограничения	выбрать продукт, запросить доступ, отложить или отклонить
Деливери	качество, доступ, контур обработки, маскирование, журналирование	разрешить разработку, ограничить контур, запросить доработку
Ожидает эффекта	доступны ли фактические данные для измерения результата	подтвердить эффект или пересмотреть методику
Поддержка	стабильность источников, контроль качества, изменение доступа	продолжать, пересмотреть или остановить решение

Связанные разделы: модель управления ИИ, риски ИИ, архитектурное управление.

Минимальная карточка данных

Для инициативы нужно фиксировать:

какие источники данных используются;
кто владелец каждого источника;
для чего используются данные;
какие поля или наборы данных нужны;
есть ли персональные данные;
есть ли банковская или коммерческая тайна;
где данные будут обрабатываться;
кто получает доступ;
как долго данные хранятся;
как данные удаляются или обезличиваются;
какой показатель качества данных критичен для результата.

Не всегда это должна быть отдельная большая форма. На ранней зрелости достаточно набора обязательных полей в карточке инициативы и задач на уточнение.

Классификация данных

Минимальная классификация:

Класс	Примеры	Контроль
Открытые	публичные справочники, опубликованные материалы	базовая проверка источника
Внутренние	регламенты, инструкции, обезличенные показатели	доступ только сотрудникам и разрешённым контурам
Конфиденциальные	управленческая отчётность, коммерческие данные, договоры	ограничение доступа, журналирование, согласование владельца
Чувствительные	персональные данные, банковская тайна, клиентские операции	отдельное согласование, минимизация, маскирование, закрытый контур
Критичные	данные, влияющие на деньги, риск, юридические действия или безопасность	расширенный контроль, независимая проверка, план отката

Класс данных влияет на то, какой продукт ИИ можно использовать, где можно обрабатывать данные и какие артефакты нужны для перехода дальше.

Проверка качества данных

Качество данных оценивается не вообще, а относительно задачи.

Минимальные критерии:

полнота — хватает ли данных для решения;
актуальность — не устарели ли данные;
точность — насколько данные отражают реальный процесс;
стабильность — не меняется ли структура источника без предупреждения;
связность — можно ли сопоставить данные между системами;
воспроизводимость — можно ли повторить расчёт или обучение;
доступность — можно ли получать данные в нужной частоте.

Если качество данных неизвестно, инициатива может идти в оценку, но не должна идти в полноценную деливери без задачи на проверку данных.

Доступы и контуры

Для каждой инициативы нужно различать режимы доступа:

просмотр данных для оценки;
выгрузка ограниченного набора для проверки;
обработка в изолированном контуре;
обучение или настройка решения;
рабочий доступ в эксплуатации;
доступ ИИ-помощника или агентного сценария.

Правило: чем выше чувствительность данных и влияние решения, тем меньше ручных выгрузок и тем строже контур обработки.

Для внешних или облачных сервисов должны быть отдельно проверены:

можно ли передавать туда данные;
где физически обрабатывается информация;
кто имеет доступ к журналам;
используются ли данные для обучения внешних моделей;
можно ли удалить данные по требованию;
есть ли договорные и регуляторные ограничения.

Что блокирует переход

Инициатива не должна переходить в деливери, если:

не выбран источник данных;
неизвестен владелец данных;
данные чувствительные, но нет решения по контуру обработки;
нет разрешения на использование данных для выбранной цели;
качество данных не позволяет проверить гипотезу;
продукт ИИ не подходит для класса данных;
безопасность дала отрицательное заключение;
невозможно измерить эффект из доступных источников.

Инициатива может идти дальше с ограничением, если риск понятен, есть владелец исключения и назначены компенсирующие действия.

Роль ИИ-помощника

ИИ-помощник может помогать:

собрать описание источников данных;
задать вопросы о владельце и доступе;
подготовить черновик классификации;
подсказать риски обработки;
сформировать задачи на проверку данных;
подготовить описание для безопасности или архитектуры.

Но ИИ-помощник не должен самостоятельно разрешать использование чувствительных данных. Решение остаётся за владельцем данных, безопасностью и ответственными ролями.

Анти-паттерны

Плохое управление данными:

«данные потом найдём»;
выгрузки на личные компьютеры;
обучение на данных без цели и срока хранения;
отсутствие владельца источника;
использование клиентских данных в неподходящем контуре;
эффект считается по показателю, к которому нет доступа;
качество данных проверяется после разработки прототипа.

Хорошее управление данными делает данные частью ранней оценки, а не поздним препятствием.

Назначение​

Основные идеи​

Как это работает​

Минимальная карточка данных​

Классификация данных​

Проверка качества данных​

Доступы и контуры​

Что блокирует переход​

Роль ИИ-помощника​

Анти-паттерны​