Управление данными
Назначение
Документ определяет, как в ИИ-конвейере проверяются данные для инициатив: наличие, качество, доступ, конфиденциальность, законность обработки и пригодность для деливери.
Данные — один из главных источников провала инициатив. Если вопрос данных откладывается до деливери, команда часто поздно узнаёт, что нужного источника нет, доступ невозможен, качество низкое или данные нельзя использовать в выбранном контуре.
Основные идеи
- Владелец данных должен быть известен. Нельзя строить инициативу на источнике, за который никто не отвечает.
- Качество данных проверяется до деливери. На этапе оценки достаточно предварительной проверки, но перед внедрением нужны факты.
- Доступ должен соответствовать цели. Доступ для анализа, обучения, проверки и рабочей эксплуатации — это разные режимы.
- Чувствительные данные требуют отдельного контроля. Персональные данные, банковская тайна, коммерческая тайна и клиентская информация не должны попадать в неподходящие контуры.
- Минимизация важнее удобства. Инициатива должна использовать только те данные, которые действительно нужны для результата.
Как это работает
Управление данными встроено в контрольные точки:
| Этап | Что проверяется | Типовое решение |
|---|---|---|
| Новая | понятно ли, какие данные могут потребоваться | отправить в оценку или уточнить бриф |
| Оценка | существуют ли источники, кто владелец, есть ли ограничения | выбрать продукт, запросить доступ, отложить или отклонить |
| Деливери | качество, доступ, контур обработки, маскирование, журналирование | разрешить разработку, ограничить контур, запросить доработку |
| Ожидает эффекта | доступны ли фактические данные для измерения результата | подтвердить эффект или пересмотреть методику |
| Поддержка | стабильность источников, контроль качества, изменение доступа | продолжать, пересмотреть или остановить решение |
Связанные разделы: модель управления ИИ, риски ИИ, архитектурное управление.
Минимальная карточка данных
Для инициативы нужно фиксировать:
- какие источники данных используются;
- кто владелец каждого источника;
- для чего используются данные;
- какие поля или наборы данных нужны;
- есть ли персональные данные;
- есть ли банковская или коммерческая тайна;
- где данные будут обрабатываться;
- кто получает доступ;
- как долго данные хранятся;
- как данные удаляются или обезличиваются;
- какой показатель качества данных критичен для результата.
Не всегда это должна быть отдельная большая форма. На ранней зрелости достаточно набора обязательных полей в карточке инициативы и задач на уточнение.
Классификация данных
Минимальная классификация:
| Класс | Примеры | Контроль |
|---|---|---|
| Открытые | публичные справочники, опубликованные материалы | базовая проверка источника |
| Внутренние | регламенты, инструкции, обезличенные показатели | доступ только сотрудникам и разрешённым контурам |
| Конфиденциальные | управленческая отчётность, коммерческие данные, договоры | ограничение доступа, журналирование, согласование владельца |
| Чувствительные | персональные данные, банковская тайна, клиентские операции | отдельное согласование, минимизация, маскирование, закрытый контур |
| Критичные | данные, влияющие на деньги, риск, юридические действия или безопасность | расширенный контроль, независимая проверка, план отката |
Класс данных влияет на то, какой продукт ИИ можно использовать, где можно обрабатывать данные и какие артефакты нужны для перехода дальше.
Проверка качества данных
Качество данных оценивается не вообще, а относительно задачи.
Минимальные критерии:
- полнота — хватает ли данных для решения;
- актуальность — не устарели ли данные;
- точность — насколько данные отражают реальный процесс;
- стабильность — не меняется ли структура источника без предупреждения;
- связность — можно ли сопоставить данные между системами;
- воспроизводимость — можно ли повторить расчёт или обучение;
- доступность — можно ли получать данные в нужной частоте.
Если качество данных неизвестно, инициатива может идти в оценку, но не должна идти в полноценную деливери без задачи на проверку данных.
Доступы и контуры
Для каждой инициативы нужно различать режимы доступа:
- просмотр данных для оценки;
- выгрузка ограниченного набора для проверки;
- обработка в изолированном контуре;
- обучение или настройка решения;
- рабочий доступ в эксплуатации;
- доступ ИИ-помощника или агентного сценария.
Правило: чем выше чувствительность данных и влияние решения, тем меньше ручных выгрузок и тем строже контур обработки.
Для внешних или облачных сервисов должны быть отдельно проверены:
- можно ли передавать туда данные;
- где физически обрабатывается информация;
- кто имеет доступ к журналам;
- используются ли данные для обучения внешних моделей;
- можно ли удалить данные по требованию;
- есть ли договорные и регуляторные ограничения.
Что блокирует переход
Инициатива не должна переходить в деливери, если:
- не выбран источник данных;
- неизвестен владелец данных;
- данные чувствительные, но нет решения по контуру обработки;
- нет разрешения на использование данных для выбранной цели;
- качество данных не позволяет проверить гипотезу;
- продукт ИИ не подходит для класса данных;
- безопасность дала отрицательное заключение;
- невозможно измерить эффект из доступных источников.
Инициатива может идти дальше с ограничением, если риск понятен, есть владелец исключения и назначены компенсирующие действия.
Роль ИИ-помощника
ИИ-помощник может помогать:
- собрать описание источников данных;
- задать вопросы о владельце и доступе;
- подготовить черновик классификации;
- подсказать риски обработки;
- сформировать задачи на проверку данных;
- подготовить описание для безопасности или архитектуры.
Но ИИ-помощник не должен самостоятельно разрешать использование чувствительных данных. Решение остаётся за владельцем данных, безопасностью и ответственными ролями.
Анти-паттерны
Плохое управление данными:
- «данные потом найдём»;
- выгрузки на личные компьютеры;
- обучение на данных без цели и срока хранения;
- отсутствие владельца источника;
- использование клиентских данных в неподходящем контуре;
- эффект считается по показателю, к которому нет доступа;
- качество данных проверяется после разработки прототипа.
Хорошее управление данными делает данные частью ранней оценки, а не поздним препятствием.