Перейти к основному содержимому

Управление данными

Назначение

Документ определяет, как в ИИ-конвейере проверяются данные для инициатив: наличие, качество, доступ, конфиденциальность, законность обработки и пригодность для деливери.

Данные — один из главных источников провала инициатив. Если вопрос данных откладывается до деливери, команда часто поздно узнаёт, что нужного источника нет, доступ невозможен, качество низкое или данные нельзя использовать в выбранном контуре.

Основные идеи

  • Владелец данных должен быть известен. Нельзя строить инициативу на источнике, за который никто не отвечает.
  • Качество данных проверяется до деливери. На этапе оценки достаточно предварительной проверки, но перед внедрением нужны факты.
  • Доступ должен соответствовать цели. Доступ для анализа, обучения, проверки и рабочей эксплуатации — это разные режимы.
  • Чувствительные данные требуют отдельного контроля. Персональные данные, банковская тайна, коммерческая тайна и клиентская информация не должны попадать в неподходящие контуры.
  • Минимизация важнее удобства. Инициатива должна использовать только те данные, которые действительно нужны для результата.

Как это работает

Управление данными встроено в контрольные точки:

ЭтапЧто проверяетсяТиповое решение
Новаяпонятно ли, какие данные могут потребоватьсяотправить в оценку или уточнить бриф
Оценкасуществуют ли источники, кто владелец, есть ли ограничениявыбрать продукт, запросить доступ, отложить или отклонить
Деливерикачество, доступ, контур обработки, маскирование, журналированиеразрешить разработку, ограничить контур, запросить доработку
Ожидает эффектадоступны ли фактические данные для измерения результатаподтвердить эффект или пересмотреть методику
Поддержкастабильность источников, контроль качества, изменение доступапродолжать, пересмотреть или остановить решение

Связанные разделы: модель управления ИИ, риски ИИ, архитектурное управление.


Минимальная карточка данных

Для инициативы нужно фиксировать:

  • какие источники данных используются;
  • кто владелец каждого источника;
  • для чего используются данные;
  • какие поля или наборы данных нужны;
  • есть ли персональные данные;
  • есть ли банковская или коммерческая тайна;
  • где данные будут обрабатываться;
  • кто получает доступ;
  • как долго данные хранятся;
  • как данные удаляются или обезличиваются;
  • какой показатель качества данных критичен для результата.

Не всегда это должна быть отдельная большая форма. На ранней зрелости достаточно набора обязательных полей в карточке инициативы и задач на уточнение.


Классификация данных

Минимальная классификация:

КлассПримерыКонтроль
Открытыепубличные справочники, опубликованные материалыбазовая проверка источника
Внутренниерегламенты, инструкции, обезличенные показателидоступ только сотрудникам и разрешённым контурам
Конфиденциальныеуправленческая отчётность, коммерческие данные, договорыограничение доступа, журналирование, согласование владельца
Чувствительныеперсональные данные, банковская тайна, клиентские операцииотдельное согласование, минимизация, маскирование, закрытый контур
Критичныеданные, влияющие на деньги, риск, юридические действия или безопасностьрасширенный контроль, независимая проверка, план отката

Класс данных влияет на то, какой продукт ИИ можно использовать, где можно обрабатывать данные и какие артефакты нужны для перехода дальше.


Проверка качества данных

Качество данных оценивается не вообще, а относительно задачи.

Минимальные критерии:

  • полнота — хватает ли данных для решения;
  • актуальность — не устарели ли данные;
  • точность — насколько данные отражают реальный процесс;
  • стабильность — не меняется ли структура источника без предупреждения;
  • связность — можно ли сопоставить данные между системами;
  • воспроизводимость — можно ли повторить расчёт или обучение;
  • доступность — можно ли получать данные в нужной частоте.

Если качество данных неизвестно, инициатива может идти в оценку, но не должна идти в полноценную деливери без задачи на проверку данных.


Доступы и контуры

Для каждой инициативы нужно различать режимы доступа:

  • просмотр данных для оценки;
  • выгрузка ограниченного набора для проверки;
  • обработка в изолированном контуре;
  • обучение или настройка решения;
  • рабочий доступ в эксплуатации;
  • доступ ИИ-помощника или агентного сценария.

Правило: чем выше чувствительность данных и влияние решения, тем меньше ручных выгрузок и тем строже контур обработки.

Для внешних или облачных сервисов должны быть отдельно проверены:

  • можно ли передавать туда данные;
  • где физически обрабатывается информация;
  • кто имеет доступ к журналам;
  • используются ли данные для обучения внешних моделей;
  • можно ли удалить данные по требованию;
  • есть ли договорные и регуляторные ограничения.

Что блокирует переход

Инициатива не должна переходить в деливери, если:

  • не выбран источник данных;
  • неизвестен владелец данных;
  • данные чувствительные, но нет решения по контуру обработки;
  • нет разрешения на использование данных для выбранной цели;
  • качество данных не позволяет проверить гипотезу;
  • продукт ИИ не подходит для класса данных;
  • безопасность дала отрицательное заключение;
  • невозможно измерить эффект из доступных источников.

Инициатива может идти дальше с ограничением, если риск понятен, есть владелец исключения и назначены компенсирующие действия.


Роль ИИ-помощника

ИИ-помощник может помогать:

  • собрать описание источников данных;
  • задать вопросы о владельце и доступе;
  • подготовить черновик классификации;
  • подсказать риски обработки;
  • сформировать задачи на проверку данных;
  • подготовить описание для безопасности или архитектуры.

Но ИИ-помощник не должен самостоятельно разрешать использование чувствительных данных. Решение остаётся за владельцем данных, безопасностью и ответственными ролями.


Анти-паттерны

Плохое управление данными:

  • «данные потом найдём»;
  • выгрузки на личные компьютеры;
  • обучение на данных без цели и срока хранения;
  • отсутствие владельца источника;
  • использование клиентских данных в неподходящем контуре;
  • эффект считается по показателю, к которому нет доступа;
  • качество данных проверяется после разработки прототипа.

Хорошее управление данными делает данные частью ранней оценки, а не поздним препятствием.