На семинаре в МГУ обсудили деперсонификацию больших данных - Институт развития информационного общества

На семинаре в МГУ обсудили деперсонификацию больших данных

11 декабря 2019 г. в Национальном центре цифровой экономики МГУ (НЦЦЭ МГУ) состоялся семинар по теме «Деперсонификация (анонимизация) больших данных». Мероприятие было организовано Центром компетенций НТИ по большим данным (структурным подразделением НЦЦЭ МГУ) совместно с Техническим комитетом по стандартизации «Искусственный интеллект» (ТК 164). Председатель Совета директоров ИРИО Юрий Хохлов принял участие в семинаре

ТК 164 создан по инициативе РВК как зеркальное отражение на национальном уровне профильного международного подкомитета ISO/IEC JTC 1 SC 42 Artificial Intelligence, в рамках которого, в частности, действует рабочая группа (РГ) «Большие данные». В российском ТК 164 функции секретариата РГ 02 «Большие данные» выполняются Московским университетом, а именно – Центром компетенций НТИ по хранению и анализу больших данных.

С приветственным словом к участникам семинара обратился советник НЦЦЭ МГУ, член Наблюдательного совета Центра НТИ по большим данным, председатель Совета директоров Института развития информационного общества Юрий Хохлов:

«Сегодня мы проводим семинар, посвященный деперсонификации персональных данных – тема, которая достаточно горячая сейчас. Мы обсуждаем ее в рамках деятельности Технического комитета по стандартизации “Искусственный интеллект” (ТК 164)».

В семинаре также приняли участие заинтересованные эксперты, в частности, представители ТК 26 «Криптографическая защита информации», ТК 362 «Защита информации», Ассоциации больших данных. Юрий Хохлов отметил, что ее представители выступили с инициативой создания целого ряда национальных стандартов, не имеющих аналогов на международном уровне.

О необходимости совместной работы экспертов над стандартами в области защиты информации рассказал Сергей Гарбук, председатель ТК 164, директор по научным проектам НИУ «Высшая школа экономики»:

«Безусловно, вопрос защиты информации в системах искусственного интеллекта является смежным между различными техническими комитетами. Мы собираемся так же его и решать».

Эксперт отметил: «Создание и эксплуатация систем искусственного интеллекта очень тесно связана со сбором, обработкой, хранением больших данных. И зачастую при этом возникают вопросы, связанные с обеспечением информационной безопасности этих данных. Необходимость выполнения этих требований накладывает определенные рамки на создание и применение систем искусственного интеллекта. Эта проблема настолько актуальна и важна, что на необходимость поиска компромисса между безусловным соблюдением требований в области информационной безопасности и обнаружением эффективных механизмов создания комфортных условий для разработки и внедрения систем искусственного интеллекта обратил внимание Президент Российской Федерации на прошедшей примерно месяц назад конференции AI Journey под эгидой Сбербанка».

Сергей Гарбук перечислил некоторые особенности, связанные с интеллектуальными информационными технологиями и деперсонификацией данных:

«Первое – это то, что зачастую данные, которые предстоит обрабатывать в процессе реальной эксплуатации систем, являются конфиденциальными. Но сама модель сбора (сами условия получения) этих данных не представляет собой никакой тайны и является первичной, может быть предоставлена разработчиками систем искусственного интеллекта. В этом плане встает вопрос о создании обезличенных, анонимных наборов данных, которые не являются конфиденциальными, могут обрабатываться в открытом режиме, но наборы, которые по своим информационным характеристикам полностью соответствуют, эквиваленты тестовым выборкам».

Вторая особенность, по словам Сергея Гарбука, заключается в том, что в процессе эксплуатации систем искусственного интеллекта уровень конфиденциальности данных может возрастать, то есть данные, которые не являются конфиденциальными на ранней стадии (например, потому что были обезличены), по мере накопления позволяют снова восстановить личность человека.

«Через год этих данных становится столько, что они однозначно указывают на конкретную персону, данные де-факто становятся персональными. Соответственно, нужно реагировать на это, принимать меры по защите уже вновь образовавшихся персональных данных», – пояснил Сергей Гарбук.

«Наконец, третий момент, на который тоже хотелось бы обратить внимание, – то, что конфиденциальными, подлежащими защите, являются не только данные систем искусственного интеллекта, но и, скажем, архитектура нейронных сетей, которая используется для обработки этих данных, потому что знание архитектуры злоумышленником существенно повышает его возможности по реализации ряда специфических атак на системы искусственного интеллекта», – обратил внимание Сергей Гарбук.

Далее Михаил Забежайло, заведующий отделом интеллектуального анализа данных и автоматизированной поддержки научных исследований ФИЦ «Информатика и управление» РАН, рассказал о некоторых наукоемких аспектах деперсонификации.

Среди наиболее актуальных угроз в данной области докладчик выделил следующие:

Контекстные «ключи», позволяющие по недеперсонифицированным данным указать на конкретную личность, и доступность таких «ключей»;
Каким должен быть правильный ответ?
Что именно должно быть подвержено «зашумлению»?

Эксперт пояснил: «Мы должны не только указать, каким должен быть правильный ответ (даже на модифицированных данных). Мы должны позаботиться, чтобы даже при соответствующем “зашумлении” этих данных была проделана работа с тем, что условно названо контекстные “ключи”».

По словам Михаила Забежайло, при управлении рисками можно использовать следующие меры:

Юридические (NDA, или Non-disclosure agreement, а также персональная ответственность в случае утечки информации);
Организационные (разграничение доступа);
Технические (получение условно реальных данных из реальных).

«Научиться генерировать данные, которые были бы похожи на реальные, были бы условно реальными, но такими, где мы можем по генерированным данным точно сказать, что такое правильный ответ, чтобы иметь возможность проверить соответствие, – это и оказывается основной задачей», – поделился Михаил Забежайло.

Андрей Костогрызов, главный научный сотрудник ФИЦ «Информатика и управление» РАН, в своем выступлении рассказал об использовании методов системной инженерии и теории вероятности для прогнозирования рисков

Максим Елец, представитель Ассоциации больших данных, обратил внимание на то, как организация подходит к обезличиванию данных. Сегодня ее членами являются «Яндекс», Mail.Ru Group, Сбербанк, Газпромбанк, «Тинькофф Банк», «Мегафон», «Ростелеком», oneFactor, QIWI, «Билайн», Аналитический центр при Правительстве РФ.

Далее состоялась дискуссия участников встречи.

Подводя итоги семинара, Юрий Хохлов пригласил экспертов к прямому сотрудничеству по целому ряду стандартов, связанных с большими данными.

По материалам: https://digital.msu.ru/на-семинаре-в-нццэ-мгу-обсудили-деперс/

Партнеры

UN Public Administration Network

ИИТО ЮНЕСКО – Институт ЮНЕСКО по информационным технологиям в образовании

Тематическая группа Всемирного банка по электронному развитию

Правительство Республики Мордовия

Кабинет Министров Республики Татарстан

Правительство Рязанской области

Академия народного хозяйства при Правительстве Российской Федерации

Группа компаний POLYMEDIA

Объединение сетей FREEnet

Российский комитет программы ЮНЕСКО "Информация для всех"

Членство
Глобальное партнерство во имя Знания Партнерство для развития информационного общества в России Российская инженерная академия