Системы машинного обучения ослабляют защиту персональных данных
Системы машинного обучения все чаще применяют не только в технологиях, влияющих на нашу повседневную жизнь, но и в тех областях, где происходит наблюдение и анализ полученных данных с помощью компьютерных систем, включая системы распознавания лиц. Компании, которые создают и используют такие услуги, полагаются на так называемые инструменты сохранения конфиденциальности, которые часто используют сторонние генеративные конкурирующие сети (GANs), например, для очистки изображений людей.
Ученые, занимающиеся испытанием механизмов машинного обучения, обнаружили, что частные данные все еще могут быть восстановлены из изображений, которые ранее были «санированы» генеративными системами GANs, даже несмотря на их глубокое обучение и успешно пройденные эмпирические тесты. Причем некоторые из них в ходе проверки конфиденциальности могли быть фактически разрушены, но в то же время позволяли извлекать секретную информацию из дезинфицированных изображений.
В очередной раз испытав разные сторонние инструменты для защиты частной жизни людей, которые могут оказаться заснятыми на камере наблюдения или при сборе персональных данных, ученые убедились, что именно системы машинного обучения нередко используются для манипулирования изображениями. Более того, система PP-GAN, пройдя все существующие проверки конфиденциальности, позволяла скрывать секретные данные, относящиеся к чувствительным атрибутам, и при этом была «не против» реконструировать исходный частный образ. Ученые, поняв, на что способны системы машинного обучения, сформулировали такой сценарий атаки, при которой происходит нарушение эмпирических проверок конфиденциальности.
После попытки реализовать свой сценарий, ученые выяснили, что существующие проверки конфиденциальности недостаточны для обнаружения утечки конфиденциальной информации. Современная система PP-GAN позволяет скрыть идентификатор пользователя от дезинфицированных изображений лиц. Это означает, что она может успешно скрывать чувствительные атрибуты в «очищенных» выходных изображениях, которые проходят проверку конфиденциальности. Однако эмпирические показатели зависят не только от способности дискриминаторов к обучению, но и от бюджета, поэтому такие проверки конфиденциальности не обладают необходимой строгостью для обеспечения конфиденциальности.
С практической точки зрения, существующие проверки конфиденциальности на основе DL при использовании ненадежных сторонних инструментов PP-GAN приводят к ослаблению защиты персональных данных.