Один из простых способов сохранить анонимность – это размывать в фоторедакторе лицо, номера, названия улиц и тому подобное. Но этот метод оказывается бессильным против современных алгоритмов. Ученые Университета Техаса и Университета Корнелла говорят, что последние технологии машинного обучения легко отгадывают за размытыми пикселями реальные данные.
Ученые показали, что размытие чувствительных данных на фото не позволяет увидеть информацию только людям – они угадывают пикселизироанное лицо с вероятностью 0,19%. Одновременно программный алгоритм для стандартного в индустрии набора данных имеет точность 71% для единой попытки и повышает свои показатели до 83%, если дать программе угадывать пять раз. При этом алгоритм не убирает размытие на фото – он угадывает то, что за ним скрывается.
Ученые также попытались использовать свою технологию в реальной атаке – распознать людей, лица которых размыто в роликах YouTube. Сначала они взяли базу фотографий людей и размыли на них лица инструментами YouTube. Это позволило натренировать систему машинного обучения на основе глубокой нейронной сети. После этого алгоритм узнавал людей с размытыми лицами с точностью 57% при однократной обработке и с 85% точностью, если машина делала пять попыток.
«Это достаточно простой механизм, – говорит один из исследователей Ричард МакФерсон. – Единственное действительное ограничение – это иметь набор данных, на которых можно тренировать машинное обучение. Но это можно решить».