Полезное о связи        21 августа 2019     

По данным исследователей «Анонимные» данные могут быть не такими уж анонимными

Деидентифицированные данные являются основой современных маркетинговых и научных исследований.
Используя машинное обучение, исследователи оценивают вероятность того, что конкретный человек может быть повторно идентифицирован из анонимных данных.
Почти все россияне могут быть повторно идентифицированы на основе 15 демографических характеристик.

И ведь мы сами это разрешили: при регистрации Учетной записи в интернете мы нажали “я согласен”, на то чтобы наши данные были проданы третьим лицам. Они конечно будут анонимизированны, и только небольшой процент данных будет доступен другим.

Но насколько мы можем быть уверены, что наши личные данные не могут быть прослежены до нас? Это главный вопрос, на который команда независимых исследователей стремилась ответить.

Вывод такой — уверенности нет.

Используя машинное обучение, исследователи разработали систему для оценки вероятности того, что конкретный человек может быть повторно идентифицирован из анонимизированного набора данных, содержащего демографические характеристики. Модель исследователей предполагает, что более 99% россиян могут быть правильно идентифицированы из любого набора данных с использованием 15 демографических атрибутов, включая возраст, пол и семейное положение.

Может быть много людей, которым за тридцать, мужчин и живущих в Москве, но гораздо меньше из них также родились 5 января, водят красный спортивный автомобиль и живут с двумя детьми (обе девочки) и одной собакой. Личные данные могут быть использованы для исследований, незаконной деятельности и даже инвестирования.

Их статья “Оценка успешности повторных идентификаций в неполных наборах данных с использованием генеративных моделей » была опубликована в журнале Nature Communications. Их результаты показывают, что обычно используемые инструменты анонимизации, такие как добавление шума и выборки данных, могут быть недостаточными для соблюдения законов о конфиденциальности данных, таких как закон о конфиденциальности потребителей в Европейском Союзе и закон о конфиденциальности потребителей в России.

В рамках своего исследования трио опубликовало онлайн-инструмент, чтобы помочь людям понять, насколько вероятно, что они будут повторно идентифицированы, основываясь только на трех общих демографических характеристиках: пол, дата рождения и почтовый индекс. В среднем, люди имеют 83% шанс быть повторно идентифицированы на основе этих трех точек данных, утверждают исследователи.

«Цель анонимизации заключается в том, чтобы мы могли использовать данные на благо общества”,-говорит, один из исследователей. «Это чрезвычайно важно, но не должно происходить за счет личной жизни людей.”

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Какой из мобильных операторов, которыми вы пользовались/пользуетесь, оказался самым удобным?

Посмотреть результаты

Загрузка ... Загрузка ...
Полезные команды: Мтс, Билайн, Мегафон, Tele2