K-Anonimidad usando Tabu Search

Bookmark (0)
Please login to bookmark Close

Hoy en día, organizaciones públicas y privadas (bancos, hospitales, aseguradoras, aplicaciones de pedidos) gestionan grandes volúmenes de datos personales estructurados. El titular de estos datos puede querer compartirlos con investigadores o para eventos como puede ser un Hackathon, especialmente en el sector sanitario, donde tienen gran valor para estudios médicos y demográficos. Sin embargo, existe una preocupación creciente por la difusión de información confidencial, ya que, aunque muchos datos se generan con consentimiento, pueden acabar en manos no autorizadas, aumentando el riesgo de vulneraciones de privacidad, sobre todo en historiales médicos electrónicos.
La pregunta central es: ¿cómo puede un titular de datos proteger la identidad de las personas al divulgar una versión útil para la investigación, evitando su reidentificación? El tratamiento masivo de datos mediante Big Data, Inteligencia Artificial o Machine Learning obliga a implementar garantías de privacidad, como la anonimización.
Desde finales del siglo XX, se han desarrollado métodos de control de divulgación para proteger la identidad en microdatos, como el algoritmo Datafly de Sweeney (1997). Los datos personales incluyen identificadores únicos (DNI, nombre, número de seguridad social) y cuasi-identificadores (fecha de nacimiento, género, municipio de residencia), que deben ser disociados para preservar la privacidad.
La k−anonimidad cuantifica el nivel de anonimato: un individuo es k−anónimo si, para cualquier combinación de cuasi-identificadores, existen al menos otros k − 1 individuos con los mismos valores. La anonimización agrupa registros similares, reduciendo la posibilidad de identificación. Sin embargo, al cruzar datos de diferentes fuentes, existe el riesgo de reidentificación, incluso tras la anonimización, lo que puede suponer una amenaza para la privacidad.
En este trabajo, se analiza la k−anonimización y el riesgo de reidentificación, inspirándose en el artículo de Rafael Caballero sobre la anonimización de bases de datos médicas derivadas de programas de cribado, donde atributos como las citas añaden un factor de riesgo adicional al anonimato.
Para realizar dicho análisis, se focalizará en el uso del algoritmo metaheurístico de Tabu Search, considerado una mejora del algoritmo de búsqueda local debido a la incorporación de estructuras de memoria a fin de evitar óptimos locales. Se compararán los resultados con los obtenidos mediante el abordaje del algoritmo heurístico o el método exacto, buscando demostrar el equilibrio aportado por el algoritmo metaheurístico en términos de calidad de los resultados y tiempos de ejecución obtenidos.
Abstract:
Today, public and private organizations (banks, hospitals, insurers, ordering applications) manage large volumes of structured personal data. The owner of these data may want to share them with researchers or for events such as a Hackathon, especially in the healthcare sector, where it is of great value for medical and demographic studies. However, there is a growing concern about the dissemination of sensitive information because, although much data is generated with consent, it can end up in unauthorized hands, increasing the risk of privacy breaches, especially in electronic medical records.
The central question is: how can a data holder do protect the identity of individuals by disclosing a version useful for research, avoiding their re-identification? Massive data processing through Big Data, Artificial Intelligence or Machine Learning forces the implementation of privacy safeguards, such as anonymization.
Since the late 20th century, disclosure control methods have been developed to protect identity in microdata, such as Sweeney’s (1997) Datafly algorithm. Personal data include unique identifiers (ID, name, social security number) and quasi-identifiers (date of birth, gender, municipality of residence), which must be disassociated to preserve privacy.
The k−anonymity quantifies the level of anonymity: an individual is k−anonymous if, for any combination of quasi-identifiers, there are at least k −1 other individuals with the same values. Anonymization groups similar records together, reducing the possibility of identification. However, when crossing data from different sources, there is a risk of re-identification, even after anonymization, which may pose a threat to privacy.
In this work, we discuss k−anonymization and the risk of re-identification, drawing on Rafael Caballero’s article on anonymization of medical databases derived from screening programs, where attributes such as citations add an additional risk factor to anonymity.
In order to perform this analysis, we will focus on the use of the Tabu Search metaheuristic algorithm, considered an improvement of the local search algorithm due to the incorporation of memory structures in order to avoid local optimums. The results will be compared with those obtained using the heuristic algorithm or the exact method, seeking to demonstrate the balance provided by the metaheuristic algorithm in terms of quality of the results and execution times obtained.

​Hoy en día, organizaciones públicas y privadas (bancos, hospitales, aseguradoras, aplicaciones de pedidos) gestionan grandes volúmenes de datos personales estructurados. El titular de estos datos puede querer compartirlos con investigadores o para eventos como puede ser un Hackathon, especialmente en el sector sanitario, donde tienen gran valor para estudios médicos y demográficos. Sin embargo, existe una preocupación creciente por la difusión de información confidencial, ya que, aunque muchos datos se generan con consentimiento, pueden acabar en manos no autorizadas, aumentando el riesgo de vulneraciones de privacidad, sobre todo en historiales médicos electrónicos.
La pregunta central es: ¿cómo puede un titular de datos proteger la identidad de las personas al divulgar una versión útil para la investigación, evitando su reidentificación? El tratamiento masivo de datos mediante Big Data, Inteligencia Artificial o Machine Learning obliga a implementar garantías de privacidad, como la anonimización.
Desde finales del siglo XX, se han desarrollado métodos de control de divulgación para proteger la identidad en microdatos, como el algoritmo Datafly de Sweeney (1997). Los datos personales incluyen identificadores únicos (DNI, nombre, número de seguridad social) y cuasi-identificadores (fecha de nacimiento, género, municipio de residencia), que deben ser disociados para preservar la privacidad.
La k−anonimidad cuantifica el nivel de anonimato: un individuo es k−anónimo si, para cualquier combinación de cuasi-identificadores, existen al menos otros k − 1 individuos con los mismos valores. La anonimización agrupa registros similares, reduciendo la posibilidad de identificación. Sin embargo, al cruzar datos de diferentes fuentes, existe el riesgo de reidentificación, incluso tras la anonimización, lo que puede suponer una amenaza para la privacidad.
En este trabajo, se analiza la k−anonimización y el riesgo de reidentificación, inspirándose en el artículo de Rafael Caballero sobre la anonimización de bases de datos médicas derivadas de programas de cribado, donde atributos como las citas añaden un factor de riesgo adicional al anonimato.
Para realizar dicho análisis, se focalizará en el uso del algoritmo metaheurístico de Tabu Search, considerado una mejora del algoritmo de búsqueda local debido a la incorporación de estructuras de memoria a fin de evitar óptimos locales. Se compararán los resultados con los obtenidos mediante el abordaje del algoritmo heurístico o el método exacto, buscando demostrar el equilibrio aportado por el algoritmo metaheurístico en términos de calidad de los resultados y tiempos de ejecución obtenidos.
Abstract:
Today, public and private organizations (banks, hospitals, insurers, ordering applications) manage large volumes of structured personal data. The owner of these data may want to share them with researchers or for events such as a Hackathon, especially in the healthcare sector, where it is of great value for medical and demographic studies. However, there is a growing concern about the dissemination of sensitive information because, although much data is generated with consent, it can end up in unauthorized hands, increasing the risk of privacy breaches, especially in electronic medical records.
The central question is: how can a data holder do protect the identity of individuals by disclosing a version useful for research, avoiding their re-identification? Massive data processing through Big Data, Artificial Intelligence or Machine Learning forces the implementation of privacy safeguards, such as anonymization.
Since the late 20th century, disclosure control methods have been developed to protect identity in microdata, such as Sweeney’s (1997) Datafly algorithm. Personal data include unique identifiers (ID, name, social security number) and quasi-identifiers (date of birth, gender, municipality of residence), which must be disassociated to preserve privacy.
The k−anonymity quantifies the level of anonymity: an individual is k−anonymous if, for any combination of quasi-identifiers, there are at least k −1 other individuals with the same values. Anonymization groups similar records together, reducing the possibility of identification. However, when crossing data from different sources, there is a risk of re-identification, even after anonymization, which may pose a threat to privacy.
In this work, we discuss k−anonymization and the risk of re-identification, drawing on Rafael Caballero’s article on anonymization of medical databases derived from screening programs, where attributes such as citations add an additional risk factor to anonymity.
In order to perform this analysis, we will focus on the use of the Tabu Search metaheuristic algorithm, considered an improvement of the local search algorithm due to the incorporation of memory structures in order to avoid local optimums. The results will be compared with those obtained using the heuristic algorithm or the exact method, seeking to demonstrate the balance provided by the metaheuristic algorithm in terms of quality of the results and execution times obtained. Read More