La creciente cantidad de páginas web y aplicaciones, y la complejidad de normativas como el Reglamento General de Protección de Datos (RGPD) dificultan la supervisión manual de su cumplimiento por parte de las autoridades competentes. Este trabajo presenta el desarrollo y la evaluación de una prueba de concepto para el procesamiento automático de requisitos específicos de transparencia, concretamente la identificación y los datos de contacto del responsable del tratamiento y del Delegado de Protección de Datos (DPO) según los Artículos 13.1.a y 13.1.b del RGPD.
Se empleó una metodología basada en Modelos de Lenguaje Grandes (LLMs), con un énfasis en la ingeniería de prompts para guiar la extracción de información de manera estructurada. El método se validó inicialmente utilizando un conjunto de 101 políticas de privacidad anotadas manualmente, donde el modelo GPT-4o demostró un rendimiento F1-Score de 0,97 para la identidad del responsable y 0,80 para la del DPO. Posteriormente, se aplicó el método a un conjunto mayor de 936 políticas de aplicaciones móviles Android para evaluar su escalabilidad y analizar el estado actual de la transparencia.
Los resultados de la evaluación a gran escala confirman la viabilidad técnica del enfoque y revelan deficiencias significativas en la provisión de información de contacto del DPO (identificado solo en un 20% de las políticas). Este trabajo concluye que el método propuesto puede ser útil para agilizar la labor de las agencias de protección de datos, a la vez que evidencia la necesidad de mejorar las prácticas de transparencia en el ecosistema de aplicaciones móviles. Se discuten también las limitaciones del estudio y las líneas futuras de investigación.
Abstract:
The increasing number of websites and applications, and the complexity of regulations such as the General Data Protection Regulation (GDPR) make it difficult for competent authorities to manually monitor compliance. This paper presents the development and evaluation of a proof of concept for the automatic processing of specific transparency requirements, namely the identification and contact details of the controller and the Data Protection Officer (DPO) according to Articles 13.1.a and 13.1.b of the GDPR.
A methodology based on Large Language Models (LLMs) was employed, with an emphasis on engineering prompts to guide the extraction of information in a structured manner. The method was initially validated using a set of 101 manually annotated privacy policies, where the GPT-4o model demonstrated an F1-Score performance of 0.97 for the identity of the responsible party and 0.80 for that of the DPO. Subsequently, the method was applied to a larger set of 936 Android mobile app policies to evaluate their scalability and analyze the current state of transparency.
The results of the large-scale evaluation confirm the technical feasibility of the approach and reveal significant shortcomings in the provision of DPO contact information (identified in only 20% of the policies). This paper concludes that the proposed method can be useful in streamlining the work of data protection agencies, while evidencing the need to improve transparency practices in the mobile app ecosystem. Limitations of the study and future lines of research are also discussed.
La creciente cantidad de páginas web y aplicaciones, y la complejidad de normativas como el Reglamento General de Protección de Datos (RGPD) dificultan la supervisión manual de su cumplimiento por parte de las autoridades competentes. Este trabajo presenta el desarrollo y la evaluación de una prueba de concepto para el procesamiento automático de requisitos específicos de transparencia, concretamente la identificación y los datos de contacto del responsable del tratamiento y del Delegado de Protección de Datos (DPO) según los Artículos 13.1.a y 13.1.b del RGPD.
Se empleó una metodología basada en Modelos de Lenguaje Grandes (LLMs), con un énfasis en la ingeniería de prompts para guiar la extracción de información de manera estructurada. El método se validó inicialmente utilizando un conjunto de 101 políticas de privacidad anotadas manualmente, donde el modelo GPT-4o demostró un rendimiento F1-Score de 0,97 para la identidad del responsable y 0,80 para la del DPO. Posteriormente, se aplicó el método a un conjunto mayor de 936 políticas de aplicaciones móviles Android para evaluar su escalabilidad y analizar el estado actual de la transparencia.
Los resultados de la evaluación a gran escala confirman la viabilidad técnica del enfoque y revelan deficiencias significativas en la provisión de información de contacto del DPO (identificado solo en un 20% de las políticas). Este trabajo concluye que el método propuesto puede ser útil para agilizar la labor de las agencias de protección de datos, a la vez que evidencia la necesidad de mejorar las prácticas de transparencia en el ecosistema de aplicaciones móviles. Se discuten también las limitaciones del estudio y las líneas futuras de investigación.
Abstract:
The increasing number of websites and applications, and the complexity of regulations such as the General Data Protection Regulation (GDPR) make it difficult for competent authorities to manually monitor compliance. This paper presents the development and evaluation of a proof of concept for the automatic processing of specific transparency requirements, namely the identification and contact details of the controller and the Data Protection Officer (DPO) according to Articles 13.1.a and 13.1.b of the GDPR.
A methodology based on Large Language Models (LLMs) was employed, with an emphasis on engineering prompts to guide the extraction of information in a structured manner. The method was initially validated using a set of 101 manually annotated privacy policies, where the GPT-4o model demonstrated an F1-Score performance of 0.97 for the identity of the responsible party and 0.80 for that of the DPO. Subsequently, the method was applied to a larger set of 936 Android mobile app policies to evaluate their scalability and analyze the current state of transparency.
The results of the large-scale evaluation confirm the technical feasibility of the approach and reveal significant shortcomings in the provision of DPO contact information (identified in only 20% of the policies). This paper concludes that the proposed method can be useful in streamlining the work of data protection agencies, while evidencing the need to improve transparency practices in the mobile app ecosystem. Limitations of the study and future lines of research are also discussed. Read More


