Smartphones have seen widespread adoption in society, largely due to their Internet connectivity and their ability to perform a wide range of activities—from work-related tasks like document creation and editing to multimedia consumption. However, while their capabilities have been significantly enhanced by the advent and proliferation of mobile applications, they also introduce risks for users. The numerous sensors integrated into these devices and their extensive connectivity enable the collection and transfer of vast amounts of personal data, making it possible to identify users and track their behavior, movements, and usage patterns. This practice, mainly driven by business models based on hyper-targeted advertising, poses a considerable risk to privacy. In response to this and other challenges in our digital society, the European Union enacted the General Data Protection Regulation (GDPR) to promote greater protection and handling of personal data.
Evaluating the regulatory compliance of mobile applications with the GDPR is a formidable challenge, particularly in fast-paced environments like the Google Play Store, where thousands of apps are published and updated daily. The sheer volume and frequency of these changes make manual inspection impractical, and the widespread use of third-party libraries further compounds this challenge. Although these libraries allow developers to rapidly integrate new functionalities, they often collect and transfer user data without the developers’ awareness.
Within the framework of the AutoGDPR project, which the Spanish government funded with European funds, this thesis contributes a set of methods and artifacts that allow for the comprehensive analysis of mobile app behavior. The approach involves the use of both static and dynamic techniques—employing tools such as Mitmproxy and Frida—to assess app behavior, as well as the automation of privacy policy and privacy label processing through natural language processing techniques and large language models. Moreover, GDPR requirements have necessarily been translated into programmable rules that enable automatic evaluations, with frequent collaboration with legal experts to ensure accuracy.
The developed methods and artifacts have been integrated into a modular platform based on technologies like Docker and RabbitMQ, facilitating large-scale studies and the extraction of empirical evidence. The results from these studies reveal widespread non-compliance with transparency obligations: more than 80% of the analyzed apps potentially fail to meet GDPR requirements regarding the disclosure of data transfers to third parties, and significant shortcomings exist in the privacy configurations of third-party libraries, which are responsible for over 70% of undeclared data transfers. Additionally, about 50% of privacy policies do not correctly state the data retention periods, and 48% of those transferring data do so to servers outside the European Union without proper declaration, as required by the GDPR. Furthermore, studies have shown that privacy labels often do not match the actual behavior of the apps or the information provided in their privacy policies. All this demonstrates that the current mobile application ecosystem is misaligned with data protection regulations, underscoring the need for authorities to employ automated monitoring and review mechanisms and for developers to have tools that help them comply with these regulations.
This research has resulted in a total of 12 scientific publications. Seven articles are a direct outcome of this thesis—four published in journals indexed in the Journal Citation Report (with one in the first quartile Q1 and three in the second Q2), and two in international peer-reviewed events, including a notable publication at the Privacy Enhancing Technologies Symposium (PETS), one of the most prestigious congresses in privacy research. Additionally, the developed methods and artifacts have indirectly contributed to five further publications— two in international peer-reviewed events, two in JCR-listed Q1 journals, and one in a Q2 journal currently under review.
International collaborations have played a significant role in this work. Research stays of three months each were carried out at renowned institutions such as Carnegie Mellon University and King’s College London, along with additional collaborations with research groups at ETH Zurich. In the industrial realm, the artifacts have been employed in regulatory compliance audits, demonstrating their practical utility. Regulatory bodies, including members from the Federal Trade Commission (FTC) in the United States and the Spanish Data Protection Agency (AEPD), have expressed interest in these findings and tools, highlighting their potential to enhance supervision and enforcement of data protection laws.
Moreover, some of the research findings have reached a wider audience through major Spanish media outlets such as La Vanguardia, Computer Hoy, La COPE, and TreceTV, raising public awareness about the importance of privacy in our digital age. The thesis also includes the direct supervision of five final degree projects and the provision of technical support to other research initiatives, which have helped advance the automation of regulatory compliance evaluation and contributed to the education of new talent in the field of data protection.
Overall, this doctoral thesis lays the groundwork for the automated evaluation of regulatory compliance in mobile applications by providing tools that foster a more transparent digital ecosystem, aligned with data protection laws. Future research will extend this approach to other platforms such as iOS, enable multilingual assessments of privacy policies, and apply these methods and knowledge to analyzing usage policies in customized chatbots, thereby addressing emerging challenges in an ever-evolving digital landscape.
RESUMEN
Los teléfonos móviles, y particularmente los inteligentes, han tenido una gran adopción en la sociedad, en especial gracias a su conectividad a internet y capacidad para realizar un amplio abanico de actividades, desde tareas orientadas al trabajo, como la creación y modificación de documentos, hasta el consumo multimedia. Sin embargo, aunque sus capacidades se han visto especialmente aumentadas tras la aparición y proliferación de las aplicaciones, también conllevan riesgos para los usuarios. La cantidad de sensores que integran estos dispositivos y su gran conectividad, permite que se recolecte y envíe un gran volumen de datos personales, posibilitando identificar a los usuarios, conocer su comportamiento, movimientos y patrones de uso. Esta práctica, impulsada en gran medida por los modelos de negocio basados en la publicidad hipersegmentada, supone un riesgo considerable para la privacidad. En respuesta a este problema ya presente y en auge en nuestra sociedad digital, la Unión Europea presentó el Reglamento General de Protección de Datos (RGPD) con el fin de promover una mayor protección y un adecuado tratamiento de los datos personales.
No obstante, la evaluación del cumplimiento normativo de aplicaciones móviles conforme al RGPD representa un desafío significativo, especialmente en un ecosistema marcado por el dinamismo de sus plataformas de distribución, como Google Play Store, donde miles de ellas son publicadas y actualizadas a diario. Este gran volumen y frecuencia de cambios hacen impracticable la inspección manual de todas las aplicaciones, subrayando la necesidad de métodos, técnicas y herramientas automatizados que permitan abordar esta tarea a escala. Además, este problema se ve agravado por el uso de bibliotecas de código de terceros, que permiten integrar funcionalidades de forma rápida y efectiva, pero que a menudo recopilan y transfieren datos de los usuarios, hecho que a menudo ocurre inadvertido para los desarrolladores y responsables de las aplicaciones.
En respuesta a esta problemática, y en el marco del proyecto AutoGDPR—financiado por el Gobierno de España y centrado en la automatización de la evaluación del cumplimiento del RGPD—, esta tesis contribuye con el diseño y desarrollo de métodos y artefactos. Estos permiten, de forma conjunta, 1) analizar el comportamiento de las aplicaciones, 2) automatizar el procesamiento de políticas y etiquetas de privacidad mediante técnicas de procesamiento de lenguaje natural, y 3) traducir los requisitos del RGPD en reglas programables que posibilitan evaluaciones automáticas. Para abordar este último punto se ha requerido, además, una frecuente colaboración con abogados expertos en protección de datos, destacando la faceta multidisciplinar de este trabajo.
El análisis del comportamiento de las aplicaciones se ha llevado a cabo mediante técnicas de análisis estático y dinámico de aplicaciones, apoyado parcialmente por herramientas de código abierto como Mitmproxy o Frida. Otras tecnologías, como los modelos de lenguaje de gran tamaño, han permitido identificar y extraer prácticas más complejas descritas en los textos legales, permitiendo evaluar el cumplimiento de requisitos de RGPD como las transferencias internacionales de datos personales, o transferencias a terceras organizaciones. Finalmente, los artefactos y métodos desarrollados se han integrado en una plataforma modular basada en tecnologías como Docker y RabbitMQ, que han propiciado realizar estudios con un gran volumen de aplicaciones y extraer conclusiones basadas en evidencia empírica.
Los resultados obtenidos con la plataforma y los artefactos desarrollados muestran incumplimientos generalizados en las obligaciones de transparencia de los responsables de las aplicaciones. Más del 80% de las aplicaciones analizadas potencialmente incumplen con los requisitos de transparencia del RGPD respecto a la cesión de datos a terceros y se identificaron deficiencias significativas en la configuración de privacidad de bibliotecas de terceros, responsables de más del 70% de las transferencias no declaradas. La falta de transparencia en las políticas de privacidad también se observó en otras prácticas evaluadas; por ejemplo, el 50% de las políticas no declaran correctamente el periodo de retención de datos personales, y el 48% de las que envían datos personales lo hacen a servidores en países fuera de la Unión Europea sin declararlo como exige el RGPD. Aunque otros mecanismos como las etiquetas de privacidad han surgido como alternativa para declarar el comportamiento de las aplicaciones relativas a la recolección y tratamiento de datos personales, en los estudios realizados durante esta tesis se observó que estos a menudo no coincidían con el comportamiento real de las aplicaciones ni con las declaraciones de las políticas de privacidad. Todo ello evidencia que el ecosistema de aplicaciones móviles actual está desalineado con las normativas de protección de datos y la necesidad de que las autoridades cuenten con mecanismos automatizados de control y de revisión y los desarrolladores cuenten con herramientas que les ayuden a cumplir con la regulación.
En consecuencia, los hallazgos expuestos y otros obtenidos a lo largo de esta investigación han culminado en la elaboración de 12 artículos científicos. De ellos, 7 artículos son resultado directo de esta tesis y han sido publicados en revistas, conferencias de alto impacto y otros eventos internacionales, incluyendo 4 en revistas indexadas en el Journal Citation Report (JCR). Una de ellas se encuentra dentro del primer cuartil (Q1) del JCR, tres en el segundo cuartil (Q2), y dos en eventos internacionales con revisión por pares. Además, destaca también una publicación en Privacy Enhancing Technologies Symposium (PETS), una de las conferencias más prestigiosas en el campo de la privacidad. Como resultado indirecto de los métodos y artefactos desarrollados, esta tesis ha contribuido a producir otros 5 artículos; de los cuales dos han sido publicados en eventos internacionales con revisión por pares, otros dos en revistas JCR pertenecientes a Q1 y un artículo Q2 en proceso de revisión.
Durante la realización de la tesis también se han llevado a cabo colaboraciones internacionales respaldadas por dos estancias de investigación de tres meses cada una en instituciones de prestigio como Carnegie Mellon University y King’s College London, y dos colaboraciones adicionales con dos grupos distintos de ETH Zurich. En el ámbito industrial, los artefactos desarrollados han sido utilizados para auditorías de cumplimiento normativo, demostrando su aplicabilidad práctica. Asimismo, miembros de la Federal Trade Commission (FTC) de Estados Unidos (agencia de protección al consumidor y la competencia) y la Agencia Española de Protección de Datos (AEPD) han mostrado interés en estos artefactos y en los hallazgos de la tesis, subrayando su potencial para mejorar la supervisión y el cumplimiento de la normativa de protección de datos.
Los hallazgos también han sido divulgados a un público más general en algunos medios de comunicación relevantes en España, como el periódico La Vanguardia, Computer Hoy, La COPE y TreceTV, sensibilizando a la sociedad sobre la importancia de la privacidad en el entorno digital. Además, en el ámbito académico, se ha llevado a cabo la supervisión directa de cinco trabajos de fin de titulación en esta misma línea de investigación, así como se ha dado soporte técnico a otros trabajos. Esto ha permitido avanzar en la automatización de la evaluación de cumplimiento normativo, mientras se forma a estudiantes en la temática de protección de datos.
Esta tesis doctoral sienta las bases para la evaluación automatizada del cumplimiento normativo en aplicaciones móviles, aportando herramientas que fomentan un ecosistema digital más transparente y alineado con la ley de protección de datos. Las líneas futuras de investigación incluyen la ampliación del enfoque a ecosistemas como iOS, la evaluación multilingüe de políticas de privacidad y la aplicación de los métodos desarrollados al análisis de políticas de uso en chatbots personalizados, abordando nuevos retos en un contexto digital en constante evolución.
Smartphones have seen widespread adoption in society, largely due to their Internet connectivity and their ability to perform a wide range of activities—from work-related tasks like document creation and editing to multimedia consumption. However, while their capabilities have been significantly enhanced by the advent and proliferation of mobile applications, they also introduce risks for users. The numerous sensors integrated into these devices and their extensive connectivity enable the collection and transfer of vast amounts of personal data, making it possible to identify users and track their behavior, movements, and usage patterns. This practice, mainly driven by business models based on hyper-targeted advertising, poses a considerable risk to privacy. In response to this and other challenges in our digital society, the European Union enacted the General Data Protection Regulation (GDPR) to promote greater protection and handling of personal data.
Evaluating the regulatory compliance of mobile applications with the GDPR is a formidable challenge, particularly in fast-paced environments like the Google Play Store, where thousands of apps are published and updated daily. The sheer volume and frequency of these changes make manual inspection impractical, and the widespread use of third-party libraries further compounds this challenge. Although these libraries allow developers to rapidly integrate new functionalities, they often collect and transfer user data without the developers’ awareness.
Within the framework of the AutoGDPR project, which the Spanish government funded with European funds, this thesis contributes a set of methods and artifacts that allow for the comprehensive analysis of mobile app behavior. The approach involves the use of both static and dynamic techniques—employing tools such as Mitmproxy and Frida—to assess app behavior, as well as the automation of privacy policy and privacy label processing through natural language processing techniques and large language models. Moreover, GDPR requirements have necessarily been translated into programmable rules that enable automatic evaluations, with frequent collaboration with legal experts to ensure accuracy.
The developed methods and artifacts have been integrated into a modular platform based on technologies like Docker and RabbitMQ, facilitating large-scale studies and the extraction of empirical evidence. The results from these studies reveal widespread non-compliance with transparency obligations: more than 80% of the analyzed apps potentially fail to meet GDPR requirements regarding the disclosure of data transfers to third parties, and significant shortcomings exist in the privacy configurations of third-party libraries, which are responsible for over 70% of undeclared data transfers. Additionally, about 50% of privacy policies do not correctly state the data retention periods, and 48% of those transferring data do so to servers outside the European Union without proper declaration, as required by the GDPR. Furthermore, studies have shown that privacy labels often do not match the actual behavior of the apps or the information provided in their privacy policies. All this demonstrates that the current mobile application ecosystem is misaligned with data protection regulations, underscoring the need for authorities to employ automated monitoring and review mechanisms and for developers to have tools that help them comply with these regulations.
This research has resulted in a total of 12 scientific publications. Seven articles are a direct outcome of this thesis—four published in journals indexed in the Journal Citation Report (with one in the first quartile Q1 and three in the second Q2), and two in international peer-reviewed events, including a notable publication at the Privacy Enhancing Technologies Symposium (PETS), one of the most prestigious congresses in privacy research. Additionally, the developed methods and artifacts have indirectly contributed to five further publications— two in international peer-reviewed events, two in JCR-listed Q1 journals, and one in a Q2 journal currently under review.
International collaborations have played a significant role in this work. Research stays of three months each were carried out at renowned institutions such as Carnegie Mellon University and King’s College London, along with additional collaborations with research groups at ETH Zurich. In the industrial realm, the artifacts have been employed in regulatory compliance audits, demonstrating their practical utility. Regulatory bodies, including members from the Federal Trade Commission (FTC) in the United States and the Spanish Data Protection Agency (AEPD), have expressed interest in these findings and tools, highlighting their potential to enhance supervision and enforcement of data protection laws.
Moreover, some of the research findings have reached a wider audience through major Spanish media outlets such as La Vanguardia, Computer Hoy, La COPE, and TreceTV, raising public awareness about the importance of privacy in our digital age. The thesis also includes the direct supervision of five final degree projects and the provision of technical support to other research initiatives, which have helped advance the automation of regulatory compliance evaluation and contributed to the education of new talent in the field of data protection.
Overall, this doctoral thesis lays the groundwork for the automated evaluation of regulatory compliance in mobile applications by providing tools that foster a more transparent digital ecosystem, aligned with data protection laws. Future research will extend this approach to other platforms such as iOS, enable multilingual assessments of privacy policies, and apply these methods and knowledge to analyzing usage policies in customized chatbots, thereby addressing emerging challenges in an ever-evolving digital landscape.
RESUMEN
Los teléfonos móviles, y particularmente los inteligentes, han tenido una gran adopción en la sociedad, en especial gracias a su conectividad a internet y capacidad para realizar un amplio abanico de actividades, desde tareas orientadas al trabajo, como la creación y modificación de documentos, hasta el consumo multimedia. Sin embargo, aunque sus capacidades se han visto especialmente aumentadas tras la aparición y proliferación de las aplicaciones, también conllevan riesgos para los usuarios. La cantidad de sensores que integran estos dispositivos y su gran conectividad, permite que se recolecte y envíe un gran volumen de datos personales, posibilitando identificar a los usuarios, conocer su comportamiento, movimientos y patrones de uso. Esta práctica, impulsada en gran medida por los modelos de negocio basados en la publicidad hipersegmentada, supone un riesgo considerable para la privacidad. En respuesta a este problema ya presente y en auge en nuestra sociedad digital, la Unión Europea presentó el Reglamento General de Protección de Datos (RGPD) con el fin de promover una mayor protección y un adecuado tratamiento de los datos personales.
No obstante, la evaluación del cumplimiento normativo de aplicaciones móviles conforme al RGPD representa un desafío significativo, especialmente en un ecosistema marcado por el dinamismo de sus plataformas de distribución, como Google Play Store, donde miles de ellas son publicadas y actualizadas a diario. Este gran volumen y frecuencia de cambios hacen impracticable la inspección manual de todas las aplicaciones, subrayando la necesidad de métodos, técnicas y herramientas automatizados que permitan abordar esta tarea a escala. Además, este problema se ve agravado por el uso de bibliotecas de código de terceros, que permiten integrar funcionalidades de forma rápida y efectiva, pero que a menudo recopilan y transfieren datos de los usuarios, hecho que a menudo ocurre inadvertido para los desarrolladores y responsables de las aplicaciones.
En respuesta a esta problemática, y en el marco del proyecto AutoGDPR—financiado por el Gobierno de España y centrado en la automatización de la evaluación del cumplimiento del RGPD—, esta tesis contribuye con el diseño y desarrollo de métodos y artefactos. Estos permiten, de forma conjunta, 1) analizar el comportamiento de las aplicaciones, 2) automatizar el procesamiento de políticas y etiquetas de privacidad mediante técnicas de procesamiento de lenguaje natural, y 3) traducir los requisitos del RGPD en reglas programables que posibilitan evaluaciones automáticas. Para abordar este último punto se ha requerido, además, una frecuente colaboración con abogados expertos en protección de datos, destacando la faceta multidisciplinar de este trabajo.
El análisis del comportamiento de las aplicaciones se ha llevado a cabo mediante técnicas de análisis estático y dinámico de aplicaciones, apoyado parcialmente por herramientas de código abierto como Mitmproxy o Frida. Otras tecnologías, como los modelos de lenguaje de gran tamaño, han permitido identificar y extraer prácticas más complejas descritas en los textos legales, permitiendo evaluar el cumplimiento de requisitos de RGPD como las transferencias internacionales de datos personales, o transferencias a terceras organizaciones. Finalmente, los artefactos y métodos desarrollados se han integrado en una plataforma modular basada en tecnologías como Docker y RabbitMQ, que han propiciado realizar estudios con un gran volumen de aplicaciones y extraer conclusiones basadas en evidencia empírica.
Los resultados obtenidos con la plataforma y los artefactos desarrollados muestran incumplimientos generalizados en las obligaciones de transparencia de los responsables de las aplicaciones. Más del 80% de las aplicaciones analizadas potencialmente incumplen con los requisitos de transparencia del RGPD respecto a la cesión de datos a terceros y se identificaron deficiencias significativas en la configuración de privacidad de bibliotecas de terceros, responsables de más del 70% de las transferencias no declaradas. La falta de transparencia en las políticas de privacidad también se observó en otras prácticas evaluadas; por ejemplo, el 50% de las políticas no declaran correctamente el periodo de retención de datos personales, y el 48% de las que envían datos personales lo hacen a servidores en países fuera de la Unión Europea sin declararlo como exige el RGPD. Aunque otros mecanismos como las etiquetas de privacidad han surgido como alternativa para declarar el comportamiento de las aplicaciones relativas a la recolección y tratamiento de datos personales, en los estudios realizados durante esta tesis se observó que estos a menudo no coincidían con el comportamiento real de las aplicaciones ni con las declaraciones de las políticas de privacidad. Todo ello evidencia que el ecosistema de aplicaciones móviles actual está desalineado con las normativas de protección de datos y la necesidad de que las autoridades cuenten con mecanismos automatizados de control y de revisión y los desarrolladores cuenten con herramientas que les ayuden a cumplir con la regulación.
En consecuencia, los hallazgos expuestos y otros obtenidos a lo largo de esta investigación han culminado en la elaboración de 12 artículos científicos. De ellos, 7 artículos son resultado directo de esta tesis y han sido publicados en revistas, conferencias de alto impacto y otros eventos internacionales, incluyendo 4 en revistas indexadas en el Journal Citation Report (JCR). Una de ellas se encuentra dentro del primer cuartil (Q1) del JCR, tres en el segundo cuartil (Q2), y dos en eventos internacionales con revisión por pares. Además, destaca también una publicación en Privacy Enhancing Technologies Symposium (PETS), una de las conferencias más prestigiosas en el campo de la privacidad. Como resultado indirecto de los métodos y artefactos desarrollados, esta tesis ha contribuido a producir otros 5 artículos; de los cuales dos han sido publicados en eventos internacionales con revisión por pares, otros dos en revistas JCR pertenecientes a Q1 y un artículo Q2 en proceso de revisión.
Durante la realización de la tesis también se han llevado a cabo colaboraciones internacionales respaldadas por dos estancias de investigación de tres meses cada una en instituciones de prestigio como Carnegie Mellon University y King’s College London, y dos colaboraciones adicionales con dos grupos distintos de ETH Zurich. En el ámbito industrial, los artefactos desarrollados han sido utilizados para auditorías de cumplimiento normativo, demostrando su aplicabilidad práctica. Asimismo, miembros de la Federal Trade Commission (FTC) de Estados Unidos (agencia de protección al consumidor y la competencia) y la Agencia Española de Protección de Datos (AEPD) han mostrado interés en estos artefactos y en los hallazgos de la tesis, subrayando su potencial para mejorar la supervisión y el cumplimiento de la normativa de protección de datos.
Los hallazgos también han sido divulgados a un público más general en algunos medios de comunicación relevantes en España, como el periódico La Vanguardia, Computer Hoy, La COPE y TreceTV, sensibilizando a la sociedad sobre la importancia de la privacidad en el entorno digital. Además, en el ámbito académico, se ha llevado a cabo la supervisión directa de cinco trabajos de fin de titulación en esta misma línea de investigación, así como se ha dado soporte técnico a otros trabajos. Esto ha permitido avanzar en la automatización de la evaluación de cumplimiento normativo, mientras se forma a estudiantes en la temática de protección de datos.
Esta tesis doctoral sienta las bases para la evaluación automatizada del cumplimiento normativo en aplicaciones móviles, aportando herramientas que fomentan un ecosistema digital más transparente y alineado con la ley de protección de datos. Las líneas futuras de investigación incluyen la ampliación del enfoque a ecosistemas como iOS, la evaluación multilingüe de políticas de privacidad y la aplicación de los métodos desarrollados al análisis de políticas de uso en chatbots personalizados, abordando nuevos retos en un contexto digital en constante evolución. Read More


