The generation of high-quality satellite image time series is fundamental for understanding dynamic Earth surface processes and supporting a range of applications including environmental monitoring, vegetation phenology, land cover change detection. However, creating temporally dense, spatially detailed, and spectrally consistent remote sensing time series remains a substantial challenge. These limitations are particularly evident in cloud-prone and topographically complex regions, where persistent cloud cover, spectral discrepancies between sensors, and temporal gaps undermine the usability of optical imagery.
This thesis proposes a comprehensive, multimodal and multisource fusion framework that integrates data from complementary Earth observation sensors to address the compounded limitations of existing remote sensing time series generation methods. The framework is built around three critical challenges: sensor-specific spectral misalignment, inconsistent temporal coverage, and persistent cloud cover. It integrates optical, radar, and topographic information to produce spatially rich, spectrally coherent, and temporally continuous time series.
The first part of the framework focuses on spectral alignment. Differences in spectral characteristics across sensors often result in distortions in fused imagery. This work introduces a spectral alignment strategy that reduces spectral inconsistencies by adjusting the reflectance between sensors. This step is essential to preserve the physical meaning of the data and ensure the reliability of downstream applications that depend on multisensor fusion.
Cloud contamination is also addressed as one of the most persistent obstacles in optical images. A deep learning model is proposed that combines multimodal inputs to restore cloud-obscured areas. This approach is particularly effective in mountainous regions, where frequent cloud cover, snow, and terrain-induced shadows create complex conditions for cloud removal. By leveraging the all-weather capabilities of radar and the structural cues from terrain models, the framework enhances both the availability and quality of cloud-free observations.
The final component of the framework is a data fusion strategy that integrates multi-temporal and multi-resolution imagery to generate temporally dense time series. This fusion is performed while preserving spatial and spectral detail, enabling consistent monitoring even in cases of sparse optical acquisitions. The framework adapts to data availability and landscape variability, ensuring reliable performance under a range of environmental conditions.
In addition to methodological contributions, this thesis introduces a publicly available benchmark dataset designed specifically for spatiotemporal fusion between Sentinel-2 and Sentinel-3 imagery. This dataset spans environmentally diverse locations and includes wide range of spectral bands and temporally matched observations, providing the community with a valuable resource for evaluating and comparing data fusion methods using European satellite missions.
This research advances the state of the art in remote sensing by delivering an adaptable, integrated fusion framework that addresses the core limitations of existing time series reconstruction approaches. The proposed methods enhance the usability of multisensor satellite data and open new possibilities for operational Earth observation in regions where conventional techniques fail. The contributions of this thesis have broad implications for the future of remote sensing, particularly in supporting scalable and accurate monitoring of dynamic landscapes under real-world observational constraints.
RESUMEN
La generación de series temporales de imágenes satelitales de alta calidad es fundamental para comprender los procesos dinámicos de la superficie terrestre y para apoyar una amplia gama de aplicaciones, como el monitoreo ambiental, la fenología de la vegetación y la detección de cambios en la cobertura del suelo. Sin embargo, la creación de series temporales con alta frecuencia temporal, alta resolución espacial y consistencia espectral, sigue siendo un desafío significativo, especialmente en regiones montañosas o con alta nubosidad, donde la cobertura persistente de nubes, las discrepancias espectrales entre sensores y las discontinuidades temporales limitan la fiabilidad de los datos ópticos.
Esta tesis propone un marco integral de fusión multimodal y multifuente, que integra datos complementarios de observación terrestre para abordar de forma conjunta estas limitaciones. El marco se enfoca en tres desafíos principales: la desalineación espectral entre sensores, la cobertura temporal inconsistente, y la presencia persistente de nubes. En ella, se explotan las fortalezas de los datos ópticos, radar y topográficos para generar secuencias de imágenes que son ricas espacialmente, coherentes espectralmente y continuas en el tiempo.
El primer componente del marco se centra en la alineación espectral. Las diferencias en las características espectrales entre sensores pueden introducir inconsistencias en los productos fusionados. Se propone una estrategia de ajuste de reflectancia para reducir estas discrepancias y alinear las respuestas espectrales entre sensores. Este paso es esencial para preservar el significado físico de los valores de reflectancia, y así garantizar la fiabilidad de aplicaciones posteriores como la estimación de índices de vegetación o la clasificación del uso del suelo.
El segundo componente aborda la contaminación por nubes, uno de los principales obstáculos para generar series temporales de alta calidad. Se introduce un método de reconstrucción basado en aprendizaje profundo que combina entradas multimodales para restaurar las regiones ocultas por nubes. Este enfoque resulta especialmente eficaz en zonas montañosas, donde la nubosidad frecuente, la presencia de nieve y las sombras provocadas por el relieve complican los métodos tradicionales de eliminación de nubes. Al incorporar las capacidades todo-tiempo del radar y la información estructural derivada de modelos topográficos, el marco mejora significativamente la disponibilidad y calidad de las imágenes reconstruidas sin nubes.
El tercer componente es una estrategia de fusión espaciotemporal que integra datos multitemporales y multirresolución para generar series temporales densas y de alta resolución. Este proceso preserva tanto el detalle espacial como la fidelidad espectral, permitiendo observaciones consistentes incluso cuando las adquisiciones ópticas son limitadas. El marco se adapta a la variabilidad del paisaje y a la disponibilidad de sensores, garantizando un rendimiento robusto bajo condiciones reales.
Además de estas contribuciones metodológicas, la tesis presenta un conjunto de datos de referencia públicamente disponible, diseñado específicamente para la fusión espaciotemporal entre imágenes de Sentinel-2 y Sentinel-3. Este conjunto cubre ubicaciones ambientalmente diversas y ofrece bandas espectrales armonizadas junto con observaciones temporalmente coincidentes, proporcionando a la comunidad una herramienta valiosa para la evaluación comparativa de métodos de fusión basados en satélites europeos.
Esta investigación impulsa el estado del arte en la teledetección al presentar un marco de fusión adaptable e integrado que aborda las limitaciones clave en la reconstrucción de series temporales. El enfoque propuesto mejora la usabilidad de los datos multifuente y permite una observación terrestre más precisa, escalable y consistente, especialmente en regiones dinámicas o difíciles de observar con métodos convencionales.
The generation of high-quality satellite image time series is fundamental for understanding dynamic Earth surface processes and supporting a range of applications including environmental monitoring, vegetation phenology, land cover change detection. However, creating temporally dense, spatially detailed, and spectrally consistent remote sensing time series remains a substantial challenge. These limitations are particularly evident in cloud-prone and topographically complex regions, where persistent cloud cover, spectral discrepancies between sensors, and temporal gaps undermine the usability of optical imagery.
This thesis proposes a comprehensive, multimodal and multisource fusion framework that integrates data from complementary Earth observation sensors to address the compounded limitations of existing remote sensing time series generation methods. The framework is built around three critical challenges: sensor-specific spectral misalignment, inconsistent temporal coverage, and persistent cloud cover. It integrates optical, radar, and topographic information to produce spatially rich, spectrally coherent, and temporally continuous time series.
The first part of the framework focuses on spectral alignment. Differences in spectral characteristics across sensors often result in distortions in fused imagery. This work introduces a spectral alignment strategy that reduces spectral inconsistencies by adjusting the reflectance between sensors. This step is essential to preserve the physical meaning of the data and ensure the reliability of downstream applications that depend on multisensor fusion.
Cloud contamination is also addressed as one of the most persistent obstacles in optical images. A deep learning model is proposed that combines multimodal inputs to restore cloud-obscured areas. This approach is particularly effective in mountainous regions, where frequent cloud cover, snow, and terrain-induced shadows create complex conditions for cloud removal. By leveraging the all-weather capabilities of radar and the structural cues from terrain models, the framework enhances both the availability and quality of cloud-free observations.
The final component of the framework is a data fusion strategy that integrates multi-temporal and multi-resolution imagery to generate temporally dense time series. This fusion is performed while preserving spatial and spectral detail, enabling consistent monitoring even in cases of sparse optical acquisitions. The framework adapts to data availability and landscape variability, ensuring reliable performance under a range of environmental conditions.
In addition to methodological contributions, this thesis introduces a publicly available benchmark dataset designed specifically for spatiotemporal fusion between Sentinel-2 and Sentinel-3 imagery. This dataset spans environmentally diverse locations and includes wide range of spectral bands and temporally matched observations, providing the community with a valuable resource for evaluating and comparing data fusion methods using European satellite missions.
This research advances the state of the art in remote sensing by delivering an adaptable, integrated fusion framework that addresses the core limitations of existing time series reconstruction approaches. The proposed methods enhance the usability of multisensor satellite data and open new possibilities for operational Earth observation in regions where conventional techniques fail. The contributions of this thesis have broad implications for the future of remote sensing, particularly in supporting scalable and accurate monitoring of dynamic landscapes under real-world observational constraints.
RESUMEN
La generación de series temporales de imágenes satelitales de alta calidad es fundamental para comprender los procesos dinámicos de la superficie terrestre y para apoyar una amplia gama de aplicaciones, como el monitoreo ambiental, la fenología de la vegetación y la detección de cambios en la cobertura del suelo. Sin embargo, la creación de series temporales con alta frecuencia temporal, alta resolución espacial y consistencia espectral, sigue siendo un desafío significativo, especialmente en regiones montañosas o con alta nubosidad, donde la cobertura persistente de nubes, las discrepancias espectrales entre sensores y las discontinuidades temporales limitan la fiabilidad de los datos ópticos.
Esta tesis propone un marco integral de fusión multimodal y multifuente, que integra datos complementarios de observación terrestre para abordar de forma conjunta estas limitaciones. El marco se enfoca en tres desafíos principales: la desalineación espectral entre sensores, la cobertura temporal inconsistente, y la presencia persistente de nubes. En ella, se explotan las fortalezas de los datos ópticos, radar y topográficos para generar secuencias de imágenes que son ricas espacialmente, coherentes espectralmente y continuas en el tiempo.
El primer componente del marco se centra en la alineación espectral. Las diferencias en las características espectrales entre sensores pueden introducir inconsistencias en los productos fusionados. Se propone una estrategia de ajuste de reflectancia para reducir estas discrepancias y alinear las respuestas espectrales entre sensores. Este paso es esencial para preservar el significado físico de los valores de reflectancia, y así garantizar la fiabilidad de aplicaciones posteriores como la estimación de índices de vegetación o la clasificación del uso del suelo.
El segundo componente aborda la contaminación por nubes, uno de los principales obstáculos para generar series temporales de alta calidad. Se introduce un método de reconstrucción basado en aprendizaje profundo que combina entradas multimodales para restaurar las regiones ocultas por nubes. Este enfoque resulta especialmente eficaz en zonas montañosas, donde la nubosidad frecuente, la presencia de nieve y las sombras provocadas por el relieve complican los métodos tradicionales de eliminación de nubes. Al incorporar las capacidades todo-tiempo del radar y la información estructural derivada de modelos topográficos, el marco mejora significativamente la disponibilidad y calidad de las imágenes reconstruidas sin nubes.
El tercer componente es una estrategia de fusión espaciotemporal que integra datos multitemporales y multirresolución para generar series temporales densas y de alta resolución. Este proceso preserva tanto el detalle espacial como la fidelidad espectral, permitiendo observaciones consistentes incluso cuando las adquisiciones ópticas son limitadas. El marco se adapta a la variabilidad del paisaje y a la disponibilidad de sensores, garantizando un rendimiento robusto bajo condiciones reales.
Además de estas contribuciones metodológicas, la tesis presenta un conjunto de datos de referencia públicamente disponible, diseñado específicamente para la fusión espaciotemporal entre imágenes de Sentinel-2 y Sentinel-3. Este conjunto cubre ubicaciones ambientalmente diversas y ofrece bandas espectrales armonizadas junto con observaciones temporalmente coincidentes, proporcionando a la comunidad una herramienta valiosa para la evaluación comparativa de métodos de fusión basados en satélites europeos.
Esta investigación impulsa el estado del arte en la teledetección al presentar un marco de fusión adaptable e integrado que aborda las limitaciones clave en la reconstrucción de series temporales. El enfoque propuesto mejora la usabilidad de los datos multifuente y permite una observación terrestre más precisa, escalable y consistente, especialmente en regiones dinámicas o difíciles de observar con métodos convencionales. Read More


