Comparación del desempeño de Transfer Learning en Transformers Visuales para la clasificación de imágenes de satélite

Please login to bookmark

El uso de imágenes satelitales es crucial para aplicaciones diversas como la monitorización ambiental, la planificación urbana y la agricultura de precisión. Sin embargo, la gran cantidad de datos generados y su complejidad presentan desafíos significativos en su análisis y clasificación. Este trabajo se justifica por la necesidad de mejorar la eficiencia y precisión en la clasificación de estas imágenes, utilizando técnicas avanzadas de aprendizaje automático con el uso de los modelos Transformer y técnicas de Transfer Learning (Aprendizaje por transferencia, TL). El análisis de las imágenes satelitales es una tarea que requiere alta capacidad de procesamiento y grandes conjuntos de datos etiquetados, lo cual puede ser costoso y requerir una gran cantidad de trabajo. El trabajo se centra en ofrecer una solución eficiente para la clasificación de imágenes satelitales mediante el uso de modelos Transformers combinados con técnicas de TL. En el trabajo se propone el uso de modelos Transformers para la clasificación de imágenes, específicamente los modelos Vision Transformer (ViT), Swin Transformer y Data-efficient Image Transformer (DeiT), debido a su capacidad para manejar datos secuenciales y capturar dependencias de largo alcance. Además, la técnica de TL se utiliza para optimizar el entrenamiento de estos modelos, aprovechando modelos preentrenados para reducir el tiempo y los recursos necesarios. El desarrollo del trabajo fue dividido en diversas fases para organizar y facilitar su elaboración. En primer lugar, se estudió la arquitectura y capacidades de los modelos Transformer y las técnicas de TL durante la fase de investigación. Después, se procedió a la preparación de los datos, donde se utilizó el dataset EuroSat el cual está compuesto por 27,000 imágenes satelitales clasificadas en 10 categorías, las cuales fueron divididas en los conjuntos de entrenamiento, validación y prueba. Para la fase de desarrollo, en ella se entrenaron los modelos ViT, Swin y DeiT, tanto con y sin la utilización de la técnica de data augmentation (aumento de datos, DA). Además, en esta fase se definieron e implementaron la función de pérdida Cross Entropy Loss y el optimizador Adam, los cuales fueron usados para el entrenamiento de los modelos. En la obtención de los resultados, después de analizar el desempeño de todos los modelos en todas las métricas evaluadas, el modelo DeiT sin la utilización de DA mostró el mejor desempeño en ellas, requiriendo además menos épocas en comparación con los modelos ViT y Swin. El análisis detallado reveló que, aunque DeiT sin el uso de DA fue el más eficiente, puede haber indicios de sobreajuste debido a la alta específidad en las características del conjunto de datos de entrenamiento. El trabajo muestra que los modelos Transformer son altamente efectivos para la clasificación de imágenes satelitales, especialmente el modelo DeiT. La técnica de DA mejora significativamente el rendimiento de los modelos ViT y Swin, lo cual sugiere su utilidad en escenarios con variabilidad de datos. Sin embargo, el posible sobreajuste del modelo DeiT sin el uso de DA indica la necesidad de una mayor investigación en técnicas de regularización. Las aplicaciones prácticas de estos hallazgos pueden optimizar operaciones en sectores como la agricultura, minería y gestión de infraestructuras, contribuyendo además a la sostenibilidad ambiental y la innovación tecnológica.
ABSTRACT
The use of satellite images is crucial for various applications such as environmental monitoring, urban planning, and precision agriculture. However, the vast amount of data generated, and its complexity presents significant challenges in their analysis and classification. This work is justified by the need to improve the efficiency and accuracy in the classification of these images, using advanced machine learning techniques with the use of Transformer models and Transfer Learning (TL) Techniques. Analyzing satellite requires high processing capacity and large labeled datasets, which can be costly and labor intensive. This work focuses on providing an efficient solution for the classification of satellite images by using Transformer models combined with TL techniques. For the wok provided, the use of Transformer models for image classification is proposed, specifically Vision Transformer (ViT), Swin Transformer, and Dataefficient Image Transformer (DeiT) models, due to their ability to handle sequential data and capture long-range dependencies. Additionally, the TL technique is used to optimize the training of these models, leveraging pretrained models to reduce the time and resources required. The works development was divided into various phases to organize and facilitate its execution. First, the architecture and capabilities of the Transformer models and TL techniques were studied during the research phase. Next, the data preparation phase involved using the EuroSat dataset, which consists of 27,000 satellite images classified into 10 categories. These images were divided into training, validation, and test sets. During the development phase, the ViT, Swin, and DeiT models were trained, both with and without the use of data augmentation (DA) techniques. Additionally, the Cross Entropy Loss function and the Adam optimizer were defined and implemented for the training of the models. For the results phase, after analyzing the performance of all models across all evaluated metrics, the DeiT model without the use of DA showed the best performance, also requiring fewer epochs compared to the ViT and Swin models. Detailed analysis revealed that although DeiT without DA was the most efficient, there may be signs of overfitting due to the high specificity in the characteristics of the training dataset. This work shows that Transformer models are highly effective for satellite image classification, especially the DeiT model. The DA technique significantly improves the performance of the ViT and Swin models, suggesting its usefulness in scenarios with data variability. However, the potential overfitting of the DeiT model without DA indicates the need for further research in regularization techniques. The practical applications of these findings can optimize operations in sectors such as agriculture, mining, and infrastructure management, also contributing to environmental sustainability and technological innovation.

Comparación del desempeño de Transfer Learning en Transformers Visuales para la clasificación de imágenes de satélite

Continuar buscando...

Nueva Información Actualizada

Related posts: