Dentro del ámbito de la visión por ordenador, la segmentación de imágenes juega un papel esencial al permitir descomponer cada escena en piezas significativas: desde carreteras y edificios hasta peatones y vehículos. Estos métodos permiten, por ejemplo, a la agricultura de precisión monitorizar el estado de los cultivos y anticipar posibles incidencias, así como a los sistemas de conducción autónoma identificar en tiempo real elementos críticos de la vía.En este trabajo, se estudian tres arquitecturas de referencia: U Net y DeepLabV3+ para segmentación semántica, y Mask R CNN para segmentación por instancia, para contrastar con la semántica. En primer lugar, se realiza una revisión exhaustiva del estado del arte, identificando los fundamentos teóricos y las bases que han contribuido a la eficacia de dichos modelos. A continuación, se lleva a cabo la selección y el preprocesado de un conjunto de datos público.La implementación se desarrolla mediante PyTorch y TensorFlow, aprovechando sus funcionalidades para configurar pipelines de entrenamiento modulares. Se ajustan hiperparámetros críticos y se incorporan técnicas avanzadas de aumento que mejoran la capacidad de generalización. Para una evaluación objetiva, se emplean métricas como mIoU (mean Intersection over Union) o validation accuracy, además de que se hace constar el consumo de recursos computacionales de cada modelo.Los resultados obtenidos muestran que cada arquitectura presenta un equilibrio distinto entre velocidad y exactitud: U Net destaca por su rapidez en contextos donde se requiere procesamiento ágil, DeepLabV3+ ofrece mayor precisión en el contorno de objetos complejos, y Mask R CNN demuestra una efectividad superior en la separación de instancias. Finalmente, se extraen recomendaciones para la selección del modelo más apropiado según criterios de precisión, velocidad y disponibilidad de recursos.
ABSTRACT
Within the field of computer vision, image segmentation plays an essential role by allowing each scene to be decomposed into meaningful parts: from roads and buildings to pedestrians and vehicles. These methods enable, for example, precision agriculture to monitor crop health and anticipate potential issues, as well as autonomous driving systems to identify critical roadway elements in real time.In this work, three reference architectures are studied: U‑Net and DeepLabV3+ for semantic segmentation, and Mask R‑CNN for instance segmentation, in order to contrast it with semantic approaches. First, a comprehensive review of the state of the art is conducted, identifying the theoretical foundations and principles that have contributed to the effectiveness of these models. Next, the selection and preprocessing of a public dataset are carried out.The implementation is developed using PyTorch and TensorFlow, leveraging their capabilities to configure modular training pipelines. Critical hyperparameters are tuned and advanced augmentation techniques are incorporated to improve generalization capacity. For objective evaluation, metrics such as mIoU (mean Intersection over Union) and validation accuracy are employed, and the computational resource consumption of each model is also reported.The results obtained show that each architecture presents a different balance between speed and accuracy: U‑Net stands out for its speed in contexts requiring agile processing, DeepLabV3+ offers greater precision in outlining complex objects, and Mask R‑CNN demonstrates superior effectiveness in separating instances. Finally, recommendations are drawn for selecting the most appropriate model according to criteria of accuracy, speed, and resource availability.
Dentro del ámbito de la visión por ordenador, la segmentación de imágenes juega un papel esencial al permitir descomponer cada escena en piezas significativas: desde carreteras y edificios hasta peatones y vehículos. Estos métodos permiten, por ejemplo, a la agricultura de precisión monitorizar el estado de los cultivos y anticipar posibles incidencias, así como a los sistemas de conducción autónoma identificar en tiempo real elementos críticos de la vía.En este trabajo, se estudian tres arquitecturas de referencia: U Net y DeepLabV3+ para segmentación semántica, y Mask R CNN para segmentación por instancia, para contrastar con la semántica. En primer lugar, se realiza una revisión exhaustiva del estado del arte, identificando los fundamentos teóricos y las bases que han contribuido a la eficacia de dichos modelos. A continuación, se lleva a cabo la selección y el preprocesado de un conjunto de datos público.La implementación se desarrolla mediante PyTorch y TensorFlow, aprovechando sus funcionalidades para configurar pipelines de entrenamiento modulares. Se ajustan hiperparámetros críticos y se incorporan técnicas avanzadas de aumento que mejoran la capacidad de generalización. Para una evaluación objetiva, se emplean métricas como mIoU (mean Intersection over Union) o validation accuracy, además de que se hace constar el consumo de recursos computacionales de cada modelo.Los resultados obtenidos muestran que cada arquitectura presenta un equilibrio distinto entre velocidad y exactitud: U Net destaca por su rapidez en contextos donde se requiere procesamiento ágil, DeepLabV3+ ofrece mayor precisión en el contorno de objetos complejos, y Mask R CNN demuestra una efectividad superior en la separación de instancias. Finalmente, se extraen recomendaciones para la selección del modelo más apropiado según criterios de precisión, velocidad y disponibilidad de recursos.
ABSTRACT
Within the field of computer vision, image segmentation plays an essential role by allowing each scene to be decomposed into meaningful parts: from roads and buildings to pedestrians and vehicles. These methods enable, for example, precision agriculture to monitor crop health and anticipate potential issues, as well as autonomous driving systems to identify critical roadway elements in real time.In this work, three reference architectures are studied: U‑Net and DeepLabV3+ for semantic segmentation, and Mask R‑CNN for instance segmentation, in order to contrast it with semantic approaches. First, a comprehensive review of the state of the art is conducted, identifying the theoretical foundations and principles that have contributed to the effectiveness of these models. Next, the selection and preprocessing of a public dataset are carried out.The implementation is developed using PyTorch and TensorFlow, leveraging their capabilities to configure modular training pipelines. Critical hyperparameters are tuned and advanced augmentation techniques are incorporated to improve generalization capacity. For objective evaluation, metrics such as mIoU (mean Intersection over Union) and validation accuracy are employed, and the computational resource consumption of each model is also reported.The results obtained show that each architecture presents a different balance between speed and accuracy: U‑Net stands out for its speed in contexts requiring agile processing, DeepLabV3+ offers greater precision in outlining complex objects, and Mask R‑CNN demonstrates superior effectiveness in separating instances. Finally, recommendations are drawn for selecting the most appropriate model according to criteria of accuracy, speed, and resource availability. Read More


