Desarrollo de una aplicación para la detección automatizada de lubinas en vídeos 360° utilizando YOLOv8

Please login to bookmark

Resumen:
En la actualidad, el creciente problema de la sobrepesca amenaza la subsistencia de numerosas especies marinas y pone en riesgo los ecosistemas acuáticos. Ante esta problemática, la acuicultura ha surgido como una alternativa sostenible y que complementa a la pesca tradicional. Esta práctica permite la cría de peces y otras especies para consumo humano, ofreciendo una solución que favorece la conservación de los hábitats marinos.
A pesar de todo, para que la acuicultura sea eficiente, es necesario optimizar los recursos empleados en la cría de organismos acuáticos. Es fundamental analizar y entender los comportamientos de los animales para mejorar prácticas de alimentación y, en definitiva, mejorar su calidad de vida. En este contexto, las tecnologías de visión por ordenador y la inteligencia artificial desempeñan un papel clave. Entre los métodos más destacados se encuentran el análisis de flujo óptico y las redes convolucionales neuronales (CNN). Una de las implementaciones más avanzadas y utilizadas es YOLOv8, que se caracteriza por su alta precisión y sencillez de uso.
La primera tarea es el proceso de anotación de imágenes para crear un conjunto de datos lo suficientemente amplio y diverso como para que el modelo sea capaz de generalizar correctamente. En este caso, se han etiquetado 200 imágenes que se han repartido en: un 80% en el conjunto de entrenamiento (160 imágenes), un 15% en el conjunto de validación (30 imágenes) y un 5% en el conjunto de test (10 imágenes).
Posteriormente, se realizan múltiples iteraciones de entrenamiento y se deben ajustar los hiperparámetros para lograr el mejor resultado posible en términos de menor número de pérdidas y precisión del modelo medidos en métricas como mAP50, mAP50-95, F1-Score, entre otros. Una vez que se ha logrado el mejor resultado, se desarrolla una aplicación capaz de reproducir vídeos 360°, en la cual el modelo realiza las detecciones que se muestran por medio de cajas delimitadoras asociadas a cada lubina. Además, se ha integrado un módulo de código que lleva un registro por fotograma procesado de todas las cajas delimitadoras detectadas y lo almacena en un archivo de texto, lo cual es clave para poder analizar comportamientos de cara a futuro.
Para la elaboración de todo el proyecto se ha tenido como referencia toda la documentación del sitio web de Ultralytics, tanto para la parte de entrenamiento como para la parte de validación y posteriores ajustes de parámetros del modelo para mejorar su desempeño. En cuanto a resultados, el modelo YOLOv8 se ha entrenado hasta conseguir unos valores de precisión de IoU de 74,39%, lo cual es un resultado muy bueno. A pesar de los buenos resultados, se ha deducido que no siempre generaliza correctamente, lo cual se aprecia en las métricas de pérdidas en la parte del conjunto de validación, y esto significa que se hubiera requerido de un mayor conjunto de imágenes tanto en los conjuntos de validación como de entrenamiento ya que pasar demasiadas imágenes al conjunto de validación sin compensarlo agregando nuevas imágenes al de entrenamiento podría desbalancear la relación de imágenes recomendable entre ambos conjuntos.
Abstract:
Currently, the growing issue of overfishing threatens the survival of numerous marine species and jeopardizes aquatic ecosystems. In response to this problem, aquaculture has emerged as a sustainable alternative that complements traditional fishing. This practice allows for the farming of fish and other species for human consumption, providing a solution that supports the conservation of marine habitats.
However, for aquaculture to be efficient, it is essential to optimize the resources used in the farming of aquatic organisms. Analyzing and understanding animal behavior is fundamental for improving feeding practices and ultimately enhancing their quality of life. In this context, computer vision technologies and artificial intelligence play a key role. Among the most notable methods are optical flow analysis and convolutional neural networks (CNN). One of the most advanced and widely used implementations is YOLOv8, known for its high accuracy and ease of use.
The research begins with an image annotation process using the CVAT tool, creating a dataset that is sufficiently large and diverse for the model to correctly generalize. Subsequently, multiple training iterations are carried out, and hyperparameters must be adjusted to achieve the best possible results in terms of minimal loss and model accuracy, measured by metrics such as mAP50, mAP50-95, F1-Score, among others. Once the optimal result is achieved, an application capable of playing 360° videos is developed, in which the model performs detections displayed through Bounding boxes associated with each sea bass. Additionally, a code module was integrated to log each processed frame’s detected Bounding boxes and store them in a text file, which is crucial for future behavior analysis.
For the entire project, the documentation from the Ultralytics website was used as a reference, both for the training phase and for validation and subsequent parameter adjustments to improve model performance. Regarding the results, the YOLOv8 model was trained to achieve IoU precision values of 74,39%, which is considered very good. Despite these promising results, it was found that the model does not always generalize correctly, as seen in the loss metrics on the validation set. This indicates that a larger set of images would have been necessary for both the training and validation sets, as allocating too many images to the validation set could unbalance the recommended image ratio between the two sets. In this case, 80% of the images were used for training (160 images), 15% for validation (30 images), and 5% for testing (10 images).

Desarrollo de una aplicación para la detección automatizada de lubinas en vídeos 360° utilizando YOLOv8

Continuar buscando...

Nueva Información Actualizada

Related posts: