La detección automática de objetos que se desplazan a gran velocidad representa un reto considerable dentro del área de visión por computador. Dentro del ámbito deportivo, y en especial para la práctica del pádel, la localización de la pelota en juego es especialmente interesante para extraer métricas durante los partidos. Las soluciones basadas en aprendizaje automático tradicional presentan limitaciones a la hora de detectar la pelota en condiciones adversas. Localizar la pelota con precisión en escenarios sin restricciones es una tarea difícil debido a diversos factores: la iluminación puede provocar confusión entre la pelota y el fondo, la pelota puede estar ocluida por la raqueta o por el propio jugador según la perspectiva de la cámara, y el tamaño de la pelota en cada imagen varía según su distancia a la cámara. A su vez, es imprescindible el uso de cámaras especializadas con una alta tasa de fotogramas por segundo (FPS) para capturar la posición y el contorno de la pelota con nitidez. Como resultado, para procesar la ingente cantidad de fotogramas que contiene cada vídeo, es imprescindible minimizar el tiempo de cómputo que requiera el modelo para procesar cada imagen. Por ello, el principal desafío de este trabajo consiste en mejorar los resultados existentes para que la detección de la pelota sea más robusta frente a estas situaciones, sin incrementar demasiado el tiempo de cómputo requerido. La idea es entrenar y evaluar distintas redes de neuronas convolucionales (CNNs) diseñadas para detectar objetos de manera eficiente. Para entrenar y evaluar el rendimiento de cada modelo, se ha llevado a cabo una anotación semiautomática de la posición de la pelota en 25 vídeos grabados en exteriores. En los fotogramas en los que la pelota está completamente ocluida, se ha desarrollado otro modelo que estima la posición de la pelota durante los momentos en que esta desaparece, utilizando como referencia sus posiciones anteriores y posteriores. Asimismo, se ha creado una aplicación que permite a cualquier usuario tanto visualizar los vídeos y anotaciones, como evaluar cada modelo de forma accesible. Como resultado, se ha logrado un sistema capaz de realizar detecciones de forma precisa y eficiente mediante el detector de objetos YOLO. Los experimentos revelan que el modelo YOLO detecta la pelota correctamente en el 98.4 % de los fotogramas de los vídeos etiquetados, procesando cada fotograma a 29.52 FPS en CPU y 119.81 FPS en GPU.
ABSTRACT
The automatic detection of fast moving objects presents a significant challenge in the field of computer vision. In the sports domain, particularly in padel, the localization of the ball during gameplay is especially valuable for extracting metrics during matches. Traditional machine learning based solutions face limitations when it comes to detecting the ball under adverse conditions. Accurately locating the ball in unconstrained environments is difficult due to several factors: lighting variations may cause the ball to blend with the background, the ball may be occluded by the racket or the player depending on the camera’s perspective, and the ball’s size in each frame varies according to its distance from the camera. Additionally, the use of specialized cameras with a high frame rate (FPS) is essential to capture the ball’s position and contour clearly. As a result, in order to process the massive number of frames contained in each video, it is crucial to minimize the model’s computation time per image. Therefore, the main challenge of this work is to improve existing results to make ball detection more robust under these conditions, without significantly increasing the computational cost. The idea is to train and evaluate various convolutional neural networks (CNNs) designed to detect objects efficiently. To train and assess the performance of each model, a semi automatic annotation of the ball’s position was carried out on 25 outdoor recorded videos. For frames in which the ball is fully occluded, another model was developed to estimate the ball’s position during the moments it disappears, using its previous and subsequent positions as reference. Furthermore, an application has been developed that allows any user to visualize the videos and annotations, as well as evaluate each model in an accessible way. As a result, a system capable of performing accurate and efficient detections using the YOLO object detector has been achieved. Experiments show that the YOLO model correctly detects the ball in 98.4 % of the frames in the annotated videos, processing each frame at 29.52 FPS in CPU and 119.81 FPS in GPU.
La detección automática de objetos que se desplazan a gran velocidad representa un reto considerable dentro del área de visión por computador. Dentro del ámbito deportivo, y en especial para la práctica del pádel, la localización de la pelota en juego es especialmente interesante para extraer métricas durante los partidos. Las soluciones basadas en aprendizaje automático tradicional presentan limitaciones a la hora de detectar la pelota en condiciones adversas. Localizar la pelota con precisión en escenarios sin restricciones es una tarea difícil debido a diversos factores: la iluminación puede provocar confusión entre la pelota y el fondo, la pelota puede estar ocluida por la raqueta o por el propio jugador según la perspectiva de la cámara, y el tamaño de la pelota en cada imagen varía según su distancia a la cámara. A su vez, es imprescindible el uso de cámaras especializadas con una alta tasa de fotogramas por segundo (FPS) para capturar la posición y el contorno de la pelota con nitidez. Como resultado, para procesar la ingente cantidad de fotogramas que contiene cada vídeo, es imprescindible minimizar el tiempo de cómputo que requiera el modelo para procesar cada imagen. Por ello, el principal desafío de este trabajo consiste en mejorar los resultados existentes para que la detección de la pelota sea más robusta frente a estas situaciones, sin incrementar demasiado el tiempo de cómputo requerido. La idea es entrenar y evaluar distintas redes de neuronas convolucionales (CNNs) diseñadas para detectar objetos de manera eficiente. Para entrenar y evaluar el rendimiento de cada modelo, se ha llevado a cabo una anotación semiautomática de la posición de la pelota en 25 vídeos grabados en exteriores. En los fotogramas en los que la pelota está completamente ocluida, se ha desarrollado otro modelo que estima la posición de la pelota durante los momentos en que esta desaparece, utilizando como referencia sus posiciones anteriores y posteriores. Asimismo, se ha creado una aplicación que permite a cualquier usuario tanto visualizar los vídeos y anotaciones, como evaluar cada modelo de forma accesible. Como resultado, se ha logrado un sistema capaz de realizar detecciones de forma precisa y eficiente mediante el detector de objetos YOLO. Los experimentos revelan que el modelo YOLO detecta la pelota correctamente en el 98.4 % de los fotogramas de los vídeos etiquetados, procesando cada fotograma a 29.52 FPS en CPU y 119.81 FPS en GPU.
ABSTRACT
The automatic detection of fast moving objects presents a significant challenge in the field of computer vision. In the sports domain, particularly in padel, the localization of the ball during gameplay is especially valuable for extracting metrics during matches. Traditional machine learning based solutions face limitations when it comes to detecting the ball under adverse conditions. Accurately locating the ball in unconstrained environments is difficult due to several factors: lighting variations may cause the ball to blend with the background, the ball may be occluded by the racket or the player depending on the camera’s perspective, and the ball’s size in each frame varies according to its distance from the camera. Additionally, the use of specialized cameras with a high frame rate (FPS) is essential to capture the ball’s position and contour clearly. As a result, in order to process the massive number of frames contained in each video, it is crucial to minimize the model’s computation time per image. Therefore, the main challenge of this work is to improve existing results to make ball detection more robust under these conditions, without significantly increasing the computational cost. The idea is to train and evaluate various convolutional neural networks (CNNs) designed to detect objects efficiently. To train and assess the performance of each model, a semi automatic annotation of the ball’s position was carried out on 25 outdoor recorded videos. For frames in which the ball is fully occluded, another model was developed to estimate the ball’s position during the moments it disappears, using its previous and subsequent positions as reference. Furthermore, an application has been developed that allows any user to visualize the videos and annotations, as well as evaluate each model in an accessible way. As a result, a system capable of performing accurate and efficient detections using the YOLO object detector has been achieved. Experiments show that the YOLO model correctly detects the ball in 98.4 % of the frames in the annotated videos, processing each frame at 29.52 FPS in CPU and 119.81 FPS in GPU. Read More


