La visión computacional, también conocida como visión artificial o visión por computadora, es una disciplina científica que abarca métodos para adquirir, procesar, analizar y comprender imágenes del mundo real con el fin de generar información numérica o simbólica que pueda ser tratada por un ordenador. Su objetivo principal es replicar la capacidad del sistema visual humano para comprender y extraer información útil del entorno.
Mediante el uso de algoritmos y técnicas de Deep Learning, como las redes neuronales convolucionales, los sistemas de visión por computadora analizan grandes volúmenes de datos visuales para identificar patrones y crear modelos capaces de reconocer objetos. Este enfoque supervisado permite a los modelos aprender y realizar tareas específicas de reconocimiento visual con alta precisión.
Las tareas típicas de la visión computacional incluyen el reconocimiento de imágenes y videos, la clasificación de imágenes, la detección de objetos, la identificación de objetos y el seguimiento de objetos en videos.
Una de las limitaciones de la visión computacional en tareas de detección de objetos es su incapacidad para relacionar detecciones a lo largo de una secuencia de imágenes o para resolver el problema de estimar la ubicación de un objeto cuando este se encuentra ocluido. En este contexto, el seguimiento de objetos juega un papel crucial, ya que permite mantener una consistencia temporal y predecir la trayectoria del objeto. El funcionamiento de estas tecnologías se basa en teorías de estimación que combinan información de detección con modelos de predicción para mejorar la estimación.
Para avanzar en este campo, el presente proyecto estudia diversos sistemas, explorando su arquitectura y funcionamiento, y los combina con distintos modelos de detección de última generación como YOLOv8 y YOLO-NAS. Se evaluará el desempeño de detección y seguimiento utilizando diferentes métricas de calidad para analizar el comportamiento en tareas de seguimiento.
En este trabajo se emplean diversos conjuntos de datos públicos proporcionados por distintas fuentes. Estos conjuntos incluyen imágenes de diversos escenarios, junto con anotaciones de los objetos presentes en cada imagen. Estos datos se utilizan para evaluar el rendimiento de los detectores en los sistemas de seguimiento, verificando si se logra mejorar los resultados en la detección y el seguimiento de objetos.
En este estudio se centra en el seguimiento de múltiples objetos y la mejora de la detección en la visión computacional, utilizando los modelos de detección de última generación YOLO-NAS y YOLOv8. Además, sirve como una guía para aquellos interesados en este ámbito, ofreciendo una perspectiva amplia sobre los desafíos y las soluciones actuales en la materia.
ABSTRACT
Computer vision, also known as artificial vision or machine vision, is a scientific discipline that encompasses methods for acquiring, processing, analyzing, and understanding real-world images to generate numerical or symbolic information that can be processed by a computer. Its primary objective is to replicate the human visual system’s ability to understand and extract useful information from the environment.
Using algorithms and deep learning techniques, such as convolutional neural networks, computer vision systems analyze large volumes of visual data to identify patterns and create models capable of recognizing objects. This supervised approach allows models to learn and perform specific visual recognition tasks with high precision.
Typical tasks in computer vision include image and video recognition, image classification, object detection, object identification, and object tracking in videos.
One of the limitations of computer vision in object detection tasks is its inability to relate detections across a sequence of images or to solve the problem of estimating an object’s location when it is occluded. In this context, object tracking plays a crucial role, as it allows maintaining temporal consistency and predicting the object’s trajectory. The functioning of these technologies is based on estimation theories that combine detection information with prediction models to improve estimation.
To advance in this field, the present project studies various systems, exploring their architecture and functioning, and combines them with different state-of-the-art detection models like YOLOv8 and YOLO-NAS. The detection and tracking performance will be evaluated using different quality metrics to analyze behavior in tracking tasks.
This work employs various public datasets provided by different sources. These datasets include images of various scenarios, along with annotations of the objects present in each image. These data are used to evaluate the performance of detectors in tracking systems, verifying whether detection and tracking results are improved.
This study focuses on multi-object tracking and the improvement of detection in computer vision, using state-of-the-art detection models YOLO-NAS and YOLOv8. Additionally, it serves as a guide for those interested in this field, offering a broad perspective on the current challenges and solutions in the subject matter.
La visión computacional, también conocida como visión artificial o visión por computadora, es una disciplina científica que abarca métodos para adquirir, procesar, analizar y comprender imágenes del mundo real con el fin de generar información numérica o simbólica que pueda ser tratada por un ordenador. Su objetivo principal es replicar la capacidad del sistema visual humano para comprender y extraer información útil del entorno.
Mediante el uso de algoritmos y técnicas de Deep Learning, como las redes neuronales convolucionales, los sistemas de visión por computadora analizan grandes volúmenes de datos visuales para identificar patrones y crear modelos capaces de reconocer objetos. Este enfoque supervisado permite a los modelos aprender y realizar tareas específicas de reconocimiento visual con alta precisión.
Las tareas típicas de la visión computacional incluyen el reconocimiento de imágenes y videos, la clasificación de imágenes, la detección de objetos, la identificación de objetos y el seguimiento de objetos en videos.
Una de las limitaciones de la visión computacional en tareas de detección de objetos es su incapacidad para relacionar detecciones a lo largo de una secuencia de imágenes o para resolver el problema de estimar la ubicación de un objeto cuando este se encuentra ocluido. En este contexto, el seguimiento de objetos juega un papel crucial, ya que permite mantener una consistencia temporal y predecir la trayectoria del objeto. El funcionamiento de estas tecnologías se basa en teorías de estimación que combinan información de detección con modelos de predicción para mejorar la estimación.
Para avanzar en este campo, el presente proyecto estudia diversos sistemas, explorando su arquitectura y funcionamiento, y los combina con distintos modelos de detección de última generación como YOLOv8 y YOLO-NAS. Se evaluará el desempeño de detección y seguimiento utilizando diferentes métricas de calidad para analizar el comportamiento en tareas de seguimiento.
En este trabajo se emplean diversos conjuntos de datos públicos proporcionados por distintas fuentes. Estos conjuntos incluyen imágenes de diversos escenarios, junto con anotaciones de los objetos presentes en cada imagen. Estos datos se utilizan para evaluar el rendimiento de los detectores en los sistemas de seguimiento, verificando si se logra mejorar los resultados en la detección y el seguimiento de objetos.
En este estudio se centra en el seguimiento de múltiples objetos y la mejora de la detección en la visión computacional, utilizando los modelos de detección de última generación YOLO-NAS y YOLOv8. Además, sirve como una guía para aquellos interesados en este ámbito, ofreciendo una perspectiva amplia sobre los desafíos y las soluciones actuales en la materia.
ABSTRACT
Computer vision, also known as artificial vision or machine vision, is a scientific discipline that encompasses methods for acquiring, processing, analyzing, and understanding real-world images to generate numerical or symbolic information that can be processed by a computer. Its primary objective is to replicate the human visual system’s ability to understand and extract useful information from the environment.
Using algorithms and deep learning techniques, such as convolutional neural networks, computer vision systems analyze large volumes of visual data to identify patterns and create models capable of recognizing objects. This supervised approach allows models to learn and perform specific visual recognition tasks with high precision.
Typical tasks in computer vision include image and video recognition, image classification, object detection, object identification, and object tracking in videos.
One of the limitations of computer vision in object detection tasks is its inability to relate detections across a sequence of images or to solve the problem of estimating an object’s location when it is occluded. In this context, object tracking plays a crucial role, as it allows maintaining temporal consistency and predicting the object’s trajectory. The functioning of these technologies is based on estimation theories that combine detection information with prediction models to improve estimation.
To advance in this field, the present project studies various systems, exploring their architecture and functioning, and combines them with different state-of-the-art detection models like YOLOv8 and YOLO-NAS. The detection and tracking performance will be evaluated using different quality metrics to analyze behavior in tracking tasks.
This work employs various public datasets provided by different sources. These datasets include images of various scenarios, along with annotations of the objects present in each image. These data are used to evaluate the performance of detectors in tracking systems, verifying whether detection and tracking results are improved.
This study focuses on multi-object tracking and the improvement of detection in computer vision, using state-of-the-art detection models YOLO-NAS and YOLOv8. Additionally, it serves as a guide for those interested in this field, offering a broad perspective on the current challenges and solutions in the subject matter. Read More


