Desarrollo de una herramienta de búsqueda masiva de activos digitales basada en representaciones de modalidad cruzada

Bookmark (0)
Please login to bookmark Close

La gestión y almacenamiento eficientes de activos digitales son desafíos clave en la Inteligencia Artificial. A pesar de los avances en el manejo y procesamiento de tareas, pocas contribuciones han abordado aplicaciones de IA para la gestión masiva de esos registros y flujos de información. Sin embargo, cada día hay una necesidad más prominente de mejorar la gestión de datos y desarrollar y entrenar nuevos modelos. Esta tarea requiere reducir el esfuerzo de procesamiento y almacenamiento mientras se aceleran los procesos internos y se maximiza el rendimiento de los recursos en los procedimientos de búsqueda.
Los sistemas de bases de datos han experimentado avances continuos en los últimos años, incluyendo nuevas capacidades de ingesta, digestión, escritura, lectura y recuperación. La última revolución trajo los esquemas noSQL, que facilitaron la gestión y manejo de datos, evitando la definición explícita de relaciones y promoviendo el uso de datos mínimamente o totalmente desestructurados. Los esquemas noSQL demandan consultas diferentes, empleando nuevos criterios de comparación y selección de resultados. El desafío de definir y usar estos lenguajes ha llevado a esfuerzos continuos para buscar lenguajes compatibles con SQL o basados en SQL para acelerar el desarrollo.
Las representaciones profundas guiadas por modelos de Inteligencia Artificial están cambiando la forma en que interactuamos con los datos. Las representaciones vectoriales de tamaño predefinido (embeddings) vinculadas a modelos multimodales (por ejemplo, texto e imagen) y el manejo de múltiples índices permiten nuevos esquemas de búsqueda semántica. Es posible realizar búsquedas masivas explotando la topología y geometría que subyacen a estas representaciones y las capacidades generativas de los modelos subyacentes. Además, para que estas se realicen de manera eficiente, es necesario optimizar el enfoque de búsqueda ajustando la estructura y características del espacio algebraico o topológico de la manera más conveniente posible.
Los sistemas de videovigilancia (CCTV, Circuito Cerrado de Televisión) deben lidiar con grandes cantidades de datos multimedia no estructurados. Una forma eficiente de manejar esta gestión es minimizar las operaciones de datos en bruto siempre que sea posible, utilizando sus correspondientes representaciones vectoriales.
Este trabajo describe el diseño, desarrollo y evaluación de un sistema avanzado de búsqueda masiva utilizando representaciones multimodales. Se centró en optimizar los procesos de ingesta, digestión, recuperación de contenido y generación de resúmenes en el contexto de un sistema de videovigilancia empleando representaciones profundas multimodales de datos multimedia.
Nos enfocamos en los conjuntos de datos de UCF-Crime (videos cortos) y UCF Annotation (UCA, marcas de tiempo y descripción de eventos). Los ingerimos en las bases de datos utilizando representaciones multimodales e implementamos un pipeline eficiente para la recuperación. Al comparar las dos tecnologías, concluimos que las implementaciones de bases de datos son complejas pero pueden usarse para facilitar el entrenamiento y evaluación de IA. Nuestros resultados evidencian el buen rendimiento de la solución en términos de precisión y velocidad en la tarea de recuperación.

​La gestión y almacenamiento eficientes de activos digitales son desafíos clave en la Inteligencia Artificial. A pesar de los avances en el manejo y procesamiento de tareas, pocas contribuciones han abordado aplicaciones de IA para la gestión masiva de esos registros y flujos de información. Sin embargo, cada día hay una necesidad más prominente de mejorar la gestión de datos y desarrollar y entrenar nuevos modelos. Esta tarea requiere reducir el esfuerzo de procesamiento y almacenamiento mientras se aceleran los procesos internos y se maximiza el rendimiento de los recursos en los procedimientos de búsqueda.
Los sistemas de bases de datos han experimentado avances continuos en los últimos años, incluyendo nuevas capacidades de ingesta, digestión, escritura, lectura y recuperación. La última revolución trajo los esquemas noSQL, que facilitaron la gestión y manejo de datos, evitando la definición explícita de relaciones y promoviendo el uso de datos mínimamente o totalmente desestructurados. Los esquemas noSQL demandan consultas diferentes, empleando nuevos criterios de comparación y selección de resultados. El desafío de definir y usar estos lenguajes ha llevado a esfuerzos continuos para buscar lenguajes compatibles con SQL o basados en SQL para acelerar el desarrollo.
Las representaciones profundas guiadas por modelos de Inteligencia Artificial están cambiando la forma en que interactuamos con los datos. Las representaciones vectoriales de tamaño predefinido (embeddings) vinculadas a modelos multimodales (por ejemplo, texto e imagen) y el manejo de múltiples índices permiten nuevos esquemas de búsqueda semántica. Es posible realizar búsquedas masivas explotando la topología y geometría que subyacen a estas representaciones y las capacidades generativas de los modelos subyacentes. Además, para que estas se realicen de manera eficiente, es necesario optimizar el enfoque de búsqueda ajustando la estructura y características del espacio algebraico o topológico de la manera más conveniente posible.
Los sistemas de videovigilancia (CCTV, Circuito Cerrado de Televisión) deben lidiar con grandes cantidades de datos multimedia no estructurados. Una forma eficiente de manejar esta gestión es minimizar las operaciones de datos en bruto siempre que sea posible, utilizando sus correspondientes representaciones vectoriales.
Este trabajo describe el diseño, desarrollo y evaluación de un sistema avanzado de búsqueda masiva utilizando representaciones multimodales. Se centró en optimizar los procesos de ingesta, digestión, recuperación de contenido y generación de resúmenes en el contexto de un sistema de videovigilancia empleando representaciones profundas multimodales de datos multimedia.
Nos enfocamos en los conjuntos de datos de UCF-Crime (videos cortos) y UCF Annotation (UCA, marcas de tiempo y descripción de eventos). Los ingerimos en las bases de datos utilizando representaciones multimodales e implementamos un pipeline eficiente para la recuperación. Al comparar las dos tecnologías, concluimos que las implementaciones de bases de datos son complejas pero pueden usarse para facilitar el entrenamiento y evaluación de IA. Nuestros resultados evidencian el buen rendimiento de la solución en términos de precisión y velocidad en la tarea de recuperación. Read More