Vol. 6 – Núm. 1 / Enero – Junio – 2025

Desarrollo de un Modelo de Machine Learning para el

Reconocimiento de Comportamientos Inusuales de Personas en

Videos de Videovigilancia Comunitaria

Development of a Machine Learning

Model for the Recognition of Unusual Behavior of People in Community

Surveillance Videos

Desenvolvimento de um modelo de aprendizagem automática para o

reconhecimento de comportamentos invulgares de pessoas em vídeos de

videovigilância comunitaria

Muñoz Abad, Edgar Osvaldo

Escuela Politécnica del Chimborazo

osvaldo.munioz@espoch.edu.ec

https://orcid.org/0000-0003-4473-3620

Paguay Soxo, Paul Xavier

Escuela Politécnica del Chimborazo

paul.paguay@espoch.edu.ec

http://orcid.org/0000-0002-0262-9844

DOI / URL: https://doi.org/10.55813/gaea/ccri/v6/n1/912

Como citar:

Muñoz Abad, E. O., & Paguay Soxo, P. X. (2025). Desarrollo de un Modelo de Machine

Learning para el Reconocimiento de Comportamientos Inusuales de Personas en Videos de

Videovigilancia Comunitaria. Código Científico Revista De Investigación, 6(1), 690–709.

https://doi.org/10.55813/gaea/ccri/v6/n1/912

Recibido: 29/05/2025 Aceptado: 27/06/2025 Publicado: 30/06/2025

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

691

Resumen

La videovigilancia comunitaria se está convirtiendo en una herramienta fundamental para

fortalecer la seguridad en entornos urbanos. Sin embargo, el incremento exponencial en la

cantidad de cámaras no ha sido acompañado por una mejora proporcional en la capacidad de

monitoreo humano, lo que limita la detección oportuna de eventos anómalos. Este estudio

presenta un modelo de aprendizaje profundo diseñado para el reconocimiento automático de

comportamientos inusuales en videos de vigilancia. La arquitectura propuesta combina

EfficientNet como extractor de características espaciales con una red ConvLSTM2D para

modelar la dimensión temporal de los eventos. El conjunto de datos fue conformado por

secuencias de imágenes etiquetadas correspondientes a diversas clases de eventos anómalos y

normales. Los resultados experimentales demuestran que el modelo alcanza una puntuación

AUC global de 0.8795, con valores superiores al 0.90 en categorías como “Fighting” y

“Robbery”. La metodología propuesta muestra una alta capacidad de discriminación y

generalización, validando su aplicabilidad en sistemas de videovigilancia inteligente. Los

resultados obtenidos en este estudio demuestran que el uso de arquitecturas hibridas pueden

mejorar la detección de comportamiento anómalos en videos de video vigilancia en tiempo no

real.

Palabras clave: Videovigilancia, Detección de actividades anómalas, redes profundas,

EfficientNet, ConvLSTM, visión por computadora.

Abstract

Community video surveillance is becoming a fundamental tool for strengthening security in

urban environments. However, the exponential increase in the number of cameras has not been

accompanied by a proportional improvement in human monitoring capacity, which limits the

timely detection of anomalous events. This study presents a deep learning model designed for

automatic recognition of unusual behavior in surveillance videos. The proposed architecture

combines EfficientNet as a spatial feature extractor with a ConvLSTM2D network to model

the temporal dimension of events. The dataset was comprised of labeled image sequences

corresponding to various classes of anomalous and normal events. Experimental results show

that the model achieves an overall AUC score of 0.8795, with values above 0.90 in categories

such as “Fighting” and “Robbery”. The proposed methodology shows a high discrimination

and generalization capacity, validating its applicability in intelligent video surveillance

systems. The results obtained in this study demonstrate that the use of hybrid architectures can

improve the detection of anomalous behavior in non-real-time video surveillance videos.

Keywords: Video surveillance, Anomalous activity detection, deep networks, EfficientNet,

ConvLSTM, computer vision.

Resumo

A videovigilância comunitária está a tornar-se uma ferramenta essencial para reforçar a

segurança em ambientes urbanos. No entanto, o aumento exponencial do número de câmaras

não tem sido acompanhado por uma melhoria proporcional das capacidades de monitorização

humana, limitando a deteção atempada de eventos anómalos. Este estudo apresenta um modelo

de aprendizagem profunda concebido para o reconhecimento automático de comportamentos

invulgares em vídeos de vigilância. A arquitetura proposta combina a EfficientNet como um

extrator de caraterísticas espaciais com uma rede ConvLSTM2D para modelar a dimensão

temporal dos eventos. O conjunto de dados consiste em sequências de imagens rotuladas

correspondentes a várias classes de eventos anómalos e normais. Os resultados experimentais

mostram que o modelo atinge uma pontuação AUC global de 0,8795, com valores acima de

0,90 em categorias como “Luta” e “Roubo”. A metodologia proposta apresenta uma elevada

capacidade de discriminação e generalização, validando a sua aplicabilidade em sistemas de

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

692

videovigilância inteligentes. Os resultados obtidos neste estudo demonstram que a utilização

de arquitecturas híbridas pode melhorar a deteção de comportamentos anómalos em vídeos de

videovigilância em tempo não real.

Palavras-chave: Videovigilância, deteção de atividade anómala, redes profundas,

EfficientNet, ConvLSTM, visão computacional.

Introducción

Los sistemas comunitarios de videovigilancia se han consolidado como un recurso útil

y crucial para garantizar la seguridad en lugares públicos como ciudadelas, calles, entornos

bancarios, centros comerciales, etc. La implementación de estas tecnologías permite

monitorear zonas críticas y la detección de actividades anormales, tales como; crímenes,

accidentes o comportamientos inusuales (Zahra et al., 2024). Sin embargo, el crecimiento en

la cantidad de cámaras instaladas no ha coincidido con el aumento en la capacidad de humana

para monitorearlas, generando grandes desafíos operativos para las entidades encargadas de la

seguridad (Khan et al., 2020). Un aspecto que complica a un más la tarea de realizar un

monitoreo manual es que los eventos anormales ocurren con menor frecuencia que las

actividades normales, esto hace que la detección de estos eventos anómalos en grandes

volúmenes de videos requiera un mayor esfuerzo humano (Myagmar-Ochir & Kim, 2023). Esta

situación nos lleva a buscar soluciones más eficientes. Teniendo en cuenta los avances que se

han tenido en el área de visión por computadora y aprendizaje profundo nos ha abierto la

posibilidad de facilitar la detección automática de eventos anómalos en grandes volúmenes de

video (Pham et al., 2022).

En estudios recientes hemos observado que los modelos de aprendizaje profundo tienen

la capacidad de aprender e incrementar la precisión en las detecciones, al mismo tiempo que

reducen los costos computacionales (Myagmar-Ochir & Kim, 2023). Adicionalmente,

enfoques como la segmentación por áreas, han permitido mejorar la eficiencia en el

procesamiento de videos, lo que facilita la incorporación de estos modelos en sistemas de

videovigilancia comunitaria (Zahra et al., 2024). Ante esta realidad, creemos que resulta

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

693

urgente desarrollar algoritmos que permitan realizar la automatización en la detección de

anomalías en videos, minimizando la necesidad de intervención humana, y así mejorar la

eficiencia de las operaciones en los sistemas de seguridad comunitarias.

La visión por computadora es una tecnología en donde nos podemos apoyar para extraer

la información relevante de imágenes y videos, y así utilizar estas características para el

entrenamiento de redes neuronales profundas, como las Redes Neuronales Convolucionales

(CNN) y las Redes Neuronales Recurrentes (RNN), que permiten analizar tanto el contenido

visual como su evolución en el tiempo (Mohanapriya et al., 2024). Estudios recientes también

destacan el valor de utilizar redes de tres dimensiones (3DCNN) en la detección de

comportamientos anómalos vinculados con robos (Martínez-Mascorro et al., 2020), incluso en

escenarios más complejos, donde existe una alta concurrencia de personas (Revathi & Kumar,

2017).

En el caso de Ecuador, muchas comunidades y barrios ya han instalado sistemas

de videovigilancia, si bien proveen de visualización en tiempo real, carecen de capacidades

avanzadas para detectar y clasificar actos vandálicos, robos y otras actividades delictivas de

manera automática. Por esta razón, nuestra investigación busca desarrollar un modelo capaz de

procesar estos videos y clasificar de manera automáticamente eventos anómalos, aportando así

una solución tecnológica concreta para mejorar la seguridad comunitaria.

Con la finalidad de abordar la problemática que se ha expuesto, nuestra investigación

se centra en la siguiente pregunta: ¿Cómo puede la visión por computadora y el aprendizaje

automático ayudar a identificar y clasificar de manera eficiente eventos anómalos en videos de

sistemas de video vigilancia comunitaria?

Para dar respuesta a esta interrogante, y considerando tanto el contexto del problema

como los antecedentes revisados, se han definido los siguientes objetivos específicos:

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

694

1) Procesar los videos de videovigilancia seleccionados para entrenar el modelo,

incluyendo ejemplos de comportamientos normales y también anómalos.

2) Extraer las características específicas de los datos, para mejorar su uso en el

modelo de aprendizaje automático.

3) Entrenar el modelo de detección y clasificación mediante métodos de aprendizaje

profundo.

4) Evaluar el desempeño del modelo utilizando indicadores como AUC (Área Bajo

la Curva ROC), con el fin de asegurar su eficiencia en la detección de

comportamientos anómalos.

Metodología

En la Figura 1 se presenta la arquitectura propuesta en el marco de esta investigación.

Dentro de la arquitectura planteada, se emplea una combinación temporal y espacial para la

extracción de características. Como extractor de características espaciales utilizamos el modelo

base EfficientNet (Koonce, 2021) que es una arquitectura de red neuronal convolucional

eficiente, diseñada para extraer características espaciales complejos con bajo costo

computacional, en comparación con redes convolucionales tradicionales. Este modelo

introduce un enfoque de escalamiento compuesto que optimiza simultáneamente la

profundidad, el ancho y la resolución de entrada, lo cual permite mejorar la precisión sin

incurrir en un incremento excesivo en los recursos requeridos (Tan & Le, 2019).

Por su parte, como modelador temporal se utiliza ConvLSTM2D que es una variante

de las redes LSTM (Long Short-Term Memory) (Prakash et al., 2023) que incorpora

convoluciones, permitiendo modelar la información espacial y temporal simultáneamente, lo

cual es ideal para procesar secuencias de imágenes como videos. A diferencia de las LSTM

convencionales, que tratan los datos como vectores unidimensionales, ConvLSTM2D conserva

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

695

la estructura espacial de las imágenes al integrar operaciones de convolución dentro de sus

celdas de memoria (Shi et al., 2015).

Figura 1

Arquitectura del modelo propuesto

Nota: Autores (2025).

Conjunto de Datos

El conjunto de datos que fue utilizado para este estudio es el UFC Crime (Center for

Research in Computer Vision, n.d.) diseñado específicamente para evaluar métodos de

detección de anomalías en videos de vigilancia. Este conjunto de datos consta de 1900 videos

de 13 tipos de evento anómalos (véase ¡Error! No se encuentra el origen de la referencia.),

tales como “Abuso”, “Ataque”, “Explosiones”, entre otras. Adicional, se incluye una categoría

de Eventos Normales, que abarca videos sin incidentes anómalos, tanto en interiores como

exteriores, y que varían en escenas diurnas y nocturnas.

Tabla 1

Descripción de las categorías del dataset UCF Crime

Categoría

Definición

Abuso

Este evento contiene videos que muestran comportamientos malos, cruel o

violento contra niños, ancianos, a animales y mujeres

Arrestos

Policías arrestando personas

Incendios provocados

Personas prendiendo fuego deliberadamente a la propiedad

Ataques

Ataque físico o repentino violento contra alguien

Robo a Casas

Personas entrando a casas con intención de robar

Explosiones

Evento destructivo de algo que explota

Peleas

Dos o más personas atacándose

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

696

Normal

Videos sin delitos en interior y exterior

Accidente de vehículos

Accidentes de transito

Robo

Ladrones tomando dinero a la fuerza

Tiroteo

Disparos a alguien con arma

Robo en Tiendas

Personas robando en tiendas

Robo de objetos

Personas tomando objetos sin permiso

Vandalismo

Daño de propiedad publica

Nota: Center for Research in Computer Vision, n.d.

Las categorías que contiene más de videos son “Normal” y “Ataque”, en cambio

“Explosiones” y “Tiroteo” contienen menos videos. El tiempo de duración promedio de cada

video varía entre 1 y 5 minutos, dependiendo del tipo de evento. Esto posibilita registrar el

comportamiento completo del evento en el video, desde su comienzo hasta su finalización.

El conjunto de videos de entrenamiento y prueba de cada categoría corresponde

al 80% y 20% respectivamente. Se crea un directorio para el conjunto de datos de

entrenamiento y otro para prueba, en donde cada categoría corresponde a un subdirectorio. Los

videos de cada categoría fueron segmentados en fotogramas de resolución 64x64 píxeles,

etiquetados y almacenados en formato PNG. La etiqueta de cada fotograma guarda la

información del video al que pertenece y la numero de la secuencia. La distribución de los

fotogramas de cada categoría en los conjuntos de entrenamiento y prueba se muestra en la

Figura 2.

Para mejorar la capacidad de generalización del modelo, se utilizaron técnicas de

Aumento de datos (Maharana et al., 2022) utilizando la herramienta de Keras. Las

transformaciones aplicadas al conjunto de entrenamiento fueron las siguientes: giros

horizontales aleatorios, permiten aprender al modelo independientemente de la orientación del

sujeto; desplazamiento horizontal y vertical, que simula cambios en la posición del objeto

dentro del campo visual de la cámara; y reescalado de valores de píxeles, para normalizar las

imágenes en el rango [0, 1].

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

697

Las transformaciones se aplicaron únicamente a los videos que se utilizaran en el

conjunto de entrenamiento. Adicionalmente, las imágenes del conjunto de prueba se procesaron

únicamente a través de un reescalado y una función de preprocesamiento, no se aplicaron

modificaciones geométricas, con el objetivo de mantener la integridad del proceso de

evaluación.

Figura 2

Distribución de Fotogramas de cada categoría del conjunto de: a) Entrenamiento; b) Prueba

Nota: Autores (2025).

Implementación de la etapa de extracción de características

Cada imagen es procesada mediante el modelo convolucional preentrenado

EfficientNet, este modelo extrae las características de cada imagen con una alta eficiencia en

la extracción de características, con un menor costo computacional a diferencia de otros

modelos preentrenado (Ali et al., 2023).

Las capas finales del modelo EfficientNet fueron descongeladas para ajustarlas al

conjunto de datos que tenemos. Nuestra salida que provee el modelo preentrenado es un vector

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

698

que recoge la información relevante de cada imagen. Al final estos vectores son organizados

en un conjunto de secuencias para luego capturar la dinámica temporal del evento en la etapa

siguiente de nuestra arquitectura.

El proceso de agrupación se lo realiza en una secuencia de 30 imágenes consecutivas,

esto permite capturar la evolución del evento a lo largo del tiempo. Cada secuencia es

representada por un tensor con la forma:

(n_secuencia,30,dim)

Donde dim representa la dimensión del vector de características extraído por

EfficientNet.

Implementación de la etapa del modelo temporal

Una vez que se tiene las secuencias de imágenes, es necesario obtener la información

temporal como espacial contenida en cada una de ellas. Esta etapa está conformada por los

siguientes componentes:

• Capa ConvLSTM2D (Trinh et al., 2024): Procesa las secuencias de características

mediante la combinación de las convoluciones 2D para capturar información espacial

con una memoria temporal LSTM.

• BatchNormalization: Normaliza las activaciones para estabilizar el entrenamiento.

Implementación de la etapa de clasificación con capas densas

Una vez completado el modelado temporal, las salidas generadas son aplanadas para

convertirlas en vectores unidemensionales (1D), los cuales permiten una transición eficiente

hacia las capas densas del modelo. Estas capas densas se encargan de realizar la clasificación

final, integrando las representaciones aprendidas tanto en la dimensión espacial como en la

temporal. A través de este proceso, nuestro modelo es capaz de asignar una etiqueta a cada

secuencia de video procesada.

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

699

La clasificación final no se restringe a una simple diferenciación entre “Anómalo” o

“Normal”, sino que otorga una probabilidad de ser parte de una de las categorías de los eventos

anómalos presentes en el conjunto de datos. Dentro de las categorías estudiadas se encuentran

Abuso, Robo, Asalto, Vandalismo, entre otras, lo que transforma el modelo en un clasificador

de múltiples categorías. En la capa de salida, se utiliza un softmax con 14 neuronas (una para

cada categoría de evento), lo que facilita la clasificación de las secuencias en 14 posibles

categorías.

Etapa de entrenamiento y evaluación

Nuestro modelo fue entrenado utilizando un optimizador Adam, el cual comúnmente

es utilizado en escenarios de aprendizaje profundo por su capacidad para adaptar la tasa de

aprendizaje durante el proceso de entrenamiento. La función categorical cross-entropy fue

utilizada como función de pérdida, esta es adecuada para problemas de clasificación por

multiclase.

La Tabla 2 muestra los hiperparámetros fundamentales que hemos utilizado en nuestra

arquitectura durante el entrenamiento. Se empleó early stopping como herramienta para

interrumpir el entrenamiento si la perdida de validación en nuestro entrenamiento no progresa.

Tabla 2

Hiperparámetros

Parámetro

Valor

Semilla Aleatoria

Tamaño de lote

Época

Tasa de aprendizaje

0.00003

Numero de Clases

Nota: Autores (2025).

Se optó por entrenar el modelo durante 10 épocas, ya que en las pruebas preliminares

se observó que la curva de aprendizaje tendía a estabilizarse antes de la décima iteración. Esto

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

700

indicaba que el modelo era capaz de aprender las representaciones necesarias sin incurrir en

sobreajuste, lo cual fue corroborado mediante la evaluación en el conjunto de validación.

En cuanto a la tasa de aprendizaje, se seleccionó un valor bajo (0.00003) con el objetivo

de asegurar una convergencia estable, evitando grandes fluctuaciones en la función de pérdida

durante el proceso de optimización. Dado que se trabaja con arquitecturas profundas y datos

complejos como secuencias de video, un valor reducido permite realizar ajustes más finos en

los pesos del modelo, lo que favorece una mejor generalización. Esta decisión también se basó

en observaciones empíricas, donde tasas más altas resultaron en oscilaciones o incluso

divergencias en el entrenamiento.

Para la evaluación del desempeño del modelo se empleó la técnica de división holdout.

Esta estrategia permitió entrenar el modelo sobre una muestra amplia de los datos disponibles,

validar su rendimiento durante el proceso de ajuste de hiperparámetros y, finalmente, evaluar

su capacidad de generalización sobre un conjunto independiente. No se utilizó validación

cruzada debido a las limitaciones computacionales y al elevado costo de procesamiento

asociado al volumen de datos en formato de video.

Para el entrenamiento del modelo se utilizó una unidad de procesamiento gráfico (GPU)

NVIDIA A100, proporcionada a través de la plataforma Google Colab. Esta configuración

permitió acelerar significativamente el proceso de cálculo requerido por las redes neuronales

profundas. El tiempo total de entrenamiento fue de aproximadamente cuatro horas,

considerando el ajuste de los pesos a lo largo de múltiples épocas y la evaluación sobre los

conjuntos de validación y prueba.

Resultados

Luego de completar el entrenamiento del modelo propuesto, se evaluó su rendimiento

utilizando métricas tales como: AUC (Área Bajo la Curva ROC), que proporciona una medida

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

701

completa del rendimiento del modelo en problemas de clasificación multiclase; y curvas ROC

(Receiver Operating Characteristic) las cuales permiten analizar la capacidad de clasificación

del modelo en cada una de las clases del conjunto de datos. A continuación, se detallan los

principales hallazgos.

1. Análisis del AUC por cada época.

La Figura 3 muestra los resultados del AUC que se han obtenido en proceso de

entrenamiento y validación. Se puede observar un incremento constante en ambas curvas, lo

que demuestra la capacidad que tiene el modelo para diferenciar el tipo de evento.

Figura 1

Evolución del AUC durante el entrenamiento y la validación.

Nota: Autores (2025).

2. Análisis de la función de perdida

La Figura 4 muestra el progreso de la función de pérdida durante las 10 épocas de

entrenamiento. Se observa una reducción constante en la pérdida en nuestro conjunto de

entrenamiento, pasando de 2.42 a menos de 1.35, lo que indica que el modelo ha mejorado su

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

702

habilidad para ajustarse nuestros datos específicos. De igual forma, desde la segunda época la

perdida de validación ha permanecido relativamente estable, registrando valores cercanos a

1.30.

Figura 2

Evolución de la pérdida durante el entrenamiento y la validación

Nota: Autores (2025).

3. Análisis de la Curva ROC por categoría

La Figura 5 presenta las curvas ROC generadas para cada una de las categorías

evaluadas por el modelo, en donde se observa un rendimiento destacado en clases como "Pelea"

(AUC = 0.90), "Arresto" (AUC=0.91) y "Ataque" (AUC=0.90), lo que indica que el modelo

logra identificar con alta precisión estos tipos de eventos. Adicionalmente, las categorías "Robo

" (AUC = 0.87) y "Robo en objetos" (AUC=0.87) presentan un desempeño más moderado,

posiblemente debido a la similitud visual entre clases o al desbalance en el número de muestras

disponibles. De manera general, todas las curvas muestran un comportamiento ascendente

pronunciado, lo que refleja una buena capacidad del modelo para diferenciar las clases.

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

703

Figura 3

Curvas ROC por categoría

Nota: Autores (2025).

4. Análisis de la evaluación Global

El valor final de AUC global sobre el conjunto de prueba fue de 0.8795, lo que

corrobora que el modelo tiene una alta capacidad para diferenciar y clasificar eventos anómalos

en secuencias de video.

Los resultados obtenidos en este estudio, evaluados mediante el AUC por categoría,

muestran un rendimiento competitivo frente a modelos previamente propuestos en la literatura.

En comparación con Sultani et al. (2018) que utiliza un enfoque débilmente supervisado con

aprendizaje basado en Multiple Instance Learning, reportaron un AUC promedio de 0.75 para

el conjunto de datos UCF-Crime. En contraste, nuestro modelo logra valores superiores en

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

704

categorías como “Pelea" (AUC = 0.90), "Arresto" (AUC=0.91) y "Ataque" (AUC=0.90), lo

que refleja una mejora sustancial en la capacidad discriminativa.

La Tabla 3 describe los valores del AUC de cada clase que se han obtenido al evaluar

nuestro modelo. Las métricas presentadas muestran que nuestro modelo tiene la capacidad de

diferenciar correctamente los eventos de una categoría de los demás.

En general, el hecho de que todas las categorías superen un AUC de 0.80 confirma que

el modelo mantiene un buen desempeño multicategórico, siendo capaz de adaptarse a las

diferencias visuales y temporales entre distintos tipos de eventos.

Tabla 3

Resultados de evaluación global del modelo

Categoría

AUC

Abuso

0.84

Arrestos

0.91

Incendios provocados

0.90

Ataques

0.90

Robo a Casas

0.84

Explosiones

0.76

Peleas

0.90

Normal

0.89

Accidente de vehículos

0.88

Robo

0.87

Tiroteo

0.88

Robo en Tiendas

0.89

Robo de objetos

0.87

Vandalismo

0.87

Nota: Autores (2025).

Discusión

A pesar del rendimiento general positivo del modelo, es importante destacar varias

limitaciones técnicas que condicionaron tanto su diseño como su desempeño.

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

705

En primer lugar, se identificaron restricciones computacionales significativas. Aunque

se utilizó una GPU NVIDIA A100 a través de Google Colab, el entrenamiento de modelos que

procesan secuencias de video es intensivo en memoria y tiempo. Esto impuso límites sobre la

cantidad de datos que podían ser procesados simultáneamente, el tamaño de las secuencias, y

la complejidad de la arquitectura. En un entorno de producción o con datasets aún más grandes,

sería necesario disponer de infraestructura dedicada para garantizar escalabilidad y eficiencia.

Nuestro modelo alcanzó un AUC global de 0.8795, validando de esta forma su

capacidad de generalización. Además, se obtuvieron valores superiores a 0.90 en categorías

como “Arrestos”, “Peleas”, “Ataques” y “Incendios Provocados”, lo que refleja que la red logra

identificar de forma precisa ciertos tipos de eventos con patrones espaciales y temporales bien

definidos. No obstante, algunas clases presentaron un rendimiento inferior, como “Abuso”

(AUC = 0.84) y “Explosiones” (AUC = 0.76) lo que indica que ciertos tipos de eventos aún

representan un reto para el sistema. Estas limitaciones pueden atribuirse, en parte, a un

desequilibrio en la distribución del número de ejemplos por clase, ya que pude llegar a

favorecer a aquellas clases con más representaciones en el conjunto de entrenamiento.

Asimismo, la similitud visual entre algunas categorías puede dificultar la discriminación

precisa. Por ejemplo, las escenas etiquetadas como “Robo” pueden compartir patrones

espaciales similares con “Robo de objetos” o “Robo en tiendas”, lo que dificulta la correcta

diferenciación incluso para modelos entrenados.

Otro factor que se debe considerar es la alta variabilidad intra-clase. En el caso de la

clase “Explosiones” variables como; la iluminación, el ángulo de la cámara o duración del

evento pueden cambiar drásticamente de un fotograma a otro, afectando la consistencia de las

representaciones aprendidas.

Para abordar estas limitaciones, se proponen las siguientes estrategias para trabajos

futuros:

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

706

• Aplicar técnicas de balanceo de clases como SMOTE (Synthetic Minority Over-

sampling Technique) (Chawla, Bowyer, Hall y Kegelmeyer, 2002), que mediante una

variante adaptada puede operar sobre los vectores de características extraídos,

generando ejemplos sintéticos para las clases subrepresentadas.

• Implementar mecanismos de atención como CBAM (Convolutional Block Attention

Module) (Woo, Park, Lee y Kweon, 2018), dentro del extractor de características CNN

para que el modelo pueda resaltar regiones relevantes del fotograma.

• Aumentar el tamaño de las secuencias o utilizar marcos intermedios que capturen mejor

la progresión temporal del evento.

• Incorporar modelos híbridos que combinen CNN, LSTM, junto a mecanismos que

mejoren la capacidad de diferenciar eventos similares.

Conclusión

En el presente estudio se desarrolló e implementó un modelo con una arquitectura

hibrida conformada por un modelo extractor de características espaciales basado en

EfficientNet, una capa ConvLSTM2D para el modelado de dependencias temporales, y capas

densas que realizan la clasificación de eventos anómalos en secuencias de video. Esta

combinación permitió capturar de forma eficiente tanto patrones espaciales como temporales,

esenciales para el reconocimiento de comportamientos complejos en entornos dinámicos. El

modelo demostró un rendimiento sólido, reflejado en los siguientes resultados:

• El AUC global de 0.8795, indicando una alta capacidad de discriminación general.

• AUC mayores a 0.90 en varias categorías.

• Una curva de pérdida convergente y estable a lo largo del proceso de entrenamiento,

sin evidencia de sobreajuste.

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

707

El desempeño de nuestro modelo en las categorías más importantes, como “Arrestos”,

“Incendios provocados”, “Ataques” y “Peleas”, demuestran la efectividad que tiene para ser

aplicado en entornos de videovigilancia reales, donde la detección temprana de eventos críticos

es fundamental para la seguridad en ambientes comunitarios. La alta precisión alcanzada valida

la viabilidad de implementar modelo en sistemas automatizados de vigilancia, con el fin de

disminuir la carga operativa en los entes de seguridad y mejorar así la capacidad de respuesta

ante incidentes.

La arquitectura híbrida propuesta en este trabajo se presenta como una alternativa

adecuada para sistemas de videovigilancia inteligentes, al ofrecer una clasificación robusta y

eficiente de comportamientos anómalos. En conjunto, este desarrollo representa una

contribución al campo de la visión por computadora orientada a la seguridad ciudadana, y

sienta las bases para futuras investigaciones enfocadas en optimizar el monitoreo automatizado

en contextos comunitarios.

Más allá del desempeño técnico, el modelo desarrollado posee un notable potencial de

impacto social y comunitario. Su implementación en sistemas de videovigilancia automatizada

podría fortalecer la seguridad ciudadana, optimizar la capacidad de respuesta ante eventos

críticos y reducir la carga operativa en centros de monitoreo. Sin embargo, su adopción debe

considerar aspectos éticos como la privacidad, la transparencia en las decisiones del modelo y

la supervisión humana en entornos sensibles.

Como proyección futura, se plantea optimizar la arquitectura mediante modelos más

ligeros como MobileNet (Sinha & El-Sharkawy, 2019) o EfficientNet-lite (Ab Wahab et al.,

2021), que permitan su ejecución en dispositivos con recursos limitados. Asimismo, se propone

adaptar el sistema para detección en tiempo real mediante técnicas de reducción de latencia, e

incorporar mecanismos de interpretabilidad como Grad-CAM (Chen et al., 2020) que faciliten

la comprensión del proceso de decisión. También se sugiere enriquecer el modelo con

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

708

información multimodal (como audio o sensores contextuales) y evaluar su desempeño en

entornos reales y diversos, considerando variabilidad ambiental y social.

Referencias bibliográficas

Ab Wahab, M. N., Nazir, A., Ren, A. T. Z., Noor, M. H. M., Akbar, M. F., & Mohamed, A. S.

A. (2021). EfficientNet-Lite and hybrid CNN-KNN implementation for facial

expression recognition on Raspberry Pi. IEEE Access, 9, 134065–134080.

https://doi.org/10.1109/ACCESS.2021.3113337

Ali, M. S., Hassan, A., Rahim, A., Ashraf, M. H., Rahim, A., & Saghir, S. (2023). Motor

imagery EEG classification using fine-tuned deep convolutional EfficientNetB0 model.

In 2023 3rd International Conference on Artificial Intelligence (ICAI) (pp. 1–6). IEEE.

Center for Research in Computer Vision. (n.d.). UCF-Crime dataset. University of Central

Florida. Retrieved March 18, 2025, from https://www.crcv.ucf.edu/research/real-

world-anomaly-detection-in-surveillance-videos/

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic

minority over-sampling technique. Journal of Artificial Intelligence Research, 16, 321–

357. https://doi.org/10.1613/jair.953

Chen, L., Chen, J., Hajimirsadeghi, H., & Mori, G. (2020, March). Adapting Grad-CAM for

embedding networks. In Proceedings of the IEEE/CVF Winter Conference on

Applications of Computer Vision (WACV).

Freire-Obregón, D., Barra, P., Castrillón-Santana, M., & De Marsico, M. (2021). Inflated 3D

ConvNet context analysis for violence detection. Machine Vision and Applications,

33(1), 15. https://doi.org/10.1007/s00138-021-01264-9

Khan, L. U., Yaqoob, I., Tran, N. H., Kazmi, S. M. A., Dang, T. N., & Hong, C. S. (2020).

Edge-computing-enabled smart cities: A comprehensive survey. IEEE Internet of

Things Journal, 7(10), 10200–10232. https://doi.org/10.1109/JIOT.2020.2987070

Koonce, B. (2021). EfficientNet. In Convolutional neural networks with Swift for TensorFlow:

Image recognition and dataset categorization (pp. 109–123). Springer.

Maharana, K., Mondal, S., & Nemade, B. (2022). A review: Data pre-processing and data

augmentation techniques. Global Transitions Proceedings, 3(1), 91–99.

Martínez-Mascorro, G. A., Abreu-Pederzini, J. R., Ortiz-Bayliss, J. C., & Terashima-Marín, H.

(2020). Suspicious behavior detection on shoplifting cases for crime prevention by

using 3D convolutional neural networks. arXiv preprint arXiv:2005.02142.

Mohanapriya, S., Saranya, S. M., Dinesh, K., Jawaharsrinivas, S., Lintheshwar, S., &

Logeshwaran, A. (2024). Anomaly detection in video surveillance. In 2024 15th

International Conference on Computing Communication and Networking Technologies

(ICCCNT) (pp. 1–5). https://doi.org/10.1109/ICCCNT61001.2024.10725557

Myagmar-Ochir, Y., & Kim, W. (2023). A survey of video surveillance systems in smart city.

Electronics, 12(17), Article 3567. https://doi.org/10.3390/electronics12173567

Código Científico Revista de Investigación Vol. 6 – Núm.1 / Enero – Junio – 2025

709

Pham, H. H., Khoudour, L., Crouzil, A., Zegers, P., & Velastin, S. A. (2022). Video-based

human action recognition using deep learning: A review. arXiv preprint

arXiv:2208.03775.

Prakash, S., Jalal, A. S., & Pathak, P. (2023). Forecasting COVID-19 pandemic using Prophet,

LSTM, hybrid GRU-LSTM, CNN-LSTM, Bi-LSTM and Stacked-LSTM for India. In

2023 6th International Conference on Information Systems and Computer Networks

(ISCON) (pp. 1–6). https://doi.org/10.1109/ISCON57294.2023.10112065

Revathi, A. R., & Kumar, D. (2017). An efficient system for anomaly detection using deep

learning classifier. Signal, Image and Video Processing, 11(2), 291–299.

https://doi.org/10.1007/s11760-016-0935-0

Shi, X., Chen, Z., Wang, H., Yeung, D.-Y., Wong, W., & Woo, W. (2015). Convolutional

LSTM network: A machine learning approach for precipitation nowcasting. arXiv

preprint arXiv:1506.04214. http://arxiv.org/abs/1506.04214

Sinha, D., & El-Sharkawy, M. (2019, October). Thin MobileNet: An enhanced MobileNet

architecture. In 2019 IEEE 10th Annual Ubiquitous Computing, Electronics & Mobile

Communication Conference (UEMCON) (pp. 280–285). IEEE.

https://doi.org/10.1109/UEMCON47517.2019.8993089

Sultani, W., Chen, C., & Shah, M. (2018). Real-world anomaly detection in surveillance

videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern

Recognition (CVPR) (pp. 6479–6488).

Tan, M., & Le, Q. (2019, May). EfficientNet: Rethinking model scaling for convolutional

neural networks. In International Conference on Machine Learning (pp. 6105–6114).

PMLR.

Trinh, T.-D., Vu-Ngoc, T.-S., Le-Nhi, L.-T., Le, D.-D., Nguyen, T.-B., & Pham, T.-B. (2024).

Violence detection in videos based on CNN feature for ConvLSTM2D. In Proceedings

of the 5th ACM Workshop on Intelligent Cross-Data Analysis and Retrieval (pp. 33–

36).

Varela-Tapia, E. A., Acosta-Guzmán, I. L., Fajardo-Romero, I. J., & Oviedo-Peñafiel, J. A.

(2024). Inteligencia Artificial Aplicada con técnicas de Procesamiento de Lenguaje

Natural y Machine Learning en el campo de la salud. Editorial Grupo AEA.

https://doi.org/10.55813/egaea.l.83

Wang, Z., Yang, Y., Liu, Z., & Zheng, Y. (2023). Deep neural networks in video human action

recognition: A review. arXiv preprint arXiv:2305.15692.

Woo, S., Park, J., Lee, J. Y., & Kweon, I. S. (2018). CBAM: Convolutional block attention

module. In Proceedings of the European Conference on Computer Vision (ECCV) (pp.

3–19). https://doi.org/10.1007/978-3-030-01234-2_1

Zahra, A., Ghafoor, M., Munir, K., Ullah, A., & Ul Abideen, Z. (2024). Application of region-

based video surveillance in smart cities using deep learning. Multimedia Tools and

Applications, 83(5), 15313–15338. https://doi.org/10.1007/s11042-021-11468-w