El trabajo trata del estudio de los ataques de phishing que consiste en el lanzamiento de un correo malicioso sobre una víctima con el objetivo de conseguir información personal como pueden ser credenciales, datos bancarios, datos personales entre otros o para la instalación de un software malicioso en el dispositivo de la víctima. Con tal fin se ha realizado una encuesta a efectos de respaldar la veracidad de las estadísticas con respecto a esta problemática a participantes de los continentes de Europa, África, América del Norte y América del Sur con el fin de identificar las tendencias de los ataques de phishing en los diferentes grupos de edad y ubicaciones.
Asimismo se ha realizado búsquedas en las bases de datos de IEEE Xplore y ScienceDirect con el fin de sintetizar y analizar la información sobre los modelos propuestos que sirvan como base a la hora de estudiar nuevos modelos de detección y clasificación de correos electrónicos fraudulentos, se han observado tendencias en el uso de modelos con algoritmos de machine learning supervisados como máquinas de vectores de soporte o Support Vector Machine, árbol de decisión o Decision Tree, bosque aleatorio o Random Forest, k vecinos más cercanos o k-Nearest Neighbours, Naïve Bayes, regresión logística o Logistic Regression y algoritmos de deep learning como las redes neuronales recurrentes o recurrent neural network, Long-Short Term Memory, Bidirectional Long-Short Term Memory, Gated Recurrent Units, Bidirectional Encoder Representations from Transformers en el procesamiento de lenguaje natural e inclusive medido a partir de la matriz de confusión dando lugar a mediciones relacionadas con el porcentaje de exactitud del modelo en la detección de verdaderos positivos, precisión, sensitividad y puntuación F1.
Una vez hallado los resultados se observa la tendencia futura de los algoritmos de machine learning y deep learning como algoritmos de refuerzo en las arquitecturas o de comparación principalmente esto último ante algoritmos emergentes como son los algoritmos metaheurísticos inspirados en la biología indicando con estas nuevas propuestas la falta de estandarización de modelos para su implantación en todos los servicios de mensajería de correo electrónico y la urgencia de llevar a cabo nuevos modelos.
Abstract:
This study aims to systematically review and synthesize information about models for detecting and classifying phishing e-mails attacks. These attacks consist of launching a malicious e-mail to a victim in order to obtain personal information such as credentials, bank details, personal data among other substantial information, or for the installation of malicious software on the victim’s device. To this end, a questionnaire was conducted in order to support the veracity of the statistics regarding this problem with participants in Europe, Africa, North America and South America in order to identify trends of phishing attacks including phishing e-mail attacks with different age groups and locations around the world.
Moreover, searches have been made in IEEE Xplore and ScienceDirect databases in order to synthesize and analyze information on the proposed models to serve as a basis for the study of new models. These proposed models essentially use supervised machine learning algorithms such as Support Vector Machine, Decision Tree, Random Forest, k-Nearest Neighbours, Naïve Bayes and Logistic Regression. In addition, deep learning algorithms like recurrent neural networks such as Long-Short Term Memory, Bidirectional Long-Short Term Memory, Gated Recurrent Units and Bidirectional Encoder Representations from Transformers in natural language processing. The performance of each model is measured with a confusion matrix deriving measurements about the percentage of accuracy of the models in the detection of true positives, also their precision, sensitivity and F1 score.
Once the results have been obtained, a future trend is identified for machine learning and deep learning algorithms, as a reinforcement for novel architecture or comparison with emerging algorithms like metaheuristic algorithms inspired in biology. For conclusions, the lack of standardization in the industry is observed, for the implementation in e-mail messaging services. Also, the urgency to bring up new proposals is raised.
El trabajo trata del estudio de los ataques de phishing que consiste en el lanzamiento de un correo malicioso sobre una víctima con el objetivo de conseguir información personal como pueden ser credenciales, datos bancarios, datos personales entre otros o para la instalación de un software malicioso en el dispositivo de la víctima. Con tal fin se ha realizado una encuesta a efectos de respaldar la veracidad de las estadísticas con respecto a esta problemática a participantes de los continentes de Europa, África, América del Norte y América del Sur con el fin de identificar las tendencias de los ataques de phishing en los diferentes grupos de edad y ubicaciones.
Asimismo se ha realizado búsquedas en las bases de datos de IEEE Xplore y ScienceDirect con el fin de sintetizar y analizar la información sobre los modelos propuestos que sirvan como base a la hora de estudiar nuevos modelos de detección y clasificación de correos electrónicos fraudulentos, se han observado tendencias en el uso de modelos con algoritmos de machine learning supervisados como máquinas de vectores de soporte o Support Vector Machine, árbol de decisión o Decision Tree, bosque aleatorio o Random Forest, k vecinos más cercanos o k-Nearest Neighbours, Naïve Bayes, regresión logística o Logistic Regression y algoritmos de deep learning como las redes neuronales recurrentes o recurrent neural network, Long-Short Term Memory, Bidirectional Long-Short Term Memory, Gated Recurrent Units, Bidirectional Encoder Representations from Transformers en el procesamiento de lenguaje natural e inclusive medido a partir de la matriz de confusión dando lugar a mediciones relacionadas con el porcentaje de exactitud del modelo en la detección de verdaderos positivos, precisión, sensitividad y puntuación F1.
Una vez hallado los resultados se observa la tendencia futura de los algoritmos de machine learning y deep learning como algoritmos de refuerzo en las arquitecturas o de comparación principalmente esto último ante algoritmos emergentes como son los algoritmos metaheurísticos inspirados en la biología indicando con estas nuevas propuestas la falta de estandarización de modelos para su implantación en todos los servicios de mensajería de correo electrónico y la urgencia de llevar a cabo nuevos modelos.
Abstract:
This study aims to systematically review and synthesize information about models for detecting and classifying phishing e-mails attacks. These attacks consist of launching a malicious e-mail to a victim in order to obtain personal information such as credentials, bank details, personal data among other substantial information, or for the installation of malicious software on the victim’s device. To this end, a questionnaire was conducted in order to support the veracity of the statistics regarding this problem with participants in Europe, Africa, North America and South America in order to identify trends of phishing attacks including phishing e-mail attacks with different age groups and locations around the world.
Moreover, searches have been made in IEEE Xplore and ScienceDirect databases in order to synthesize and analyze information on the proposed models to serve as a basis for the study of new models. These proposed models essentially use supervised machine learning algorithms such as Support Vector Machine, Decision Tree, Random Forest, k-Nearest Neighbours, Naïve Bayes and Logistic Regression. In addition, deep learning algorithms like recurrent neural networks such as Long-Short Term Memory, Bidirectional Long-Short Term Memory, Gated Recurrent Units and Bidirectional Encoder Representations from Transformers in natural language processing. The performance of each model is measured with a confusion matrix deriving measurements about the percentage of accuracy of the models in the detection of true positives, also their precision, sensitivity and F1 score.
Once the results have been obtained, a future trend is identified for machine learning and deep learning algorithms, as a reinforcement for novel architecture or comparison with emerging algorithms like metaheuristic algorithms inspired in biology. For conclusions, the lack of standardization in the industry is observed, for the implementation in e-mail messaging services. Also, the urgency to bring up new proposals is raised. Read More


