Abstract
El servicio de correo electrónico es uno de los medios de comunicación más populares mundialmente. Sin embargo, enfrenta varios serios problemas, el más importante, se debe a que es usado para llenar a los usuarios con publicidad no solicitada, lo cual resulta en una reducción de la productividad de los usuarios. Es por esto por lo que, a fin de reducir este problema, se han realizado varios estudios y experimentos a lo largo de los últimos años, los cuales tiene como objetivo separar automáticamente aquellos correos importantes (legítimos), de aquellos que no tienen ninguna relevancia (spam). En este trabajo, se presenta el estudio de un conjunto de modelos de aprendizaje supervisado y características basadas en el contenido para el problema de clasificación de correos electrónicos. Se realizaron diferentes experimentos usando diferentes conjuntos de datos (datasets), además de características superficiales y profundas. El desempeño de los modelos se evaluó usando el área bajo la curva ROC, o AUC, la cual es una métrica muy popular en la clasificación de correos electrónicos. Los resultados muestran datos interesantes sobre el problema.
Esta revista provee acceso libre inmediato a su contenido bajo el principio de que hacer disponible gratuitamente la investigación al público, lo cual fomenta un mayor intercambio de conocimiento global.