Perfilado demográfico de celebridades en redes sociales
PDF

Cómo citar

Alonso Sánchez, J. C. ., Hernández Antonio, A. I. ., Romero González, J. A. ., Lozoyo Belman, H. I. ., López Santamaría, L. M. ., & Gómez Carranza, J. C. . (2021). Perfilado demográfico de celebridades en redes sociales. JÓVENES EN LA CIENCIA, 10. Recuperado a partir de https://www.jovenesenlaciencia.ugto.mx/index.php/jovenesenlaciencia/article/view/3312

Resumen

El perfilado de autor en redes sociales es una tarea que trata de predecir de forma automática los atributos demográficos de una población objetivo de usuarios a partir de la información que estos comparten y generan en las redes sociales. El perfilado de autor permite segmentar a los usuarios dependiendo de sus atributos demográficos. Con esta segmentación, distintas empresas y organizaciones pueden ajustar el contenido que proveen a los usuarios con fines de mercadotecnia, promoción política, programas sociales, información educativa, entretenimiento, entre otros. En este artículo se presenta el proyecto de investigación que analiza los mensajes de texto publicados por los seguidores de celebridades (usuarios populares) en Twitter, con el fin de predecir el perfil demográfico de tales celebridades, conformado por su género, ocupación y año de nacimiento. Para esta tarea se utilizan dos conjuntos de datos: el de entrenamiento y el de prueba. El conjunto de datos de entrenamiento contiene 5,066,608 tweets pertenecientes a 1,920 celebridades de Twitter. El conjunto de datos de prueba está conformado por 34,893,195 tweets generados por los seguidores de 400 celebridades (con al menos 10 seguidores). A partir de estos datos se realizaron experimentos extrayendo una serie de características textuales de los tweets y con ellas se construyeron diversos modelos de aprendizaje de máquina. Para evaluar los modelos se midió el área bajo la curva ROC. Los resultados indican que algunos atributos como el año de nacimiento son complicados de predecir. Se observa de igual forma, que características como los vectores de palabras presentan buen desempeño sobre todo en combinación con modelos de aprendizaje discriminativos.

PDF
Creative Commons License

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.