Un professeur adjoint au Département de mathématiques et de statistiques du College of Arts and Sciences à la American University, Zois Boukouvalas, ainsi que son équipe ont créé un modèle statistique qui permettrait de détecter efficacement la désinformation sur les médias sociaux. Ce modèle éviterait également le piège de la « boîte noire », phénomène dénoncé par les experts qui questionnent la façon dont les algorithmes en apprentissage automatique sont trop souvent développés.
À l’aide d’un ensemble de données puisées dans des messages envoyés par l’intermédiaire de la plateforme Twitter concernant la COVID-19, l’équipe du professeur Zois Boukouvalas a démontré comment des modèles statistiques connus pouvaient détecter la désinformation dans les médias sociaux, notamment lors d’événements tels qu’une pandémie ou une catastrophe naturelle. Ils cherchaient aussi à démontrer comment les décisions du modèle peuvent s’aligner sur celles prises par des humains:
“We would like to know what a machine is thinking when it makes decisions, and how and why it agrees with the humans that trained it,” Boukouvalas said. “We don’t want to block someone’s social media account because the model makes a biased decision.
Avant de tester le modèle avec un grand ensemble de données, les chercheurs ont d’abord effectué l’entraînement du modèle à l’aide d’un échantillon de 112 gazouillis (tweets) fournis par des humains. Dans un premier temps, les chercheurs ont étiqueté des tweets comme étant soit de fausses informations, soit des informations véridiques. Ils ont ensuite utilisé un ensemble de règles prédéfinies en lien avec le langage utilisé par les fausses informations pour guider leurs choix. Ils ont aussi tenu compte des nuances [NDLE: ou de leur absence…] et des caractéristiques linguistiques liées à la désinformation (par exemple, une utilisation abusive de noms propres, de ponctuation et de caractères spéciaux). Une sociolinguiste, la professeure Christine Mallinson de la University of Maryland, a identifié dans les tweets les styles d’écriture associés à la désinformation, aux préjugés et aux sources considérées comme étant peu fiables par les médias d’information. Par exemple, deux des micromessages de l’ensemble de données contiennent les termes “bat soup” et “covid” mis ensemble. Ces gazouillis ont été étiquetés “désinformation” par les chercheurs et le modèle les a également identifiés comme tels.
Le modèle a réussi à identifier les gazouillis contenant des discours haineux, un langage hyperbolique et un langage à charge émotionnelle forte souvent associés à la désinformation. Au final, le modèle a permis de classer et d’effectuer des prédictions avec une précision de près de 90 %. Cela suggère que le modèle a pu distinguer dans chacun de ces gazouillis la décision humaine derrière l’étiquetage et qu’il a respecté les règles des chercheurs.
Les prochaines étapes de développement consisteront à améliorer l’interface pour l’utilisateur du modèle ainsi qu’à améliorer le modèle afin qu’il puisse détecter les messages sociaux de désinformation contenant des images ou des vidéos. Le modèle statistique devra également apprendre comment une variété d’éléments dans les messages sociaux interagissent pour créer de la désinformation.
Malgré les progrès de l’apprentissage automatique, MM. Boukouvalas et Japkowicz soulignent que l’intelligence humaine demeure la première ligne de défense pour stopper la propagation de la désinformation.
Source: How statistics can aid in the fight against misinformation. Science Daily, 2 décembre 2021.
Référence: Caitlin Moroney, Evan Crothers, Sudip Mittal, Anupam Joshi, Tülay Adalı, Christine Mallinson, Nathalie Japkowicz, Zois Boukouvalas. The Case for Latent Variable Vs Deep Learning Methods in Misinformation Detection: An Application to COVID-19. Discovery Science, 2021 DOI: 10.1007/978-3-030-88942-5_33