Même pour un observateur occasionnel de la carrière électorale de Donald Trump, il est clair que l’ancien et futur président a centré son projet politique sur l’opposition à l’immigration. Il a fait à maintes reprises des déclarations incendiaires à l’égard des immigrés – dont beaucoup s’effondrent sous l’examen minutieux.
Au cours d’une année électorale au cours de laquelle l’immigration était une question cruciale pour les électeurs et où le sentiment populaire anti-immigration s’est accru, notre question est devenue la suivante : comment pouvons-nous comprendre la rhétorique de Trump sur l’immigration dans toute sa portée et son importance, et comment pourrions-nous de la même manière interroger la vice-présidente Kamala Harris ? langue?
Le projet Marshall a entrepris de s’attaquer à cette question avant les élections de 2024. En nous concentrant sur l’immigration – un domaine du discours public regorgeant de mensonges et une pierre angulaire explicite de la campagne de Trump – nous avons décidé d’avoir une vue d’ensemble des commentaires de chaque candidat sur l’immigration au cours de décennies de vie publique disponibles sur Factba.se, une base de données publique. des déclarations des candidats à la présidentielle.
Notre objectif était de traiter des centaines de milliers de lignes de texte de transcription pour extraire 1) combien de ces déclarations concernaient l’immigration, 2) combien de ces déclarations sur l’immigration étaient des répétitions de la même idée et 3) combien de ces idées répétées étaient faux.
Traiter de grandes quantités d’informations constitue un défi important en journalisme. Jusqu’à récemment, une tâche de traitement de cette envergure aurait été abandonnée car impossible : aucun journaliste ne peut lire et catégoriser de manière réaliste 10 millions de mots – nous estimons approximativement que cela prendrait environ 700 heures au lecteur moyen. Entrez dans le traitement du langage naturel.
La PNL est l’utilisation d’ordinateurs pour comprendre, traiter et générer du texte. Des techniques telles que la modélisation thématique, la classification et le regroupement sont établies depuis longtemps en informatique et sont récemment devenues plus accessibles dans des domaines moins techniques grâce à l’augmentation des ressources informatiques et à l’amélioration des interfaces. Ces méthodes peuvent considérablement augmenter la capacité des journalistes à trouver et à traiter les informations qu’ils recherchent.
Nous avons utilisé des techniques de PNL pour évaluer l’ampleur et la nature de la rhétorique de Trump et de Harris sur l’immigration, qui étaient très différentes en raison de leurs approches en matière d’immigration et de la durée différente de leurs candidatures. Après avoir récupéré plus de 350 000 lignes de texte de près de 4 000 transcriptions Factba.se datant de 1976 à fin septembre 2024, nous avons filtré et regroupé les déclarations selon celles faites par chacun des candidats, et utilisé un classificateur binaire pour en identifier plus de 12 000. qui concernaient l’immigration.
À partir de là, nous avons utilisé un algorithme de clustering pour créer des groupes de revendications similaires. Les journalistes ont examiné manuellement les résultats, combinant certains groupes et en divisant d’autres, les affinant pour aboutir à une série finale d’affirmations majeures sur l’immigration. Nous avons adapté un classificateur binaire pour chacun et l’avons exécuté sur l’ensemble du corpus, ce qui nous a donné, pour chaque affirmation, un ensemble d’énoncés susceptibles de faire cette affirmation. Enfin, les journalistes ont examiné manuellement chaque ensemble de déclarations, confirmant lesquelles étaient des exemples de cette affirmation particulière.
Le résultat a été un ensemble de 13 affirmations soigneusement vérifiées par les journalistes, et une limite inférieure pour le nombre de fois où Trump a apporté des variations à chacune d’entre elles. Cela nous a permis de montrer qu’il a répété certaines de ces affirmations au moins 500 fois.
Par exemple, Trump a qualifié les immigrants illégaux de criminels au moins 575 fois, de serpents qui mordent au moins 35 fois, de venant des prisons, des prisons et des établissements psychiatriques au moins 560 fois et de responsables de la criminalité dans les villes sanctuaires au moins 185 fois. Il a décrit la construction d’un mur à la frontière sud des États-Unis comme essentielle à la sécurité publique au moins 675 fois, et a soutenu au moins 50 fois que les expulsions massives sont acceptables parce que le président Dwight Eisenhower les a faites. Nous avons constaté que toutes ces affirmations étaient soit entièrement fausses, soit, à tout le moins, très trompeuses.
Dans ce projet, nous avons utilisé des méthodes PNL basiques et fiables pour extraire des résultats significatifs d’une montagne de textes. Et vous pouvez le faire aussi. En vous armant de techniques de PNL pour simplifier de grands ensembles de données en sous-ensembles plus faciles à gérer pour un examen humain et en les utilisant pour définir des limites inférieures (telles que « au moins 50 fois »), les journalistes comme vous peuvent devenir plus efficaces sans sacrifier la précision.
Nous avons collaboré avec Robert Flagg, data scientist et père d’Anna Flagg, l’une des reporters du projet. Il a conçu et développé du code pour l’analyse avec The Marshall Project et a fourni des conseils d’expert sur la PNL aux journalistes.
Voici quelques détails supplémentaires sur la façon dont nous avons procédé :
Grattage
Nous avions besoin des données brutes, notre première étape a donc été de récupérer les transcriptions des discours des candidats sur Factba.se. Nous avons obtenu l’autorisation de Factba.se avant de gratter.
À l’aide de Python et des bibliothèques Beautiful Soup et Selenium, nous avons dressé une liste des discours, entretiens et autres transcriptions disponibles des deux candidats à partir de la page de résultats de recherche Factba.se, y compris les URL des transcriptions individuelles, que nous avons également ensuite récupérées. Factba.se fournit les transcriptions commodément divisées en petits segments de texte, généralement une ou deux phrases, étiquetés par locuteur. Nous avons compté chacun de ces extraits de discours comme une seule déclaration.
Après grattage, le résultat a été un ensemble de données de déclarations publiques des candidats, des intervieweurs et d’autres participants aux conférences, ainsi que la date, le lieu et d’autres métadonnées sur l’événement.
Ensuite, nous avons dû retirer toutes les déclarations liées à l’immigration. Nous avons décidé d’utiliser un modèle de classification binaire, une méthode de catégorisation des données dans l’un des deux groupes, car la nature de notre problème était d’étiqueter chaque affirmation comme étant l’une des deux choses suivantes : concernant l’immigration, ou non.
Un tel classificateur fonctionne en apprenant des modèles à partir d’un « ensemble d’entraînement » initial de données étiquetées, qu’il peut ensuite appliquer à l’étiquetage de nouvelles données. Nous avions donc besoin de données étiquetées – et d’une quantité importante. Mais nous ne voulions pas passer des semaines à demander aux humains d’étiqueter les échantillons. Au lieu de cela, nous avons analysé un sous-ensemble de données via les grands modèles de langage (LLM) GPT-4o mini et Claude 3.5 Haiku, que nous avons invités à étiqueter chaque déclaration comme concernant ou non l’immigration.
Pour améliorer la précision des réponses du LLM, nous avons utilisé Clue and Reasoning Prompting, une méthode qui oblige le LLM à raisonner étape par étape en générant d’abord une liste d’indices utiles, puis en articulant un processus de raisonnement diagnostique avant de porter un jugement sur si le passage concerne ou non l’immigration.
En utilisant les données étiquetées résultantes comme ensemble de formation initiale, nous avons affiné un classificateur binaire RoBERTa, un modèle de classification de pointe. Nous avons exécuté le modèle sur les données globales non étiquetées. Lorsque le modèle exprimait une faible confiance dans sa réponse, les journalistes examinaient et fournissaient manuellement des étiquettes, ajoutaient les données étiquetées résultantes à l’ensemble d’entraînement et formaient à nouveau le modèle. Nous avons répété ce cycle plusieurs fois pour améliorer les performances du modèle, une technique connue sous le nom d’apprentissage actif.
Regroupement pour identifier les thèmes majeurs du discours sur l’immigration
Nous avons émis l’hypothèse que bon nombre de ces déclarations étaient des répétitions de la même idée. Nous avions donc besoin d’un moyen de regrouper les déclarations dont le sens était similaire.
Nous nous sommes tournés vers un outil d’apprentissage profond commun appelé transformateur, qui fonctionne en représentant les données d’entrée sous forme de vecteurs de grande dimension. Les transformateurs ont été introduits dans « Attention Is All You Need », un article fondateur des développeurs de Google qui est devenu un élément clé dans le domaine. Voici quelques détails supplémentaires sur les transformateurs.
Dans notre cas, nos données d’entrée étaient les déclarations. Nous avons utilisé un transformateur de phrases pour intégrer les déclarations dans des dimensions élevées, et la technique de réduction de dimension UMAP pour créer une représentation simplifiée de chaque déclaration. Nous les avons ensuite regroupés en groupes d’instructions connexes à l’aide de DBSCAN.
Examen humain
Le but de cette analyse était d’explorer l’univers des déclarations des candidats sur l’immigration et de rendre compte des principaux thèmes que nous avons vus et de la fréquence à laquelle ils ont été répétés. Nos résultats devaient être rapportés à 100 % par des humains. Tout notre traitement linguistique visait à arriver au stade où les journalistes pourraient intervenir avec leur expertise.
Les journalistes ont lu les déclarations de chaque groupe mis en évidence. Pour faciliter cet examen, nous avons à nouveau utilisé un LLM, l’invitant à fournir un résumé de chaque cluster basé sur ses 10 déclarations les plus pertinentes telles que définies par le niveau de confiance rapporté par le modèle. Nous avons associé ces informations à WizMap, un outil utilisé pour visualiser des intégrations de grande dimension, que les journalistes utilisaient pour voir et explorer les déclarations d’immigration.
Les journalistes ont combiné certains groupes et en ont séparé d’autres. Le travail assisté par ordinateur a rendu ce processus beaucoup plus efficace, en faisant rapidement apparaître des thèmes et des modèles à partir d’une quantité de texte par ailleurs écrasante.
Comptage des relevés pour chaque réclamation
Notre dernière série de demandes d’immigration en main, nous avons à nouveau entraîné les classificateurs binaires, à la recherche d’énoncés correspondant à chaque demande. Nous avons utilisé un processus similaire à celui précédent, en affinant chaque classificateur avec un ensemble d’instructions étiquetées par un LLM et améliorées par un examen humain.
Les journalistes ont ensuite examiné manuellement les déclarations renvoyées par le classificateur, équivalant parfois à des centaines de déclarations, voire plus, pour une seule réclamation. Toute déclaration jugée ne correspondant pas strictement à la réclamation a été rejetée. Ces faux positifs étaient plus fréquents pour certaines réclamations que pour d’autres, se chiffrant parfois par centaines.
Le résultat a été une liste complète des principales affirmations répétées sur l’immigration, basée sur les catalogues de déclarations liées à l’immigration des candidats. Pour chacune des affirmations de Trump que nous avons vérifiées, nous avons eu jusqu’à des centaines de cas, tous confirmés par des journalistes humains.
Par exemple, le modèle a fait apparaître dans les discours de Trump une tendance consistant à citer un groupe de cas isolés et tragiques pour alléguer que les immigrés sans papiers tuent en masse des Américains. Les journalistes ont lu toutes les déclarations classées dans cette catégorie, rejetant tout faux positif, et ont constaté que Trump avait fait cette affirmation plus de 235 fois.
Création de rapports avec traitement du langage naturel
Dans ce projet, nous avons utilisé des classificateurs, des LLM et le clustering pour affiner un vaste ensemble de données de texte, en utilisant des reporters humains à des points stratégiques pour guider le processus, produisant finalement un ensemble de résultats entièrement rapportés par des humains.
Nous espérons que ce travail pourra constituer une référence utile sur la manière dont les projets de reportage peuvent utiliser les ordinateurs pour quelque chose pour lequel ils sont bons – traiter beaucoup de texte – et les humains pour quelque chose pour lequel ils sont bons – en fournissant un jugement éditorial nuancé.
À l’heure actuelle, les journalistes ont une excellente opportunité d’utiliser les méthodes fiables de PNL comme un outil puissant pour étendre et accélérer leur travail. En combinant les techniques assistées par ordinateur avec le journalisme traditionnel, nous sommes mieux placés que jamais pour résoudre les problèmes de reportage qui impliquent de grandes quantités d’informations, sans sacrifier l’exactitude.