Une dynamique engagée depuis 2012
Article publié sur Linkedin
Loin de répondre à un effet de mode, #Idéo2017 est la concrétisation d’un travail de longue haleine entrepris depuis 2012, lors d’une collaboration avec le Huffington Postpour une série de billets « Dis-moi ce que tu tweetes« .
En 2013, je publiais mon premier article scientifique sur le sujet des tweets politiques, permettant une caractérisation du tweet politique comme genre du discours politique : « Essai de caractérisation du tweet politique », dans la revue L’Information grammaticale. La prise en compte du tweet politique comme un genre du discours politique (écouter cette chronique de France Culture) justifiait une analyse rigoureuse de cette forme d’expression. Une collaboration avec des chercheurs en informatique (Claudia Marinica, Boris Borzic et Abdulhafiz Alkhouli) donnait alors une envergure supplémentaire à cette recherche, et débouchait sur la constitution du premier corpus de tweets au plan national, hébergé par l’équipex Ortolang: Polititweets, corpus de tweets provenant de comptes politiques influents.
Ortolang est un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés. Cette mise en ligne était donc à la fois un gage de crédit scientifique et académique, et un encouragement à poursuivre le travail engagé.
Sur la base de ce corpus, plusieurs travaux scientifiques ont été menés sur les tweets politiques, et présentés dans différents congrès, nationaux ou internationaux: en Allemagne sur l’idéologie, en Angleterre sur les aspects techniques des corpus de tweets, à Paris sur l’hybridation des discours institutionnels sur Twitter, etc.
Le projet #Idéo2017 se situe dans la continuité de tout ce travail : il vise à tirer profit de ces résultats (connaissances techniques, scientifiques, et usage de datavisualisations) pour mettre un outil à la disposition des citoyens.
Une plateforme destinée au plus grand nombre
Prenons un exemple: en entrant sur la plateforme #Idéo2017, l’utilisateur peut choisir plusieurs types d’analyses.
Sur la partie gauche, il peut chercher à comparer l’usage de certains termes les plus emblématiques des discours politiques par les candidats (liste établie sur la base des recherches de Cécile Alduy). Au milieu, il peut analyser des corpus, soit celui de l’ensemble des candidats, soit celui d’un candidat en particulier. Sur la partie de droite, il peut accéder à une interface intuitive et dynamique qui permet de faire des recherches dans les tweets et de pouvoir accéder aux liens des tweets dans l’environnement Twitter.
Si l’utilisateur choisit de s’intéresser au mot « islam » par exemple, plusieurs analyses sont proposées:
Les analyses sont réalisées à l’aide de plusieurs langages et outils, notamment ElasticSearch pour stocker les tweets, les scripts Iramuteq pour certaines analyses, distribués sous les termes de la licence GNU GPL (v2) et ElasticUI pour le développement du moteur de recherche.
Ainsi, l’utilisateur peut comparer le sur-emploi ou sous-emploi de ce mot par les différents candidats:
Supposons maintenant que l’utilisateur soit surpris du sous-emploi de Islam par Marine Le Pen, et l’emploi relativement modeste par François Fillon. Il peut chercher l’emploi de ce mot et de ses dérivés, et observer leur fréquence:
Il verra ainsi que le nombre de tweets dans lesquels se trouve cette forme est très important chez ces deux candidats.
Ceci se confirme d’ailleurs en regardant les relations de ce mot avec d’autres mots, proposées sous forme graphique:
Islam est en effet très lié à différents réseaux ou noeuds:
- islamisme/immigration/communautarisme,
- islamiste/fondamentaliste/idéologie/attentat/terrorisme,
- islamique/totalitarisme/Syrie
Devant ces résultats, un retour au corpus s’impose, et il est rendu possible grâce à la partie « navigation »:
Grâce au moteur de recherche, l’utilisateur peut taper le terme qui l’intéresse, et les propositions de tweets s’affichent dynamiquement:
Il suffit alors de cliquer sur la vignette de son choix, et le texte du tweet apparaît:
Ceci confirme le résultat graphique obtenu dans les premières requêtes, puisqu’il est question, dans le tweet de Marine Le Pen, de « terrorisme islamiste ».
Le lien permet ensuite d’aller directement au tweet dans l’interface de twitter:
L’utilisateur peut ainsi se forger son opinion sur tel ou tel candidat grâce à ce processus itératif proposé dans #Idéo2017: analyses globales lexicales ou par corpus, résultats et hypothèses, réponses, nouvelles questions, « enquêtes », etc. Tout est réuni pour que chacun puisse appréhender le discours des candidats avec objectivation et rigueur. De nombreuses études ont été publiées sur le blog du projet, en amont du développement technique, et seront enrichies de nouvelles analyses 100% #Idéo2017.