Stage: Analyses sémantiques, linguistiques et statistiques de tweets politiques

Analyses sémantiques, linguistiques et statistiques de tweets politiques : création d’un outil d’analyse lors
de campagnes politiques

Offre de stage de 6 mois (à partir de janvier 2017) en informatique, linguistique-informatique, fouille de données, constitution de corpus, bases de données

Ce stage se situe dans le cadre du projet de recherche
#Idéo2017 : contribution à la création d’un outil d’analyse des tweets politiques lors de campagnes politiques

A propos

financé par la Fondation de l’université de Cergy-Pontoise

Description :
Twitter est un medium incontournable dans la communication politique. Dans ce contexte, le projet #Idéo2017 souhaite (1) mieux connaître et décrire les messages politiques envoyés sur Twitter, mais aussi (2) rendre ces résultats disponibles pour les citoyens.
Ce projet consiste en la création d’une application web en ligne qui permettrait de traiter, avec des délais relativement courts, les messages produits en lien avec l’actualité politique (meetings, débats, émissions télévisées, etc.). Cet outil s’appuiera sur la méthodologie de constitution de corpus élaborée dans un précédent projet (corpus Polititweets) et l’implémentation d’outils de statistique textuelle et de visualisation de données. Les citoyens ou journalistes pourraient ainsi effectuer leurs propres requêtes et obtenir des résultats compréhensibles grâce à cette interface qui rendra accessible des analyses et critères linguistiques et informatiques complexes.

Objectifs :

Les objectifs de se projet concernent deux axes de travail. Dans le premier axe, l’étudiant devra faire une étude sur les analyses qui peuvent être réalisées sur des tweets politiques, et éventuellement en suggérer des nouvelles. Dans le deuxième axe, l’étudiant devra mettre en place ces analyses sélectionnées dans le cadre d’un site web. Pour cela, un ensemble de compétences sont requises.

Les objectifs se décrivent de la manière suivante :

1. Etudier l’ensemble d’analyses linguistiques qui existent dans la littérature et faire une étude comparative.

2. Choisir parmi les analyses étudiées en point 1 celles qui s’intégreraient dans le futur système d’analyse.

3. Proposer de nouvelles analyses basées sur des techniques de fouille de données ou apprentissage automatique.

4. Travailler sur la mise en place du système (site web) en suivant les étapes suivantes :
a. Faire une veille sur tous les frameworks CSS responsive design (bootstrap, skeleton, Isilex …) et réaliser une grille comparative pour expliquer le choix de la solution retenue ;
b. Utiliser l’architecture REST (Representational State Transfer) pour construire une application type Web Service avec mise à disposition d’une API vers des partenaires extérieurs ;
c. Installation du serveur elasticsearch et d’un gestionnaire de BD SQL et NoSql type mysql, mongodb ;
d. Relier dynamiquement les résultats d’Elasticsearch avec des outils de visualisation, de cartographie, d’analyse de graphes comme Gephi, et de reporting sous formes de dashboards, de graphiques et de statistiques comme kibana.

5. Participer à la constitution d’un corpus de tweets #Idéo2017 qui sera mis en ligne sur un site spécifique du projet hébergé par l’UMR ETIS http://ideo2017.ensea.fr/ (corpus au format tei-cmc).

Compétences souhaitées
Compétences dans l’usage des services de Twitter, des notions de dataviz et de machine learning
Connaissances en fouille de données et bases de données
Usage d’outils de fouille de données textuelles et/ou textométrie
Adaptabilité, curiosité, esprit d’initiatives pour acquérir les compétences non déjà acquises

Profil : étudiant de M2 en informatique, TAL, fouille de données, ou d’autres domaines qui couvriraient une partie des compétences attendues.

Responsables de l’encadrement
Julien Longhi, AGORA, julien.longhi(at)u-cergy.fr (porteur du projet)
Claudia Marinica, ETIS, claudia.marinica(at)u-cergy.fr
Boris Borzic, ETIS, boris.borzic(at)u-cergy.fr

Primaire à droite : qui tweete le plus et sur quoi

Article initialement publié sur le Cercle des Echos

La campagne des primaires de droite bat son plein, à quelques heures du troisième débat, et quelques jours du premier tour. Les réseaux sociaux sont un bon moyen pour les candidats d’affirmer leur présence en ligne. J’ai mené une analyse ciblée des comptes Twitter des sept candidats, en prenant en compte les 200 derniers tweets postés le 10 novembre.

En constituant un corpus avec ces différents tweets (messages issus des comptes, retweets ou partages de liens), on peut mener un certain nombre d’analyses textométriques (qui permettent une mesure des textes par des calculs statistiques). L’analyse des similitudes suivante représente la fréquence des termes employés (par leur taille) et leurs relations (par les liens et la taille des liens) : on remarque que la fréquence d’apparition des candidats n’est pas représentative des sondages d’opinion, puisque Bruno Lemaire et Jean-François Copé, sont les plus cités.

graph_simi_1

Ce graphique est une analyse de similitude. Ici, la taille des mots est proportionnelle à leur fréquence. Leur positionnement fonction de leurs relations.

Les «impôts» pour Copé, la «France» pour NKM

Bien sûr, la mesure quantitative ne permet pas de faire des projections sur la qualité de la présence en ligne, ni sur l’efficacité obtenue. Néanmoins, si on procède à une analyse lexicale par la classification de l’ensemble des segments de textes, on peut définir six classes, comme le montre le dendrogramme ci-dessous.

dendrogramme_1

Dendrogramme qui permet de dégager les thèmes préférés des candidats à la primaire.

Ce qui est remarquable, c’est que ces classes sont associées de manière assez stable et claire à des candidats. De gauche à droite sur le schéma, Nicolas Sarkozy est associé à «policier», «tout pour la france», «président». Nathalie Kosciusko-Morizet est associée à «France», «donner» et «société». Jean-François Copé à «baisser», «économie», «social», «impôt». Bruno Le Maire à «renouveau» , «éducation», et aussi beaucoup d’éléments de communication («jeunes avec blm», «avec blm»). François Fillon avec «Trump», «meeting», et «Europe 1».

Seule la classe numéro 3 semble moins marquée par un candidat, puisqu’on retrouve Jean-Frédéric Poisson, et de manière plus surprenante Alain Juppé. Cette classe contient des termes étant soit liés à l’élection elle-même («primaire», «droite», «candidat»), soit au centre («centre», «Bayrou»).

Juppé, si discret

Statistiquement donc, Alain Juppé ne semble pas rattaché à un lexique spécifique, mais à un discours général (voire langue de bois ?) car ses affinités vont plutôt avec un vocabulaire assez général, ou lié à ses affinités avec le centre. Cette non-présence ressort sur la visualisation suivante.

Ici, une analyse factorielle des correspondances. Cette représentation visuelle permet des interprétations qui mettent en correspondance les parties de corpus ou les sous-ensembles avec les éléments qui composent ces parties.

Elle fait ressortir la présence des personnalités avec le lexique qui leur est statistiquement lié. On observe ainsi avec cette représentation que dans l’espace de gauche du graphique que François Fillon a une visibilité plus importante que Jean-Frédéric Poisson ou Alain Juppé (candidats que l’on peut qualifier de plus consensuels du point de vue de la personnalité, sans que cela ne soit corrélable à leurs programmes).

Julien Longhi