Elasticsearch utilisé au centre de l’application citoyenne #Idéo2017

Article publié sur le blog d’Elasticsearch

Le projet

Le projet #Idéo2017, financé par la Fondation UCP, associe des chercheurs du laboratoire AGORA et du laboratoire ETIS (ENSEA / UCP / CNRS UMR 8051). L’objectif du projet était de créer un outil d’analyse des tweets politiques lors de campagnes politiques.

Partant d’acquis et de développements d’outils à partir d’un corpus de tweets déjà constitué (autour des élections municipales 2014), ce projet a permis la création d’une plateforme en ligne qui permet de traiter, avec des délais relativement courts, les messages produits en lien avec l’actualité politique (meetings, débats, émissions télévisées, etc.). Les citoyens ou journalistes peuvent ainsi effectuer leurs propres requêtes et obtenir des résultats compréhensibles grâce à cette interface qui rend accessible des analyses et critères linguistiques et informatiques habituellement complexes à appréhender.

Elasticsearch pour #Idéo2017

Le but de la plateforme #Idéo2017 est de proposer deux fonctionnalités principales à ses utilisateurs : (1) une analyse linguistique des tweets (des 11 candidats à l’élection présidentielle) qui est créée partiellement à l’aide des scripts développés dans l’outil d’analyse textuelle Iramuteq (http://www.iramuteq.org/), et (2) un moteur de recherche disposant de fonctionnalités avancées telles que la navigation par facettes pour explorer le corpus des tweets.

[Lire la suite sur le blog d’Elasticsearch]

#Idéo2017 : le site qui décortique les tweets des candidats à la présidentielle (vidéo)

Les réseaux sociaux sont devenus un outil de communication incontournable des candidats à la présidentielle. Une plate-forme numérique pilotée par un professeur de l’Université de Cergy-Pontoise se propose d’analyser les tweets des politiques et de disséquer les mots utilisés par les candidats. Qui parle le plus d’économie, de sécurité ou d’emploi et surtout avec quels mots ? C’est ce que vous propose le site #Idéo2017. Regardez le reportage de VOtv :

Voir la suite sur le site de VoNews/VoTV

Worte wie Waffen

Der Linguist Julien Longhi hat die Tweets der französischen Präsidentschaftskandidaten nach Schlagwörtern durchsucht. Das Ergebnis: Es wird Wahlkampf mit der Angst vor Islamismus und mit dem Kampf gegen Terror gemacht – aber auf sehr unterschiedliche Weise.

„Kein Ergebnis entspricht Ihrer Suche.“ Das zeigt die Website Idéo2017.ensea.fr in großen, roten Lettern an. Die Seite bietet eine Analyse der Tweets von französischen Politikern an, das Schlagwort „Islam“ zusammen mit „Marine Le Pen“ ergibt genau: null Treffer. Marine Le Pen hat seit September 2016 nicht über den Islam getwittert. Was ist passiert? Sind die Angst vor Terrorismus und die Islamophobie aus Le Pens Wahlkampagne verschwunden? Spielen Themen wie Sicherheit, Immigration, Kampf gegen Terror überhaupt noch eine Rolle in den Präsidentschaftswahlen? Oder wurden sie vom Skandal um die vermutete Scheinbeschäftigung von Fancois Fillons Frau und vom rasanten Aufstieg des unabhängigen Jungkandidaten Emmanuel Macron verdrängt?

Idéo2017 weiß noch mehr. Die Website ist seit ein paar Tagen voll in Betrieb und analysiert die Tweets der französischen Präsidentschaftskandidaten seit Beginn des Wahlkampfes im Herbst. Zu den elf französischen Präsidentschaftskandidaten spuckt die Seite Diagramme, Wörterwolken, Mind-Maps und endlose Tweet-Listen aus, immer in Verbindung mit einem politischen Schlagwort. „Arbeit“ taucht am häufigsten in Benoît Hamons Kurznachrichten auf, was bei dem Kandidaten der sozialistischen Partei nicht weiter überrascht. In Macrons Tweets wird „Europa“ oft im Zusammenhang mit „Reformen“ erwähnt. Die Website weiß auch, dass Marine Le Pen ganz und gar nicht auf den Terrorismus-und-Islam-Diskurs verzichtet: beim Schlagwort „Islamistisch“ führt sie die Idéo-Rangliste an.

Lire la suite sur le site BONJOURnaliste

Quand les mots partent en campagne…

Présidentielle 2017: aucune trace du mot « islam » dans les tweets de Marine Le Pen ! Fake news ? Comment le travail sur les mots et l’analyse linguistique permettent de décrypter les discours politiques…

Aucun des tweets de Marine Le Pen analysés par la plateforme #Idéo2017 ne mentionne le mot « islam ». Le concepteur de l‘application, Julien Longhi – linguiste spécialiste de l‘analyse du discours politique et médiatique et professeur à l‘université de Cergy-Pontoise – a d‘abord cru à un bug informatique mais les résultats sont clairs. Le mot « islam » n‘est jamais employé…seul.

Fréquence d’emploi du mot « islam » par les différents candidats aux élections présidentielles. Les candidats non-mentionnés n’emploient pas le mot seul et effectivement, aucune trace de Marine Le Pen. (source: plateforme #Idéo2017)

En revanche, Marine Le Pen utilise de nombreux dérivés comme « islamisme » ou « islamiste », souvent accolés aux mots « terrorisme » ou « fondamentalisme ».

Lire la suite sur le site BONJOURnaliste

Présidentielle. Comment les candidats tentent de convaincre en ligne

  • Nombre d'abonnés Twitter et Facebook des cinq principaux candidats à l'élection présidentielle.
    Emmanuelle FRANÇOIS.

Pour atteindre un électorat peu politisé et diffuser directement leurs idées, les candidats font de leurs comptes sur les réseaux sociaux des machines à convaincre ou à discréditer bien huilées.

Tracts colorés et spots de campagne entraînants ne suffisent plus à atteindre tous les électeurs, notamment les jeunes. « Les réseaux sociaux remplacent d’autres médias chez un certain nombre de consommateurs d’information », rappelle Julien Longhi, professeur de linguistique à l’université Cergy-Pontoise et chef du projet #Idéo2017, qui analyse les tweets politiques lors de campagnes électorales. « On peut être plus enclin à aller vers la consultation d’idées et de programmes par ce biais. »

Lire la suite sur le site du journal Ouest France

Cergy : #Idéo2017, l’outil qui analyse les tweets des hommes politiques est en ligne

Archives. Julien Longhi est professeur des universités en sciences du langage à l’université de Cergy-Pontoise (UCP).LP/A.C.
A.C.

Les tweets des hommes et femmes politiques n’auront bientôt plus de secrets pour vous. Depuis quelques jours, #Idéo2017, la plate-forme d’analyse de ces petits messages de 140 caractères postés par les politiques sur le réseau social Twitter, est disponible gratuitement en ligne. Un outil créé par Julien Longhi, professeur en sciences du langage à l’université de Cergy-Pontoise (UCP), et les informaticiens du laboratoire val-d’oisien Etis. Grâce à #Idéo2017, chacun peut ainsi vérifier si un candidat emploie le mot « migrant » plutôt que « réfugié ». Ou si le terme de « nation » ou « immigration » revient régulièrement dans ses discours.

Lire la suite sur le site du Parisien

#Idéo2017, l’observatoire linguistique des candidats à la présidentielle

Une dynamique engagée depuis 2012

Article publié sur Linkedin

Loin de répondre à un effet de mode, #Idéo2017 est la concrétisation d’un travail de longue haleine entrepris depuis 2012, lors d’une collaboration avec le Huffington Postpour une série de billets « Dis-moi ce que tu tweetes« .

En 2013, je publiais mon premier article scientifique sur le sujet des tweets politiques, permettant une caractérisation du tweet politique comme genre du discours politique : « Essai de caractérisation du tweet politique », dans la revue L’Information grammaticale. La prise en compte du tweet politique comme un genre du discours politique (écouter cette chronique de France Culture) justifiait une analyse rigoureuse de cette forme d’expression. Une collaboration avec des chercheurs en informatique (Claudia Marinica, Boris Borzic et Abdulhafiz Alkhouli) donnait alors une envergure supplémentaire à cette recherche, et débouchait sur la constitution du premier corpus de tweets au plan national, hébergé par l’équipex OrtolangPolititweets, corpus de tweets provenant de comptes politiques influents.

Ortolang est un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés. Cette mise en ligne était donc à la fois un gage de crédit scientifique et académique, et un encouragement à poursuivre le travail engagé.

Sur la base de ce corpus, plusieurs travaux scientifiques ont été menés sur les tweets politiques, et présentés dans différents congrès, nationaux ou internationaux: en Allemagne sur l’idéologie, en Angleterre sur les aspects techniques des corpus de tweets, à Paris sur l’hybridation des discours institutionnels sur Twitter, etc.

Le projet #Idéo2017 se situe dans la continuité de tout ce travail : il vise à tirer profit de ces résultats (connaissances techniques, scientifiques, et usage de datavisualisations) pour mettre un outil à la disposition des citoyens.

Une plateforme destinée au plus grand nombre

Prenons un exemple: en entrant sur la plateforme #Idéo2017, l’utilisateur peut choisir plusieurs types d’analyses.

 

Sur la partie gauche, il peut chercher à comparer l’usage de certains termes les plus emblématiques des discours politiques par les candidats (liste établie sur la base des recherches de Cécile Alduy). Au milieu, il peut analyser des corpus, soit celui de l’ensemble des candidats, soit celui d’un candidat en particulier. Sur la partie de droite, il peut accéder à une interface intuitive et dynamique qui permet de faire des recherches dans les tweets et de pouvoir accéder aux liens des tweets dans l’environnement Twitter.

Si l’utilisateur choisit de s’intéresser au mot « islam » par exemple, plusieurs analyses sont proposées:

 

Les analyses sont réalisées à l’aide de plusieurs langages et outils, notamment ElasticSearch pour stocker les tweets, les scripts Iramuteq pour certaines analyses, distribués sous les termes de la licence GNU GPL (v2) et ElasticUI pour le développement du moteur de recherche.

Ainsi, l’utilisateur peut comparer le sur-emploi ou sous-emploi de ce mot par les différents candidats:

 

Supposons maintenant que l’utilisateur soit surpris du sous-emploi de Islam par Marine Le Pen, et l’emploi relativement modeste par François Fillon. Il peut chercher l’emploi de ce mot et de ses dérivés, et observer leur fréquence:

 

Il verra ainsi que le nombre de tweets dans lesquels se trouve cette forme est très important chez ces deux candidats.

Ceci se confirme d’ailleurs en regardant les relations de ce mot avec d’autres mots, proposées sous forme graphique:

Islam est en effet très lié à différents réseaux ou noeuds:

  • islamisme/immigration/communautarisme,
  • islamiste/fondamentaliste/idéologie/attentat/terrorisme,
  • islamique/totalitarisme/Syrie

Devant ces résultats, un retour au corpus s’impose, et il est rendu possible grâce à la partie « navigation »:

 

Grâce au moteur de recherche, l’utilisateur peut taper le terme qui l’intéresse, et les propositions de tweets s’affichent dynamiquement:

 

Il suffit alors de cliquer sur la vignette de son choix, et le texte du tweet apparaît:

 

Ceci confirme le résultat graphique obtenu dans les premières requêtes, puisqu’il est question, dans le tweet de Marine Le Pen, de « terrorisme islamiste ».

Le lien permet ensuite d’aller directement au tweet dans l’interface de twitter:

 

L’utilisateur peut ainsi se forger son opinion sur tel ou tel candidat grâce à ce processus itératif proposé dans #Idéo2017: analyses globales lexicales ou par corpus, résultats et hypothèses, réponses, nouvelles questions, « enquêtes », etc. Tout est réuni pour que chacun puisse appréhender le discours des candidats avec objectivation et rigueur. De nombreuses études ont été publiées sur le blog du projet, en amont du développement technique, et seront enrichies de nouvelles analyses 100% #Idéo2017.