Le corpus #Idéo2017 mis en ligne, et accessible via notre interface !

Nous sommes heureux de vous annoncer la mise en ligne du corpus complet d’#Idéo2017: Présidentielle2017

Ce corpus a été mis au format TEI grâce au soutien du consortium CORLI (financement d’1 mois d’ingénieur).

Ce corpus a été intégré à l’interface de traitement mise en ligne sur ce site, et qui contenait les 2 précédents corpus (Polititweets et #Intermittents), grâce au travail d’Abdelouafi El Otmani, maintenant en thèse dans les laboratoires AGORA et ETIS.

Avec cette interface, les utilisateurs peuvent faire des recherches dans l’ensemble du corpus:

 

et générer des exports dans divers formats (CSV, pour les logiciels Lexico3 et Iramuteq)

 

Souriez, vous êtes sur #Idéo2017 !

Un générateur de corpus dans #Idéo2017 !

La campagne présidentielle étant achevée, l’équipe d’#Idéo2017 projette de constituer, normaliser, et mettre à disposition de la communauté, l’ensemble des tweets récoltés (42290). Ceci passera par une structuration des données, une mise au format TEI, et une réflexion sur la récupération des images, vidéos, animations, qui sont de plus en plus nombreuses dans les tweets politiques.

Mais avant ce chantier, nous proposons un outil qui permet de générer des corpus, en choisissant la temporalité et le compte souhaités.

Voici les étapes qui permettent de générer son propre corpus autour de la #Présidentielle2017, grâce à #Idéo2017

Etape 1:

je vais sur #Idéo2017 (http://ideo2017.ensea.fr/plateforme/) et je choisis d’analyser les tweets d’un candidat:

Etape 2:

je clique sur la fonctionnalité « Extraction d’un corpus »

Etape 3:

je paramètre mes choix

Etape 4:

j’obtiens le corpus souhaité, balisé pour le logiciel Iramuteq (d’autres balisages pourront être introduits par la suite)

Il suffit alors de copier ce corpus et de le coller dans un fichier .txt pour réaliser ses analyses textométriques.

 

Bonne navigation sur #Idéo217 ! et n’hésitez pas à consulter la plateforme sur les législatives 2017, en cliquant en haut à droite de la plateforme.

AfterWork le jeudi 20 avril à 17h

Au programme la présentation du projet et de l’application IDEO2017

Cet événement se déroulera à l’Université de Cergy-Pontoise, salle des conférences (Bâtiment chênes 1), 33 Boulevard du Port, 95000 Cergy-Pontoise.  

Pour des questions d’organisation, il est préférable de s’inscrire par mail à reseau.r2dip@gmail.com

En attendant, n’hésitez pas à découvrir le projet IDEO2017 sur http://ideo2017.ensea.fr/ et à aller faire un tour sur le site du réseau R2DIP en charge de l’organisation

Plateforme #idéo2017 : tutoriel et kit de comm’

La plateforme #Idéo2017 est en ligne depuis le 29 mars !

Pour aider les utilisateurs, et promouvoir cet outil destiné au plus grand nombre, les étudiants du DUT MMI de l’IUT de Cergy-Pontoise (site de Sarcelles) ont réalisé quelques supports:

un tutoriel print :

et vidéo:

Ainsi qu’une affiche:

 

 

Stage: Analyses sémantiques, linguistiques et statistiques de tweets politiques

Analyses sémantiques, linguistiques et statistiques de tweets politiques : création d’un outil d’analyse lors
de campagnes politiques

Offre de stage de 6 mois (à partir de janvier 2017) en informatique, linguistique-informatique, fouille de données, constitution de corpus, bases de données

Ce stage se situe dans le cadre du projet de recherche
#Idéo2017 : contribution à la création d’un outil d’analyse des tweets politiques lors de campagnes politiques

A propos

financé par la Fondation de l’université de Cergy-Pontoise

Description :
Twitter est un medium incontournable dans la communication politique. Dans ce contexte, le projet #Idéo2017 souhaite (1) mieux connaître et décrire les messages politiques envoyés sur Twitter, mais aussi (2) rendre ces résultats disponibles pour les citoyens.
Ce projet consiste en la création d’une application web en ligne qui permettrait de traiter, avec des délais relativement courts, les messages produits en lien avec l’actualité politique (meetings, débats, émissions télévisées, etc.). Cet outil s’appuiera sur la méthodologie de constitution de corpus élaborée dans un précédent projet (corpus Polititweets) et l’implémentation d’outils de statistique textuelle et de visualisation de données. Les citoyens ou journalistes pourraient ainsi effectuer leurs propres requêtes et obtenir des résultats compréhensibles grâce à cette interface qui rendra accessible des analyses et critères linguistiques et informatiques complexes.

Objectifs :

Les objectifs de se projet concernent deux axes de travail. Dans le premier axe, l’étudiant devra faire une étude sur les analyses qui peuvent être réalisées sur des tweets politiques, et éventuellement en suggérer des nouvelles. Dans le deuxième axe, l’étudiant devra mettre en place ces analyses sélectionnées dans le cadre d’un site web. Pour cela, un ensemble de compétences sont requises.

Les objectifs se décrivent de la manière suivante :

1. Etudier l’ensemble d’analyses linguistiques qui existent dans la littérature et faire une étude comparative.

2. Choisir parmi les analyses étudiées en point 1 celles qui s’intégreraient dans le futur système d’analyse.

3. Proposer de nouvelles analyses basées sur des techniques de fouille de données ou apprentissage automatique.

4. Travailler sur la mise en place du système (site web) en suivant les étapes suivantes :
a. Faire une veille sur tous les frameworks CSS responsive design (bootstrap, skeleton, Isilex …) et réaliser une grille comparative pour expliquer le choix de la solution retenue ;
b. Utiliser l’architecture REST (Representational State Transfer) pour construire une application type Web Service avec mise à disposition d’une API vers des partenaires extérieurs ;
c. Installation du serveur elasticsearch et d’un gestionnaire de BD SQL et NoSql type mysql, mongodb ;
d. Relier dynamiquement les résultats d’Elasticsearch avec des outils de visualisation, de cartographie, d’analyse de graphes comme Gephi, et de reporting sous formes de dashboards, de graphiques et de statistiques comme kibana.

5. Participer à la constitution d’un corpus de tweets #Idéo2017 qui sera mis en ligne sur un site spécifique du projet hébergé par l’UMR ETIS http://ideo2017.ensea.fr/ (corpus au format tei-cmc).

Compétences souhaitées
Compétences dans l’usage des services de Twitter, des notions de dataviz et de machine learning
Connaissances en fouille de données et bases de données
Usage d’outils de fouille de données textuelles et/ou textométrie
Adaptabilité, curiosité, esprit d’initiatives pour acquérir les compétences non déjà acquises

Profil : étudiant de M2 en informatique, TAL, fouille de données, ou d’autres domaines qui couvriraient une partie des compétences attendues.

Responsables de l’encadrement
Julien Longhi, AGORA, julien.longhi(at)u-cergy.fr (porteur du projet)
Claudia Marinica, ETIS, claudia.marinica(at)u-cergy.fr
Boris Borzic, ETIS, boris.borzic(at)u-cergy.fr