Titre : |
Construction d'un corpus de tweets en langue arabe |
Type de document : |
texte imprimé |
Auteurs : |
Nebais, sonia ; LAKHFIF, A, Directeur de thèse |
Editeur : |
Setif:UFA |
Année de publication : |
2017 |
Importance : |
1 vol (61f.) |
Format : |
29 cm |
Langues : |
Français (fre) |
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Génie Logiciel
Twitter
TwitterAPI
Corpus
Langue arabe. |
Index. décimale : |
004 Informatique |
Résumé : |
R´esum´e :
Avec la croissance r´ecente des syst`emes d’information mobiles et la disponibilit´e
accrue de t´el´ephones intelligents, les m´edias sociaux sont devenus une grande partie
de la vie quotidienne dans la plupart des soci´et´es. Ce d´eveloppement a entraˆın´e la
cr´eation de quantit´es massives de donn´ees : les donn´ees qui, lorsqu’elles sont analys´ees,
peuvent ˆetre utilis´ees pour extraire des informations pr´ecieuses sur une vari´et´e de sujets.
Avec plus de 500 millions de Tweets chaque jour, Twitter a gagn´e une popularit´e
consid´erable au cours des derni`eres ann´ees et est devenu une plate-forme attrayante
pour les entreprises, les politiciens, les marketeurs et d’autres qui souhaitent partager
des informations et / ou des opinions. La grande quantit´e de contenu g´en´er´e par l’utilisateur, le fait que certains Tweets ont un emplacement spatial et l’acc`es public aux
donn´ees via l’API Twitter sont des avantages qui rendent ce r´eseau de micro-blogging
adapt´e `a l’exploration de donn´ees des messages. Malgr´e la popularit´e de Twitter pour
la recherche, il y a tr`es peu de corpus pour l’arabe publiquement disponibles, et ceux
qui sont disponibles sont trop petits. Ceci est en partie dˆu `a un certain nombre de probl`emes associ´es `a la cr´eation de corpus Twitter, principalement la nature de la langue
Arabe qui diff`ere des langues Indo-europ´eennes sur plusieurs aspects, tel que le jeu de
caract`ere, l’orientation, le script, etc.
Dans ce m´emoire de MASTER, nous avons construit un corpus des tweets en Arabe.
Les tweets sont collect´es en utilisant la biblioth`eque TwitterAPI de Twitter et sont organis´es
selon plusieurs crit`eres. Notre corpus est sauvegard´e dans des fichiers XML,
facilitant, ainsi son utilisation par des applications tierces. Nous proposons, aussi, une
interface utilisateur permettant la navigation et la recherche dans le corpus, ainsi que
la collecte en temps r´eel des tweets. |
Note de contenu : |
Table des mati`eres
R´esum´e II
Liste des tables IV
Liste des figures VI
Introduction g´en´eral 1
1 Les Corpus de textes et le Traitement Automatique des Langues (TAL) 4
1.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 D´efinition du corpus : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Caract´eristiques des corpus : . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Taille : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Langage : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Pourquoi utiliser les Corpora : . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Les Avantages des donn´ees de corpus : . . . . . . . . . . . . . . . . . . . . 7
1.6 Le dialecte alg´erien : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7 Le rˆole du corpus dans les tˆaches TAL : . . . . . . . . . . . . . . . . . . . 9
1.8 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 les r´eseaux sociaux 12
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Les r´eseaux sociaux : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 D´efinition : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 L’´emergence des r´eseaux sociaux : . . . . . . . . . . . . . . . . . . 13
2.2.3 L’impact des r´eseaux sociaux dans notre vie : . . . . . . . . . . . 15
2.3 Twitter : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Pr´esentation de twitter : . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Les caract´eristiques de tweets : . . . . . . . . . . . . . . . . . . . . 19
2.4 Choix de twitter pour construire notre corpus : . . . . . . . . . . . . . . . 21
2.5 l’´etat d’art : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Extraction des donn´ees 25
3.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Twitter API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Rest API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Search API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Streaming API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Mise en Å“uvre : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Cr´eation du corpus : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.1 liste des domaines : . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.2 Collection des donn´ees : . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.3 Pr´etraitement des tweets : . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.4 Stockage des tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Impl´ementation 37
4.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Environnement logiciel et mat´eriel de d´eveloppement . . . . . . . . . . . 37
4.2.1 Environnement du mat´erielle . . . . . . . . . . . . . . . . . . . . . 38
4.2.2 Environnement logiciel : . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.3 Langage de programmation : . . . . . . . . . . . . . . . . . . . . . 38
4.2.4 Interface de programmation Twitter : . . . . . . . . . . . . . . . . 39
4.3 Twitter API r´eglage : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3.1 Cr´eation d’une application twitter : . . . . . . . . . . . . . . . . . 40
4.3.2 Obtenir des informations d’identification de Twitter : . . . . . . . 40
4.3.3 Cr´eation de Twitter Connexion : . . . . . . . . . . . . . . . . . . . 42
4.4 Architecture de l’application : . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Interface graphique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.6 Mode d’emploi : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.6.1 Lancement de l’application : . . . . . . . . . . . . . . . . . . . . . . 43
4.6.2 Simple recherche de tweets : . . . . . . . . . . . . . . . . . . . . . . 45
4.6.3 Sauvegarde des Tweets : . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6.4 Importer des tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.7 Statistiques sur les tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.7.1 Nombre des tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7.2 Nombre des mots : . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7.3 Nombre des utilisateurs : . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7.4 Nombre des hashtag : . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.7.5 Nombre des tweets contient au moins un utilisateur mentionn´es : 51
4.7.6 Nombre des tweets contient au moins un hyperlien : . . . . . . . . 52
4.7.7 Nombre des tweets contient au moins un hashtag : . . . . . . . . 53
4.8 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Conclusion g´en´erale 55
BIBLIOGRAPHIE 57
WEBOGRAPHIE 62
|
Côte titre : |
MAI/0178 |
En ligne : |
https://drive.google.com/file/d/17P_W8uHDqiaArznhYOTLjwQcEkYbU6L3/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
Construction d'un corpus de tweets en langue arabe [texte imprimé] / Nebais, sonia ; LAKHFIF, A, Directeur de thèse . - [S.l.] : Setif:UFA, 2017 . - 1 vol (61f.) ; 29 cm. Langues : Français ( fre)
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Génie Logiciel
Twitter
TwitterAPI
Corpus
Langue arabe. |
Index. décimale : |
004 Informatique |
Résumé : |
R´esum´e :
Avec la croissance r´ecente des syst`emes d’information mobiles et la disponibilit´e
accrue de t´el´ephones intelligents, les m´edias sociaux sont devenus une grande partie
de la vie quotidienne dans la plupart des soci´et´es. Ce d´eveloppement a entraˆın´e la
cr´eation de quantit´es massives de donn´ees : les donn´ees qui, lorsqu’elles sont analys´ees,
peuvent ˆetre utilis´ees pour extraire des informations pr´ecieuses sur une vari´et´e de sujets.
Avec plus de 500 millions de Tweets chaque jour, Twitter a gagn´e une popularit´e
consid´erable au cours des derni`eres ann´ees et est devenu une plate-forme attrayante
pour les entreprises, les politiciens, les marketeurs et d’autres qui souhaitent partager
des informations et / ou des opinions. La grande quantit´e de contenu g´en´er´e par l’utilisateur, le fait que certains Tweets ont un emplacement spatial et l’acc`es public aux
donn´ees via l’API Twitter sont des avantages qui rendent ce r´eseau de micro-blogging
adapt´e `a l’exploration de donn´ees des messages. Malgr´e la popularit´e de Twitter pour
la recherche, il y a tr`es peu de corpus pour l’arabe publiquement disponibles, et ceux
qui sont disponibles sont trop petits. Ceci est en partie dˆu `a un certain nombre de probl`emes associ´es `a la cr´eation de corpus Twitter, principalement la nature de la langue
Arabe qui diff`ere des langues Indo-europ´eennes sur plusieurs aspects, tel que le jeu de
caract`ere, l’orientation, le script, etc.
Dans ce m´emoire de MASTER, nous avons construit un corpus des tweets en Arabe.
Les tweets sont collect´es en utilisant la biblioth`eque TwitterAPI de Twitter et sont organis´es
selon plusieurs crit`eres. Notre corpus est sauvegard´e dans des fichiers XML,
facilitant, ainsi son utilisation par des applications tierces. Nous proposons, aussi, une
interface utilisateur permettant la navigation et la recherche dans le corpus, ainsi que
la collecte en temps r´eel des tweets. |
Note de contenu : |
Table des mati`eres
R´esum´e II
Liste des tables IV
Liste des figures VI
Introduction g´en´eral 1
1 Les Corpus de textes et le Traitement Automatique des Langues (TAL) 4
1.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 D´efinition du corpus : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Caract´eristiques des corpus : . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Taille : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Langage : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Pourquoi utiliser les Corpora : . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Les Avantages des donn´ees de corpus : . . . . . . . . . . . . . . . . . . . . 7
1.6 Le dialecte alg´erien : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7 Le rˆole du corpus dans les tˆaches TAL : . . . . . . . . . . . . . . . . . . . 9
1.8 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 les r´eseaux sociaux 12
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Les r´eseaux sociaux : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 D´efinition : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 L’´emergence des r´eseaux sociaux : . . . . . . . . . . . . . . . . . . 13
2.2.3 L’impact des r´eseaux sociaux dans notre vie : . . . . . . . . . . . 15
2.3 Twitter : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Pr´esentation de twitter : . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Les caract´eristiques de tweets : . . . . . . . . . . . . . . . . . . . . 19
2.4 Choix de twitter pour construire notre corpus : . . . . . . . . . . . . . . . 21
2.5 l’´etat d’art : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Extraction des donn´ees 25
3.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Twitter API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Rest API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Search API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Streaming API : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Mise en Å“uvre : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Cr´eation du corpus : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.1 liste des domaines : . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.2 Collection des donn´ees : . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.3 Pr´etraitement des tweets : . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.4 Stockage des tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Impl´ementation 37
4.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Environnement logiciel et mat´eriel de d´eveloppement . . . . . . . . . . . 37
4.2.1 Environnement du mat´erielle . . . . . . . . . . . . . . . . . . . . . 38
4.2.2 Environnement logiciel : . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.3 Langage de programmation : . . . . . . . . . . . . . . . . . . . . . 38
4.2.4 Interface de programmation Twitter : . . . . . . . . . . . . . . . . 39
4.3 Twitter API r´eglage : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3.1 Cr´eation d’une application twitter : . . . . . . . . . . . . . . . . . 40
4.3.2 Obtenir des informations d’identification de Twitter : . . . . . . . 40
4.3.3 Cr´eation de Twitter Connexion : . . . . . . . . . . . . . . . . . . . 42
4.4 Architecture de l’application : . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Interface graphique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.6 Mode d’emploi : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.6.1 Lancement de l’application : . . . . . . . . . . . . . . . . . . . . . . 43
4.6.2 Simple recherche de tweets : . . . . . . . . . . . . . . . . . . . . . . 45
4.6.3 Sauvegarde des Tweets : . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6.4 Importer des tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.7 Statistiques sur les tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.7.1 Nombre des tweets : . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7.2 Nombre des mots : . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7.3 Nombre des utilisateurs : . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7.4 Nombre des hashtag : . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.7.5 Nombre des tweets contient au moins un utilisateur mentionn´es : 51
4.7.6 Nombre des tweets contient au moins un hyperlien : . . . . . . . . 52
4.7.7 Nombre des tweets contient au moins un hashtag : . . . . . . . . 53
4.8 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Conclusion g´en´erale 55
BIBLIOGRAPHIE 57
WEBOGRAPHIE 62
|
Côte titre : |
MAI/0178 |
En ligne : |
https://drive.google.com/file/d/17P_W8uHDqiaArznhYOTLjwQcEkYbU6L3/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
|