University Sétif 1 FERHAT ABBAS Faculty of Sciences
Résultat de la recherche
1 résultat(s) recherche sur le mot-clé 'Traitement du langage naturel Dialecte arabe Classification du texte Apprentissage automatique.'
Ajouter le résultat dans votre panier Affiner la recherche Générer le flux rss de la recherche
Partager le résultat de cette recherche
Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes / Soualhi,Sabrina
Titre : Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes Type de document : texte imprimé Auteurs : Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (59 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique.Résumé : La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux deNote de contenu : Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LISTCôte titre : MAI/0296 En ligne : https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...] Format de la ressource électronique : Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes [texte imprimé] / Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique.Résumé : La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux deNote de contenu : Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LISTCôte titre : MAI/0296 En ligne : https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0296 MAI/0296 Mémoire Bibliothéque des sciences Français Disponible
Disponible