Titre : |
Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes |
Type de document : |
texte imprimé |
Auteurs : |
Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse |
Editeur : |
Setif:UFA |
Année de publication : |
2019 |
Importance : |
1 vol (59 f .) |
Format : |
29 cm |
Langues : |
Français (fre) |
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique. |
Résumé : |
La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux de |
Note de contenu : |
Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LIST |
Côte titre : |
MAI/0296 |
En ligne : |
https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes [texte imprimé] / Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (59 f .) ; 29 cm. Langues : Français ( fre)
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique. |
Résumé : |
La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux de |
Note de contenu : |
Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LIST |
Côte titre : |
MAI/0296 |
En ligne : |
https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
|