University Sétif 1 FERHAT ABBAS Faculty of Sciences
Résultat de la recherche
1 résultat(s) recherche sur le mot-clé 'Traitement du langage naturel Classification de texte Apprentissage automatique Extraction de caractéristiques'
Ajouter le résultat dans votre panier Affiner la recherche Générer le flux rss de la recherche
Partager le résultat de cette recherche
Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes / Sarri,Racha
Titre : Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes Type de document : texte imprimé Auteurs : Sarri,Racha, Auteur ; Sadik Bessou, Directeur de thèse Editeur : Setif:UFA Année de publication : 2018 Importance : 1 vol (59 f .) Format : 29 cm Langues : Français (fre) Langues originales : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Classification de texte
Apprentissage automatique
Extraction de caractéristiquesIndex. décimale : 004 - Informatique Résumé : Résumé
L’identification automatique de la langue (IAL) est la première étape nécessaire pour effectuer
une tâche de traitement du langage naturel dépendant de la langue. C’est l’identification du langage
naturel du contenu d’entrée par une machine. Étant une tâche bien établie en linguistique computationnelle
depuis le début des années 1960, diverses méthodes ont été appliquées avec succès à un
large éventail de langues. Les identifiants de langage automatiques de pointe sont basés sur des modèles
n-gram de caractères formés sur d’énormes corpus. Cependant, il existe de nombreuses langues
naturelles qui ne sont pas encore traitées automatiquement. Par exemple, les langues minoritaires
ou les formes informelles de langues standard (langues à usage général utilisées uniquement dans les
médias). Certaines de ces langues sont seulement parlées et n’existent pas dans un format écrit.
L’utilisation des plateformes de médias sociaux et des nouvelles technologies a facilité l’émergence
d’un format écrit pour ces langues parlées en fonction de la prononciation. Ces nouvelles langues
écrites sont sous-financées, par conséquent les outils IAL actuels ne parviennent pas à les reconnaître
correctement.
Dans cette étude, nous revisitons le problème de l’IAL en mettant l’accent sur la discrimination
entre les langues similaires. Nous traitons du cas des variétés arabes (arabe standard moderne
avec les variétés informelles arabes), et nous considérons chaque variété arabe comme une langue autonome.
Notre objectif principal est de nous concentrer sur la classification des textes arabes en arabe
moderne standard, en dialecte de gulf, lévantine, égyptien ou nord-africain en utilisant des techniques
d’apprentissage machine comme les machines à vecteur de support (SVM), la régression logistique
(LR) et Naive Bayes (NB) classificateur. En outre, un modèle N-gram a été proposé où les documents
sont classés sur la base d’une combinaison d’unigrammes, bigrammes de mots avec unigramme,
bigramme et trigramme de caractères dans une phrase. L’ensemble de données considéré pour cette
étude est un ensemble de données étiqueté où chaque fichier contient un enorme nombre de phrases.
Enfin, la précision de prédiction des algorithmes d’apprentissage automatique mentionnés ci-dessus
dans différentes manipulations de l’ensemble de données est étudiée et une analyse comparative a été
effectuée.Note de contenu :
Sommaire
List of Figures 10
List of Tables 12
1 Introduction 1
1.1 Introducton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Goals and contributions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Thesis organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Natural Language Processing 5
2.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Natural Language Processing (NLP): . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Classification of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Branches of Natural Language Processing: . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Sentiment Analysis: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Text Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.3 Text Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.4 Parts-of-speech Tagging (POS): . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Applications of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.1 Machine Translation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Text Categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.3 Spam Filtering: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Information Extraction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.5 Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.6 Dialogue System: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.7 Medicine: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Arabic language 12
3.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Arabic Linguistic Background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Arabic varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Arabic dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Origins of Arabic dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 The dialectal varieties of arabic: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Differences between MSA and the regional dialects . . . . . . . . . . . . . . . . . . . . 15
3.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Arabic language processing 17
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Automatic Language Identification (ALI): . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Dialect Identification (DID): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4 Arabic Dialect Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 The Difficulty of Arabic DID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6 Applications of Dialect Identification: . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Machine learning 22
5.1 Introduction:: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 Machine Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 Basic notions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4 Machine Learning categories: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Text Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.6 Common learning algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.6.1 Naive Bayes Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6.1.1 Multinomial Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.1.2 Bernoulli Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.2 Logistic Regression: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.3 Support Vector Machines: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.7 Text representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7.1 Bag of words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7.2 Term weighting: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.8 Extraction of features: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1 N-grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.1 Word N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.2 Character N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.9 Performance Measures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.1 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.2 Precision and Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.9.1.3 F-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.10 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Data set and implementation frameworks 33
6.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2 Steps of our Arabic Varieties Recognition System: . . . . . . . . . . . . . . . . . . . . 33
6.3 Development tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4 Proposed System implementation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1 Corpus of data: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1.1 Dataset statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4.3 Creating the training and test sets . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4.4 Feature extraction and vectorization . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.1 Extraction of features . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.2 vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4.5 Application of machine learning algorithms: . . . . . . . . . . . . . . . . . . . . 45
6.4.6 Testing classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Experiments and Results 47
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2 classifiers comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1 Results using classifiers with CountVectorizer . . . . . . . . . . . . . . . . . . . 47
7.2.1.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.4 Summary of results using CountVectorizer: . . . . . . . . . . . . . . . 49
7.2.2 Results using classifiers with TfidfVectorizer: . . . . . . . . . . . . . . . . . . . 49
7.2.2.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2.2.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.4 Summary of the results using TfidfVectorizer: . . . . . . . . . . . . . . 50
7.2.3 Choice of the best classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.3.1 Classification report: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.4 Testing the classifier: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8 Conclusions 56
8.1 General findings: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Future directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
BibliographyCôte titre : MAI/0240 En ligne : https://drive.google.com/file/d/10_0jIuZ0flMcP81ZPhmGVofgv1khSGyT/view?usp=shari [...] Format de la ressource électronique : Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes [texte imprimé] / Sarri,Racha, Auteur ; Sadik Bessou, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Classification de texte
Apprentissage automatique
Extraction de caractéristiquesIndex. décimale : 004 - Informatique Résumé : Résumé
L’identification automatique de la langue (IAL) est la première étape nécessaire pour effectuer
une tâche de traitement du langage naturel dépendant de la langue. C’est l’identification du langage
naturel du contenu d’entrée par une machine. Étant une tâche bien établie en linguistique computationnelle
depuis le début des années 1960, diverses méthodes ont été appliquées avec succès à un
large éventail de langues. Les identifiants de langage automatiques de pointe sont basés sur des modèles
n-gram de caractères formés sur d’énormes corpus. Cependant, il existe de nombreuses langues
naturelles qui ne sont pas encore traitées automatiquement. Par exemple, les langues minoritaires
ou les formes informelles de langues standard (langues à usage général utilisées uniquement dans les
médias). Certaines de ces langues sont seulement parlées et n’existent pas dans un format écrit.
L’utilisation des plateformes de médias sociaux et des nouvelles technologies a facilité l’émergence
d’un format écrit pour ces langues parlées en fonction de la prononciation. Ces nouvelles langues
écrites sont sous-financées, par conséquent les outils IAL actuels ne parviennent pas à les reconnaître
correctement.
Dans cette étude, nous revisitons le problème de l’IAL en mettant l’accent sur la discrimination
entre les langues similaires. Nous traitons du cas des variétés arabes (arabe standard moderne
avec les variétés informelles arabes), et nous considérons chaque variété arabe comme une langue autonome.
Notre objectif principal est de nous concentrer sur la classification des textes arabes en arabe
moderne standard, en dialecte de gulf, lévantine, égyptien ou nord-africain en utilisant des techniques
d’apprentissage machine comme les machines à vecteur de support (SVM), la régression logistique
(LR) et Naive Bayes (NB) classificateur. En outre, un modèle N-gram a été proposé où les documents
sont classés sur la base d’une combinaison d’unigrammes, bigrammes de mots avec unigramme,
bigramme et trigramme de caractères dans une phrase. L’ensemble de données considéré pour cette
étude est un ensemble de données étiqueté où chaque fichier contient un enorme nombre de phrases.
Enfin, la précision de prédiction des algorithmes d’apprentissage automatique mentionnés ci-dessus
dans différentes manipulations de l’ensemble de données est étudiée et une analyse comparative a été
effectuée.Note de contenu :
Sommaire
List of Figures 10
List of Tables 12
1 Introduction 1
1.1 Introducton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Goals and contributions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Thesis organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Natural Language Processing 5
2.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Natural Language Processing (NLP): . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Classification of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Branches of Natural Language Processing: . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Sentiment Analysis: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Text Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.3 Text Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.4 Parts-of-speech Tagging (POS): . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Applications of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.1 Machine Translation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Text Categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.3 Spam Filtering: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Information Extraction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.5 Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.6 Dialogue System: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.7 Medicine: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Arabic language 12
3.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Arabic Linguistic Background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Arabic varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Arabic dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Origins of Arabic dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 The dialectal varieties of arabic: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Differences between MSA and the regional dialects . . . . . . . . . . . . . . . . . . . . 15
3.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Arabic language processing 17
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Automatic Language Identification (ALI): . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Dialect Identification (DID): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4 Arabic Dialect Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 The Difficulty of Arabic DID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6 Applications of Dialect Identification: . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Machine learning 22
5.1 Introduction:: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 Machine Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 Basic notions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4 Machine Learning categories: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Text Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.6 Common learning algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.6.1 Naive Bayes Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6.1.1 Multinomial Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.1.2 Bernoulli Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.2 Logistic Regression: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.3 Support Vector Machines: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.7 Text representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7.1 Bag of words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7.2 Term weighting: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.8 Extraction of features: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1 N-grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.1 Word N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.2 Character N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.9 Performance Measures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.1 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.2 Precision and Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.9.1.3 F-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.10 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Data set and implementation frameworks 33
6.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2 Steps of our Arabic Varieties Recognition System: . . . . . . . . . . . . . . . . . . . . 33
6.3 Development tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4 Proposed System implementation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1 Corpus of data: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1.1 Dataset statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4.3 Creating the training and test sets . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4.4 Feature extraction and vectorization . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.1 Extraction of features . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.2 vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4.5 Application of machine learning algorithms: . . . . . . . . . . . . . . . . . . . . 45
6.4.6 Testing classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Experiments and Results 47
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2 classifiers comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1 Results using classifiers with CountVectorizer . . . . . . . . . . . . . . . . . . . 47
7.2.1.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.4 Summary of results using CountVectorizer: . . . . . . . . . . . . . . . 49
7.2.2 Results using classifiers with TfidfVectorizer: . . . . . . . . . . . . . . . . . . . 49
7.2.2.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2.2.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.4 Summary of the results using TfidfVectorizer: . . . . . . . . . . . . . . 50
7.2.3 Choice of the best classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.3.1 Classification report: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.4 Testing the classifier: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8 Conclusions 56
8.1 General findings: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Future directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
BibliographyCôte titre : MAI/0240 En ligne : https://drive.google.com/file/d/10_0jIuZ0flMcP81ZPhmGVofgv1khSGyT/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0240 MAI/0240 Mémoire Bibliothéque des sciences Français Disponible
Disponible