University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Kara-mohamed, Chafia |
Documents disponibles écrits par cet auteur



Titre : Analyse des Sentiments pour le Dialecte Algérien Type de document : texte imprimé Auteurs : Mouessah ,Haithem dhia eddine, Auteur ; Kara-mohamed, Chafia, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (50 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Analyse des sentiments
Lexique
Langue Arabe
Dialecte AlgérienIndex. décimale : 004 - Informatique Résumé : De nos jours, les réseaux sociaux tiennent une place majeure dans la diffusion de l’actualité où ils sont considérés comme un moyen d’expression libre et accessible pour beaucoup de personnes dans le monde. Ces réseaux peuvent donc fournir une énorme quantité d'informations pouvant être utilisées dans de nombreux travaux d'analyse de sentiments.
Dans notre travail nous avons utilisé les données du réseau social Facebook pour faire une analyse des sentiments pour le dialecte algérien. Nous avons construit un modèle de classification basé sur le lexique et nous avons utilisé la mesure dite PMI (Pointwise mutual information). A la fin, nous avons testé la performance du lexique sur des commentaires Facebook écrit en texte arabe.Note de contenu : Sommaire
Résumé I
Remerciements II
Table des matières III
Liste des figures VI
Liste des tableaux VII
Introduction Générale 1
1 L’analyse des Sentiments et la Langue Arabe 3
1.1 Introduction : .................................................................................................................... 4
1.2 Travaux similaires : .......................................................................................................... 4
1.3 Analyse de sentiment: ...................................................................................................... 5
1.4 Composantes de sentiment: .............................................................................................. 5
1.5 Niveaux d'analyse : ........................................................................................................... 6
1.5.1 Niveau du document : ............................................................................................... 6
1.5.2 Niveau de la phrase : ................................................................................................. 6
1.5.3 Niveau d'aspect : ........................................................................................................ 6
1.6 Technique d'analyse des sentiments: ................................................................................ 6
1.6.1 Méthode d'apprentissage automatique : .................................................................... 6
1.6.2 Méthode basée sur le lexique : .................................................................................. 8
1.6.3 Méthodes hybrides : .................................................................................................. 9
1.7 Difficultés d'analyse des sentiments :............................................................................... 9
1.8 Applications de l’analyse des sentiments : ....................................................................... 9
1.8.1 Analyse des sentiments et le commerce : .................................................................. 9
1.8.2 Analyse des sentiments et publicité en ligne : ........................................................... 9
1.8.3 Analyse des sentiments et politique : ...................................................................... 10
IV
1.9 La langue arabe : ............................................................................................................ 10
1.9.1 L’arabe standard moderne (ASM) :......................................................................... 10
1.9.2 L’arabe dialectal (AD) : .......................................................................................... 10
1.10 Le dialecte algérien : .................................................................................................... 11
1.10.1 Caractéristiques du dialecte algérien : ................................................................... 12
1.11 Conclusion : .................................................................................................................. 12
2 Les Réseaux Sociaux 14
2.1 Introduction : .................................................................................................................. 15
2.2 Les réseaux sociaux : ...................................................................................................... 15
2.2.1 Définition : .............................................................................................................. 15
2.2.2 L'émergence des réseaux sociaux : .......................................................................... 16
2.2.3 L'impact des réseaux sociaux dans notre vie : ......................................................... 17
2.2.3.1 Impact des médias sociaux sur l'éducation : ..................................................... 17
2.2.3.2 Impact des médias sociaux sur le business : .................................................... 17
2.2.3.3 Impact des médias sociaux sur la société: ........................................................ 17
2.3 Twitter : .......................................................................................................................... 18
2.3.1 Usage de Twitter en Algérie : ................................................................................. 18
2.4 Facebook : ...................................................................................................................... 19
2.5 Conclusion : .................................................................................................................... 21
3 Extraction des Données et Prétraitement 22
3.1 introduction : .................................................................................................................. 23
3.2 Construction du corpus : ................................................................................................ 23
3.2.1 Source des données : ............................................................................................... 23
3.2.2 Collecte des données : ............................................................................................. 24
3.2.2.1 Facepager : ....................................................................................................... 24
3.2.3 Représentation des données : .................................................................................. 25
3.3 Prétraitement : ................................................................................................................ 25
V
3.3.1 Intérêt du prétraitement : ......................................................................................... 29
3.4 Format final des données : ............................................................................................. 29
3.5 conclusion : .................................................................................................................... 30
4 Expérimentation et Résultat 31
4.1 introduction : .................................................................................................................. 32
4.2 Les outils de développement : ........................................................................................ 32
4.2.1 Facebook API : ........................................................................................................ 32
4.2.2 Langage de R : ......................................................................................................... 33
4.2.2.1 Avantage du langage R : .................................................................................. 33
4.2.3 L’environnement de RStudio : ................................................................................ 34
4.2.3.1 Avantages de RStudio : .................................................................................... 34
4.2.4 Les bibliothèques R utilisées : ................................................................................. 35
4.3 Phase d’apprentissage : .................................................................................................. 36
4.3.1 Préparation du corpus : ............................................................................................ 36
4.3.2 Création d'un ensemble d'entrainement et de test : ................................................. 38
4.3.3 Génération du lexique : ........................................................................................... 38
4.3.4 La mesure PMI : ...................................................................................................... 39
4.3.5 Détails du lexique : .................................................................................................. 40
4.4 Phase d'évaluation: ......................................................................................................... 41
4.4.1 Mesure de performance : ......................................................................................... 41
4.4.2 Les résultats : ........................................................................................................... 41
4.4.3 Discussion des résultats : ......................................................................................... 44
4.5 conclusion : .................................................................................................................... 44
Conclusion Générale 45
Bibliographie 47
Annexe 50
VI
Liste desCôte titre : MAI/0288 En ligne : https://drive.google.com/file/d/1UzDxqzjaXcLuAxfvvlmWNXPLHnKHGbqo/view?usp=shari [...] Format de la ressource électronique : Analyse des Sentiments pour le Dialecte Algérien [texte imprimé] / Mouessah ,Haithem dhia eddine, Auteur ; Kara-mohamed, Chafia, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (50 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Analyse des sentiments
Lexique
Langue Arabe
Dialecte AlgérienIndex. décimale : 004 - Informatique Résumé : De nos jours, les réseaux sociaux tiennent une place majeure dans la diffusion de l’actualité où ils sont considérés comme un moyen d’expression libre et accessible pour beaucoup de personnes dans le monde. Ces réseaux peuvent donc fournir une énorme quantité d'informations pouvant être utilisées dans de nombreux travaux d'analyse de sentiments.
Dans notre travail nous avons utilisé les données du réseau social Facebook pour faire une analyse des sentiments pour le dialecte algérien. Nous avons construit un modèle de classification basé sur le lexique et nous avons utilisé la mesure dite PMI (Pointwise mutual information). A la fin, nous avons testé la performance du lexique sur des commentaires Facebook écrit en texte arabe.Note de contenu : Sommaire
Résumé I
Remerciements II
Table des matières III
Liste des figures VI
Liste des tableaux VII
Introduction Générale 1
1 L’analyse des Sentiments et la Langue Arabe 3
1.1 Introduction : .................................................................................................................... 4
1.2 Travaux similaires : .......................................................................................................... 4
1.3 Analyse de sentiment: ...................................................................................................... 5
1.4 Composantes de sentiment: .............................................................................................. 5
1.5 Niveaux d'analyse : ........................................................................................................... 6
1.5.1 Niveau du document : ............................................................................................... 6
1.5.2 Niveau de la phrase : ................................................................................................. 6
1.5.3 Niveau d'aspect : ........................................................................................................ 6
1.6 Technique d'analyse des sentiments: ................................................................................ 6
1.6.1 Méthode d'apprentissage automatique : .................................................................... 6
1.6.2 Méthode basée sur le lexique : .................................................................................. 8
1.6.3 Méthodes hybrides : .................................................................................................. 9
1.7 Difficultés d'analyse des sentiments :............................................................................... 9
1.8 Applications de l’analyse des sentiments : ....................................................................... 9
1.8.1 Analyse des sentiments et le commerce : .................................................................. 9
1.8.2 Analyse des sentiments et publicité en ligne : ........................................................... 9
1.8.3 Analyse des sentiments et politique : ...................................................................... 10
IV
1.9 La langue arabe : ............................................................................................................ 10
1.9.1 L’arabe standard moderne (ASM) :......................................................................... 10
1.9.2 L’arabe dialectal (AD) : .......................................................................................... 10
1.10 Le dialecte algérien : .................................................................................................... 11
1.10.1 Caractéristiques du dialecte algérien : ................................................................... 12
1.11 Conclusion : .................................................................................................................. 12
2 Les Réseaux Sociaux 14
2.1 Introduction : .................................................................................................................. 15
2.2 Les réseaux sociaux : ...................................................................................................... 15
2.2.1 Définition : .............................................................................................................. 15
2.2.2 L'émergence des réseaux sociaux : .......................................................................... 16
2.2.3 L'impact des réseaux sociaux dans notre vie : ......................................................... 17
2.2.3.1 Impact des médias sociaux sur l'éducation : ..................................................... 17
2.2.3.2 Impact des médias sociaux sur le business : .................................................... 17
2.2.3.3 Impact des médias sociaux sur la société: ........................................................ 17
2.3 Twitter : .......................................................................................................................... 18
2.3.1 Usage de Twitter en Algérie : ................................................................................. 18
2.4 Facebook : ...................................................................................................................... 19
2.5 Conclusion : .................................................................................................................... 21
3 Extraction des Données et Prétraitement 22
3.1 introduction : .................................................................................................................. 23
3.2 Construction du corpus : ................................................................................................ 23
3.2.1 Source des données : ............................................................................................... 23
3.2.2 Collecte des données : ............................................................................................. 24
3.2.2.1 Facepager : ....................................................................................................... 24
3.2.3 Représentation des données : .................................................................................. 25
3.3 Prétraitement : ................................................................................................................ 25
V
3.3.1 Intérêt du prétraitement : ......................................................................................... 29
3.4 Format final des données : ............................................................................................. 29
3.5 conclusion : .................................................................................................................... 30
4 Expérimentation et Résultat 31
4.1 introduction : .................................................................................................................. 32
4.2 Les outils de développement : ........................................................................................ 32
4.2.1 Facebook API : ........................................................................................................ 32
4.2.2 Langage de R : ......................................................................................................... 33
4.2.2.1 Avantage du langage R : .................................................................................. 33
4.2.3 L’environnement de RStudio : ................................................................................ 34
4.2.3.1 Avantages de RStudio : .................................................................................... 34
4.2.4 Les bibliothèques R utilisées : ................................................................................. 35
4.3 Phase d’apprentissage : .................................................................................................. 36
4.3.1 Préparation du corpus : ............................................................................................ 36
4.3.2 Création d'un ensemble d'entrainement et de test : ................................................. 38
4.3.3 Génération du lexique : ........................................................................................... 38
4.3.4 La mesure PMI : ...................................................................................................... 39
4.3.5 Détails du lexique : .................................................................................................. 40
4.4 Phase d'évaluation: ......................................................................................................... 41
4.4.1 Mesure de performance : ......................................................................................... 41
4.4.2 Les résultats : ........................................................................................................... 41
4.4.3 Discussion des résultats : ......................................................................................... 44
4.5 conclusion : .................................................................................................................... 44
Conclusion Générale 45
Bibliographie 47
Annexe 50
VI
Liste desCôte titre : MAI/0288 En ligne : https://drive.google.com/file/d/1UzDxqzjaXcLuAxfvvlmWNXPLHnKHGbqo/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0288 MAI/0288 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Analyse des Sentiments pour le Dialecte Algérien Type de document : texte imprimé Auteurs : Gherbi, Mourad, Auteur ; Kara-mohamed, Chafia, Directeur de thèse Editeur : Setif:UFA Année de publication : 2020 Importance : 1 vol (51 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Analyse des sentiments
Lexique
Langue Arabe
Dialecte AlgérienIndex. décimale : 004 - Informatique Résumé :
De nos jours, les réseaux sociaux tiennent une place majeure dans la diffusion de l’actualité où ils sont considérés comme un moyen d’expression libre et accessible pour beaucoup de personnes dans le monde. Ces réseaux peuvent donc fournir une énorme quantité d'informations pouvant être utilisées dans de nombreux travaux d'analyse de sentiments.
Dans notre travail, nous avons utilisé les données du réseau social Facebook pour effectuer une analyse des sentiments pour le dialecte algérien. Nous avons construit un modèle de classification basé sur le lexique et nous avons utilisé la mesure dite PMI (Pointwise mutual information). A la fin, nous avons testé la performance du lexique sur des commentaires Facebook écrit en texte arabe. La base de données que nous avons collectée contient 37120 commentaires valides sur un corpus de 46758 commentaires collectés via le réseau social Facebook.Côte titre : MAI/0409 En ligne : https://drive.google.com/file/d/1gWHbtubizjQf1Wy_NJP0llzRz2MmNT7x/view?usp=shari [...] Format de la ressource électronique : Analyse des Sentiments pour le Dialecte Algérien [texte imprimé] / Gherbi, Mourad, Auteur ; Kara-mohamed, Chafia, Directeur de thèse . - [S.l.] : Setif:UFA, 2020 . - 1 vol (51 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Analyse des sentiments
Lexique
Langue Arabe
Dialecte AlgérienIndex. décimale : 004 - Informatique Résumé :
De nos jours, les réseaux sociaux tiennent une place majeure dans la diffusion de l’actualité où ils sont considérés comme un moyen d’expression libre et accessible pour beaucoup de personnes dans le monde. Ces réseaux peuvent donc fournir une énorme quantité d'informations pouvant être utilisées dans de nombreux travaux d'analyse de sentiments.
Dans notre travail, nous avons utilisé les données du réseau social Facebook pour effectuer une analyse des sentiments pour le dialecte algérien. Nous avons construit un modèle de classification basé sur le lexique et nous avons utilisé la mesure dite PMI (Pointwise mutual information). A la fin, nous avons testé la performance du lexique sur des commentaires Facebook écrit en texte arabe. La base de données que nous avons collectée contient 37120 commentaires valides sur un corpus de 46758 commentaires collectés via le réseau social Facebook.Côte titre : MAI/0409 En ligne : https://drive.google.com/file/d/1gWHbtubizjQf1Wy_NJP0llzRz2MmNT7x/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0409 MAI/0409 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Dimensionality Reduction in Machine Learning for Arabic Text Classification Type de document : document électronique Auteurs : Maroua Louail, Auteur ; Kara-mohamed, Chafia, Directeur de thèse Editeur : Sétif:UFA1 Année de publication : 2025 Importance : 1 vol (123 f.) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Natural language processing
Arabic text classification
Dimensionality reduction
feature extraction
Meta-features
Word embeddings.Index. décimale : 004 - Informatique Résumé : Text classification is the automated process of assigning predefined labels or categories to
text based on its content. This process helps organize vast amounts of textual data, simplifies
management, enables efficient searches, and extracts valuable knowledge. The computational
analysis of the Arabic language plays a crucial role in addressing its growing global
significance. As the fourth most widely used language online, Arabic has driven the emergence
of Arabic Text Classification (ATC) as a key research area. However, the field of ATC
faces considerable challenges, primarily due to the linguistic complexity of the language and
the high computational demands of its processing, which can impact the performance of realtime
systems. This dissertation aims to bridge the gap between effectiveness and efficiency
in ATC, particularly in resource-constrained environments.
The first objective of this research is to review existing ATC techniques, including preprocessing
methods, vectorization strategies, dimensionality reduction techniques, and both
classical machine learning and deep learning models, in order to provide a comprehensive
understanding of current approaches. The second objective is to propose three innovative
methods to enhance computational efficiency through dimensionality reduction while improving
or at least maintaining high classification effectiveness. These methods are specifically
designed for Modern Standard Arabic (MSA) text classification and are evaluated
against state-of-the-art methods.
The dissertation presents the use of Principal Component Analysis (PCA), Distance-
Based Meta-Features (DBMFs) for feature extraction, and the development of a new hybrid
approach called "Tasneef ", which addresses computational challenges in Arabic text processing
and outperforms state-of-the-art deep learning models and dimensionality reduction
techniques. Through these contributions, this dissertation advances the state of the art in
ATC by focusing on dimensionality reduction, which improves classification accuracy and
reduces memory usage and runtime.Note de contenu :
Sommaire
Introduction 1
1 Background and Related Works 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Text Classification : Key Concepts and General Pipeline . . . . . . . . . . 5
1.2.1 Text Classification Levels . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Types of Text Classification . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Arabic Text Classification General Pipeline . . . . . . . . . . . . . 7
1.3 Arabic Language Properties and TC Challenges . . . . . . . . . . . . . . . 9
1.3.1 Importance of the Arabic Language . . . . . . . . . . . . . . . . . 9
1.3.2 Arabic Varieties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Arabic Script . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Arabic Morphology . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.5 Arabic Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Text Vectorization Techniques . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.1 One-Hot Encoding . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.2 Bag-of-Words (BoW) . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.3 Term Frequency-Inverse Document Frequency (TF-IDF) . . . . . . 20
1.4.4 Word Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.4.1 Static Word Embeddings . . . . . . . . . . . . . . . . . 21
1.4.4.2 Contextual Word Embeddings: . . . . . . . . . . . . . . 23
1.5 Dimensionality Reduction Techniques . . . . . . . . . . . . . . . . . . . . 24
1.5.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5.1.1 Principal Component Analysis ( PCA) . . . . . . . . . . 24
1.5.1.2 Linear Discriminant Analysis ( LDA) . . . . . . . . . . . 25
1.5.2 Feature Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.5.2.1 Chi-Square (χ2) Test . . . . . . . . . . . . . . . . . . . . 27
1.5.2.2 Mutual Information (MI) . . . . . . . . . . . . . . . . . 27
1.5.2.3 Information Gain (IG) . . . . . . . . . . . . . . . . . . . 28
1.6 Classical Machine Learning-Based Approach . . . . . . . . . . . . . . . . 29
1.6.1 Logistic Regression (LR) . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.2 k-Nearest Neighbors (kNN) . . . . . . . . . . . . . . . . . . . . . 30
1.6.3 Decision Trees (DT) . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.4 Support Vector Machine (SVM) . . . . . . . . . . . . . . . . . . . 30
1.7 Deep Learning-Based Approach . . . . . . . . . . . . . . . . . . . . . . . 32
1.7.1 Convolutional Neural Network (CNN) . . . . . . . . . . . . . . . . 32
1.7.2 Recurrent Neural Network (RNN) . . . . . . . . . . . . . . . . . . 34
1.7.3 Attention Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.4 Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.8 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.8.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.8.2 Text Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.8.3 Text Vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.8.4 Text Dimensionality Reduction . . . . . . . . . . . . . . . . . . . 42
1.8.5 Classical Machine Learning and Deep Learning Models . . . . . . 44
1.8.6 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2 Arabic Text Classification Using Principal Component Analysis With Different
Supervised Classifiers 52
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2 Materials and methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.1 Proposed system architecture . . . . . . . . . . . . . . . . . . . . . 53
2.2.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2.3 Document text preprocessing . . . . . . . . . . . . . . . . . . . . . 55
2.2.4 Document text representation . . . . . . . . . . . . . . . . . . . . 57
2.2.5 Dimentionality reduction using PCA . . . . . . . . . . . . . . . . . 57
2.2.6 Classifiers used and hyperparameter tuning . . . . . . . . . . . . . 57
2.2.7 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3 Results and Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3 Distance-Based Meta-Features for Arabic Text Classification 69
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3 Proposed Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3.1 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.3.2 Meta-features generation . . . . . . . . . . . . . . . . . . . . . . . 72
3.4 Experimental Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.4.1 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.4.2 Hyperparameter tuning . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5 Results and discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.1 Dimensionality reduction using Meta-Features . . . . . . . . . . . 75
3.5.2 Classifiers’ accuracy . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5.3 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5.4 Time gain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.5.5 Comparing DBMFs with PCA . . . . . . . . . . . . . . . . . . . . 79
3.5.6 Statistical evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4 Tasneef : A Fast and Effective Hybrid Representation Approach for Arabic Text
Classification 82
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2.1 Overall architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2.2 Tasneef Text preprocessing . . . . . . . . . . . . . . . . . . . . . . 84
4.2.3 Statistical property and DBMFs construction in Tasneef . . . . . . 85
4.2.3.1 DBMFs distance calculation . . . . . . . . . . . . . . . . 85
4.2.3.2 Local DBMFs obtainment . . . . . . . . . . . . . . . . . 85
4.2.3.3 Global DBMFs obtainment . . . . . . . . . . . . . . . . 86
4.2.3.4 Resulting DBMFs . . . . . . . . . . . . . . . . . . . . . 86
4.2.4 Embedding property in Tasneef and concatenation procedure . . . . 89
4.2.4.1 Pre-trained word embeddings usage . . . . . . . . . . . . 89
4.2.4.2 Concatenation of DBMFs and fasText embeddings . . . . 90
4.3 Experimental setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.1 Overall architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.2 Evaluation tools . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.2.1 Metrics used . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.2.2 Datasets used . . . . . . . . . . . . . . . . . . . . . . . 93
4.3.2.3 Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3.2.4 Hardware used . . . . . . . . . . . . . . . . . . . . . . . 95
4.3.3 Overall experimental steps . . . . . . . . . . . . . . . . . . . . . . 95
4.4 Results and discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4.1 Initial experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4.1.1 SVM classifier usage . . . . . . . . . . . . . . . . . . . 97
4.4.1.2 Hyperparameters tuning . . . . . . . . . . . . . . . . . . 97
4.4.1.3 Results of preprocessing . . . . . . . . . . . . . . . . . . 98
4.4.2 Selection of the best DBMFs groups . . . . . . . . . . . . . . . . . 98
4.4.2.1 DBMFs baslines choice . . . . . . . . . . . . . . . . . . 98
4.4.2.2 DBMFs ranking results . . . . . . . . . . . . . . . . . . 100
4.4.3 First series of experiments: baselines performance . . . . . . . . . 101
4.4.3.1 MicroF1 and MacroF1 results . . . . . . . . . . . . . . . 101
4.4.3.2 Dimentionality reduction in Tasneef . . . . . . . . . . . 102
4.4.3.3 Runtime analyses . . . . . . . . . . . . . . . . . . . . . 103
4.4.4 Second series of experiments: comparison with SOTA methods . . 106
4.4.4.1 Tasneef_var2 accuracy improvement ratio (AIR) . . . . . 106
4.4.4.2 Tasneef_var2 F-measure improvement . . . . . . . . . . 114
4.4.5 Summary of Tasneef main improvements . . . . . . . . . . . . . . 115
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Conclusion 119Côte titre : DI/0087 Dimensionality Reduction in Machine Learning for Arabic Text Classification [document électronique] / Maroua Louail, Auteur ; Kara-mohamed, Chafia, Directeur de thèse . - [S.l.] : Sétif:UFA1, 2025 . - 1 vol (123 f.) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Natural language processing
Arabic text classification
Dimensionality reduction
feature extraction
Meta-features
Word embeddings.Index. décimale : 004 - Informatique Résumé : Text classification is the automated process of assigning predefined labels or categories to
text based on its content. This process helps organize vast amounts of textual data, simplifies
management, enables efficient searches, and extracts valuable knowledge. The computational
analysis of the Arabic language plays a crucial role in addressing its growing global
significance. As the fourth most widely used language online, Arabic has driven the emergence
of Arabic Text Classification (ATC) as a key research area. However, the field of ATC
faces considerable challenges, primarily due to the linguistic complexity of the language and
the high computational demands of its processing, which can impact the performance of realtime
systems. This dissertation aims to bridge the gap between effectiveness and efficiency
in ATC, particularly in resource-constrained environments.
The first objective of this research is to review existing ATC techniques, including preprocessing
methods, vectorization strategies, dimensionality reduction techniques, and both
classical machine learning and deep learning models, in order to provide a comprehensive
understanding of current approaches. The second objective is to propose three innovative
methods to enhance computational efficiency through dimensionality reduction while improving
or at least maintaining high classification effectiveness. These methods are specifically
designed for Modern Standard Arabic (MSA) text classification and are evaluated
against state-of-the-art methods.
The dissertation presents the use of Principal Component Analysis (PCA), Distance-
Based Meta-Features (DBMFs) for feature extraction, and the development of a new hybrid
approach called "Tasneef ", which addresses computational challenges in Arabic text processing
and outperforms state-of-the-art deep learning models and dimensionality reduction
techniques. Through these contributions, this dissertation advances the state of the art in
ATC by focusing on dimensionality reduction, which improves classification accuracy and
reduces memory usage and runtime.Note de contenu :
Sommaire
Introduction 1
1 Background and Related Works 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Text Classification : Key Concepts and General Pipeline . . . . . . . . . . 5
1.2.1 Text Classification Levels . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Types of Text Classification . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Arabic Text Classification General Pipeline . . . . . . . . . . . . . 7
1.3 Arabic Language Properties and TC Challenges . . . . . . . . . . . . . . . 9
1.3.1 Importance of the Arabic Language . . . . . . . . . . . . . . . . . 9
1.3.2 Arabic Varieties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Arabic Script . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Arabic Morphology . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.5 Arabic Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Text Vectorization Techniques . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.1 One-Hot Encoding . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.2 Bag-of-Words (BoW) . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.3 Term Frequency-Inverse Document Frequency (TF-IDF) . . . . . . 20
1.4.4 Word Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.4.1 Static Word Embeddings . . . . . . . . . . . . . . . . . 21
1.4.4.2 Contextual Word Embeddings: . . . . . . . . . . . . . . 23
1.5 Dimensionality Reduction Techniques . . . . . . . . . . . . . . . . . . . . 24
1.5.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5.1.1 Principal Component Analysis ( PCA) . . . . . . . . . . 24
1.5.1.2 Linear Discriminant Analysis ( LDA) . . . . . . . . . . . 25
1.5.2 Feature Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.5.2.1 Chi-Square (χ2) Test . . . . . . . . . . . . . . . . . . . . 27
1.5.2.2 Mutual Information (MI) . . . . . . . . . . . . . . . . . 27
1.5.2.3 Information Gain (IG) . . . . . . . . . . . . . . . . . . . 28
1.6 Classical Machine Learning-Based Approach . . . . . . . . . . . . . . . . 29
1.6.1 Logistic Regression (LR) . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.2 k-Nearest Neighbors (kNN) . . . . . . . . . . . . . . . . . . . . . 30
1.6.3 Decision Trees (DT) . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.4 Support Vector Machine (SVM) . . . . . . . . . . . . . . . . . . . 30
1.7 Deep Learning-Based Approach . . . . . . . . . . . . . . . . . . . . . . . 32
1.7.1 Convolutional Neural Network (CNN) . . . . . . . . . . . . . . . . 32
1.7.2 Recurrent Neural Network (RNN) . . . . . . . . . . . . . . . . . . 34
1.7.3 Attention Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.4 Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.8 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.8.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.8.2 Text Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.8.3 Text Vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.8.4 Text Dimensionality Reduction . . . . . . . . . . . . . . . . . . . 42
1.8.5 Classical Machine Learning and Deep Learning Models . . . . . . 44
1.8.6 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2 Arabic Text Classification Using Principal Component Analysis With Different
Supervised Classifiers 52
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2 Materials and methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.1 Proposed system architecture . . . . . . . . . . . . . . . . . . . . . 53
2.2.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2.3 Document text preprocessing . . . . . . . . . . . . . . . . . . . . . 55
2.2.4 Document text representation . . . . . . . . . . . . . . . . . . . . 57
2.2.5 Dimentionality reduction using PCA . . . . . . . . . . . . . . . . . 57
2.2.6 Classifiers used and hyperparameter tuning . . . . . . . . . . . . . 57
2.2.7 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3 Results and Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3 Distance-Based Meta-Features for Arabic Text Classification 69
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3 Proposed Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3.1 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.3.2 Meta-features generation . . . . . . . . . . . . . . . . . . . . . . . 72
3.4 Experimental Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.4.1 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.4.2 Hyperparameter tuning . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5 Results and discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.1 Dimensionality reduction using Meta-Features . . . . . . . . . . . 75
3.5.2 Classifiers’ accuracy . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5.3 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5.4 Time gain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.5.5 Comparing DBMFs with PCA . . . . . . . . . . . . . . . . . . . . 79
3.5.6 Statistical evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4 Tasneef : A Fast and Effective Hybrid Representation Approach for Arabic Text
Classification 82
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2.1 Overall architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2.2 Tasneef Text preprocessing . . . . . . . . . . . . . . . . . . . . . . 84
4.2.3 Statistical property and DBMFs construction in Tasneef . . . . . . 85
4.2.3.1 DBMFs distance calculation . . . . . . . . . . . . . . . . 85
4.2.3.2 Local DBMFs obtainment . . . . . . . . . . . . . . . . . 85
4.2.3.3 Global DBMFs obtainment . . . . . . . . . . . . . . . . 86
4.2.3.4 Resulting DBMFs . . . . . . . . . . . . . . . . . . . . . 86
4.2.4 Embedding property in Tasneef and concatenation procedure . . . . 89
4.2.4.1 Pre-trained word embeddings usage . . . . . . . . . . . . 89
4.2.4.2 Concatenation of DBMFs and fasText embeddings . . . . 90
4.3 Experimental setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.1 Overall architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.2 Evaluation tools . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.2.1 Metrics used . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.2.2 Datasets used . . . . . . . . . . . . . . . . . . . . . . . 93
4.3.2.3 Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3.2.4 Hardware used . . . . . . . . . . . . . . . . . . . . . . . 95
4.3.3 Overall experimental steps . . . . . . . . . . . . . . . . . . . . . . 95
4.4 Results and discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4.1 Initial experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4.1.1 SVM classifier usage . . . . . . . . . . . . . . . . . . . 97
4.4.1.2 Hyperparameters tuning . . . . . . . . . . . . . . . . . . 97
4.4.1.3 Results of preprocessing . . . . . . . . . . . . . . . . . . 98
4.4.2 Selection of the best DBMFs groups . . . . . . . . . . . . . . . . . 98
4.4.2.1 DBMFs baslines choice . . . . . . . . . . . . . . . . . . 98
4.4.2.2 DBMFs ranking results . . . . . . . . . . . . . . . . . . 100
4.4.3 First series of experiments: baselines performance . . . . . . . . . 101
4.4.3.1 MicroF1 and MacroF1 results . . . . . . . . . . . . . . . 101
4.4.3.2 Dimentionality reduction in Tasneef . . . . . . . . . . . 102
4.4.3.3 Runtime analyses . . . . . . . . . . . . . . . . . . . . . 103
4.4.4 Second series of experiments: comparison with SOTA methods . . 106
4.4.4.1 Tasneef_var2 accuracy improvement ratio (AIR) . . . . . 106
4.4.4.2 Tasneef_var2 F-measure improvement . . . . . . . . . . 114
4.4.5 Summary of Tasneef main improvements . . . . . . . . . . . . . . 115
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Conclusion 119Côte titre : DI/0087 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité DI/0087 DI/0087 Thèse Bibliothéque des sciences Anglais Disponible
Disponible
Titre : Pre-processing For Medical Images Type de document : texte imprimé Auteurs : Asma Annad, Auteur ; Hibat Errahmene Belmahdi, Auteur ; Kara-mohamed, Chafia, Directeur de thèse Editeur : Setif:UFA Année de publication : 2023 Importance : 1 vol (105 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Medical Images (MI) Index. décimale : 004 - Informatique Résumé : Medical Images (MI) are special in the sense that they deal with the human
body which is so complex and they are generated by specialised hardware.
Medical Images Processing by computers(MIP)is an active research field.
Due to their complexity, MI need to be pre-processed. This pre-processing
step is important for preparing the images to different Machine Learning (ML)
models like classification, identification to cite few. Image Segmentation is
a pre-processing step where an input image is divided into segments: parts
that exhibit some similarity character. Segmentation in medical images can
for example isolate tumours. Different approaches were applied to design
different segmentation methods. Clustering, a ML approach, where different
data points are grouped in clusters such that points in a cluster presents more
similarity that to any other point in other clusters. In our work, we implement
two clustering-based segmentation algorithms, FCM and K-means. MI also
differ based on the acquisition mode used to generate them. We have usedFCM
and K-means on MRI and X-Ray datasets. In our work we have compared the
two algorithms’ performance based on different evaluation metrics and then
we have compared them based on two image modalities to highlight the effect
of the image type on the algorithm. Results show that k-means outperforms
FCM.Côte titre : MAI/0756 En ligne : https://drive.google.com/file/d/1SS6bbey7TYiuo162Yo3SACM24sZPKgxe/view?usp=drive [...] Format de la ressource électronique : Pre-processing For Medical Images [texte imprimé] / Asma Annad, Auteur ; Hibat Errahmene Belmahdi, Auteur ; Kara-mohamed, Chafia, Directeur de thèse . - [S.l.] : Setif:UFA, 2023 . - 1 vol (105 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Medical Images (MI) Index. décimale : 004 - Informatique Résumé : Medical Images (MI) are special in the sense that they deal with the human
body which is so complex and they are generated by specialised hardware.
Medical Images Processing by computers(MIP)is an active research field.
Due to their complexity, MI need to be pre-processed. This pre-processing
step is important for preparing the images to different Machine Learning (ML)
models like classification, identification to cite few. Image Segmentation is
a pre-processing step where an input image is divided into segments: parts
that exhibit some similarity character. Segmentation in medical images can
for example isolate tumours. Different approaches were applied to design
different segmentation methods. Clustering, a ML approach, where different
data points are grouped in clusters such that points in a cluster presents more
similarity that to any other point in other clusters. In our work, we implement
two clustering-based segmentation algorithms, FCM and K-means. MI also
differ based on the acquisition mode used to generate them. We have usedFCM
and K-means on MRI and X-Ray datasets. In our work we have compared the
two algorithms’ performance based on different evaluation metrics and then
we have compared them based on two image modalities to highlight the effect
of the image type on the algorithm. Results show that k-means outperforms
FCM.Côte titre : MAI/0756 En ligne : https://drive.google.com/file/d/1SS6bbey7TYiuo162Yo3SACM24sZPKgxe/view?usp=drive [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0756 MAI/0756 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : Sentiment analysis for saudi dialect using machine learning Type de document : texte imprimé Auteurs : Hicheur,Nésrine, Auteur ; Kara-mohamed, Chafia, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol 72 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Sentiment analysis
Machine learning
Arabic languageIndex. décimale : 004 - Informatique Résumé : The increasing expansion of social media provides a big content of informations, opinions and thoughts sharing by people in their native languages or dialects. So sentiment analysis was found to classify the various expressed sentiments from a huge amount of data. There are many machine learning and deep learning algorithms to handle this and many presented difficulties influences the process of evaluation of the produced classifier. In this methodology, the underlying idea is to achieve a particular accuracy using different approaches and techniques in a collection of tweets written in Arabic Saoudite dialect. Note de contenu : Sommaire
Table of Contents ------------------------------------------------------------------------------ ii
Dedication -------------------------------------------------------------------------------------- vii
Abstract ----------------------------------------------------------------------------------------- ix
Acknowledgement ----------------------------------------------------------------------------- vii
List of Figures ---------------------------------------------------------------------------------- iv
List of Tables ----------------------------------------------------------------------------------- v
List of Abbreviations ------------------------------------------------------------------------- vi
CHAPTER ONE
INTRODUCTION
1.1 Introduction --------------------------------------------------------------------------- 12
1.2 Goals and Objectives ---------------------------------------------------------------- 12
1.3 Study Scope--------------------------------------------------------------------------- 12
1.4 Study Plan and Schedule------------------------------------------------------------ 13
CHAPTER TWO
LITERATURE REVIEW
2.1 Introduction---------------------------------------------------------------------------14
2.2 Sentiment Analysis ------------------------------------------------------------------14
2.2.1 Sentiment Analysis components -------------------------------------------14
2.2.2 Sentiment Analysis Scope --------------------------------------------------14
2.2.3 Sentiment Analysis Types---------------------------------------------------14
2.2.4 Ensemble Methods of Sentiment Analysis -------------------------------15
2.2.5 Sentiment Analysis Techniques --------------------------------------------17
2.2.6 Performance measures ------------------------------------------------------21
2.2.6.1 Confusion Matrix-------------------------------------------------------21
2.2.6.2 Accuracy-----------------------------------------------------------------21
2.2.6.3 Precision-----------------------------------------------------------------21
2.2.6.4 Recall---------------------------------------------------------------------22
2.2.6.5 F1 Score------------------------------------------------------------------22
2.2.7 Sentiment Analysis process -------------------------------------------------22
2.2.8 Sentiment Analysis applications --------------------------------------------23
2.2.9 Sentiment Analysis Challenges --------------------------------------------23
2.3 Machine learning for SA-------------------------------------------------------------24
2.3.1 Definition-----------------------------------------------------------------------24
2.3.2 Common ML algorithms for SA---------------------------------------------24
2.3.2.1 Logistic regression------------------------------------------------------24
2.3.2.2 Decision tree-------------------------------------------------------------25
2.3.2.3 SVM----------------------------------------------------------------------26
2.3.2.4 Naïve Bayes-------------------------------------------------------------27
2.3.2.5 Maximum Entropy-----------------------------------------------------29
2.3.2.6 Neural networks------------------------------------------------------- 29
2.3.3 Deep learning algorithms for SA---------- -----------------------------------32
2.3.3.1 Definition----------------------------------------------------------------32
2.3.3.2 Distributed representations -------------------------------------------33
2.3.3.2.1 Word Embeddings---------------------------------------------34
2.3.3.2.2 sentence representation :Doc2Vec--------------------------35
2.3.3.2.3 Character level model :Character Embeddings------------35
2.3.3.3 Deep learning Models -------------------------------------------------36
2.3.3.3.1 Word2Vec averaging & deep dense networks-------------36
2.3.3.3.2 Recursive networks-------------------------------------------
36 2.3.3.3.3 Recurrent Networks-------------------------------------------37
2.3.3.3.4 Convolutional Networks-------------------------------------39
2.3.3.4 Deep learning for sentence level SA---------------------------------39
2.3.3.5 Deep learning for Arabic language-----------------------------------40
2.4 Arabic language-----------------------------------------------------------------------41
2.4.1 Definition ----------------------------------------------------------------------41
2.4.2 Arabic varieties-----------------------------------------------------------------42
2.4.3 SA in Arabic : Challenges ----------------------------------------------------43
2.4.4 Differences between MSA & regional dialects----------------------------43
2.4.5 Computational processing of standard Arabic-----------------------------44
2.5 Related works ------------------------------------------------------------------------------44
2.5.1 issues related to current work------------------------------------------------------45
2.5.2 Previous studies----------------------------------------------------------------------45
2.6 Proposed work------------------------------------------------------------------------------45
2.6.1 proposed theory & framework-----------------------------------------------------45
2.6.2 proposed model/system-------------------------------------------------------------47
2.7 Summary------------------------------------------------------------------------------------50
CHAPTER THREE
METHODOLOGY AND IMPLEMENTATION
3.1 Introduction--------------------------------------------------------------------------------51
3.2. Methodology -----------------------------------------------------------------------------51
3.2.1 Type of study-------------------------------------------------------------------------51
3.2.2 System used -------------------------------------------------------------------------51
3.2.3 Data description ---------------------------------------------------------------------51
3.3 Implementation ---------------------------------------------------------------------------52
3.4 Summary-----------------------------------------------------------------------------------54
CHAPTER FOUR:
RESULTS AND DISCUSSION
4.1 Introduction --------------------------------------------------------------------------------55
4.2 Data Analysis methods--------------------------------------------------------------------55
4.3 First level comparison---------------------------------------------------------------------55
4.3.1 With Tf-idf Vectorizer---------------------------------------------------------------55
4.3.2 With CountVectorizer---------------------------------------------------------------56
4.4 Second level comparison:-----------------------------------------------------------------63
4.5 Neural networks with the pervious algorithms comparison--------------------------64
4.5.1 Neural network---------------------------------------------------------------------64
4.5.2 LSTM--------------------------------------------------------------------------------65
4.5.3 Comparison-------------------------------------------------------------------------67
4.6 Summary -----------------------------------------------------------------------------------68
CHAPTER FIVE:
CONCLUSIONS AND FUTURE WORK
5
5.1 Conclusion----------------------------------------------------------------------------------69
5.2 Future Work--------------------------------------------------------------------------------69
Appendix ---------------------------------------------------------------------------------------70
Visualization of some test results--------------------------------------------------70
References--------------------------------------------------------------------------------------72
List of Figures
Figure 1:The bagging technique [6] ---------------------------------------------------------Côte titre : MAI/0310 En ligne : https://drive.google.com/file/d/1dppP-vKTfakkJWol8LTh7zJ9kBfYB5ou/view?usp=shari [...] Format de la ressource électronique : Sentiment analysis for saudi dialect using machine learning [texte imprimé] / Hicheur,Nésrine, Auteur ; Kara-mohamed, Chafia, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol 72 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Sentiment analysis
Machine learning
Arabic languageIndex. décimale : 004 - Informatique Résumé : The increasing expansion of social media provides a big content of informations, opinions and thoughts sharing by people in their native languages or dialects. So sentiment analysis was found to classify the various expressed sentiments from a huge amount of data. There are many machine learning and deep learning algorithms to handle this and many presented difficulties influences the process of evaluation of the produced classifier. In this methodology, the underlying idea is to achieve a particular accuracy using different approaches and techniques in a collection of tweets written in Arabic Saoudite dialect. Note de contenu : Sommaire
Table of Contents ------------------------------------------------------------------------------ ii
Dedication -------------------------------------------------------------------------------------- vii
Abstract ----------------------------------------------------------------------------------------- ix
Acknowledgement ----------------------------------------------------------------------------- vii
List of Figures ---------------------------------------------------------------------------------- iv
List of Tables ----------------------------------------------------------------------------------- v
List of Abbreviations ------------------------------------------------------------------------- vi
CHAPTER ONE
INTRODUCTION
1.1 Introduction --------------------------------------------------------------------------- 12
1.2 Goals and Objectives ---------------------------------------------------------------- 12
1.3 Study Scope--------------------------------------------------------------------------- 12
1.4 Study Plan and Schedule------------------------------------------------------------ 13
CHAPTER TWO
LITERATURE REVIEW
2.1 Introduction---------------------------------------------------------------------------14
2.2 Sentiment Analysis ------------------------------------------------------------------14
2.2.1 Sentiment Analysis components -------------------------------------------14
2.2.2 Sentiment Analysis Scope --------------------------------------------------14
2.2.3 Sentiment Analysis Types---------------------------------------------------14
2.2.4 Ensemble Methods of Sentiment Analysis -------------------------------15
2.2.5 Sentiment Analysis Techniques --------------------------------------------17
2.2.6 Performance measures ------------------------------------------------------21
2.2.6.1 Confusion Matrix-------------------------------------------------------21
2.2.6.2 Accuracy-----------------------------------------------------------------21
2.2.6.3 Precision-----------------------------------------------------------------21
2.2.6.4 Recall---------------------------------------------------------------------22
2.2.6.5 F1 Score------------------------------------------------------------------22
2.2.7 Sentiment Analysis process -------------------------------------------------22
2.2.8 Sentiment Analysis applications --------------------------------------------23
2.2.9 Sentiment Analysis Challenges --------------------------------------------23
2.3 Machine learning for SA-------------------------------------------------------------24
2.3.1 Definition-----------------------------------------------------------------------24
2.3.2 Common ML algorithms for SA---------------------------------------------24
2.3.2.1 Logistic regression------------------------------------------------------24
2.3.2.2 Decision tree-------------------------------------------------------------25
2.3.2.3 SVM----------------------------------------------------------------------26
2.3.2.4 Naïve Bayes-------------------------------------------------------------27
2.3.2.5 Maximum Entropy-----------------------------------------------------29
2.3.2.6 Neural networks------------------------------------------------------- 29
2.3.3 Deep learning algorithms for SA---------- -----------------------------------32
2.3.3.1 Definition----------------------------------------------------------------32
2.3.3.2 Distributed representations -------------------------------------------33
2.3.3.2.1 Word Embeddings---------------------------------------------34
2.3.3.2.2 sentence representation :Doc2Vec--------------------------35
2.3.3.2.3 Character level model :Character Embeddings------------35
2.3.3.3 Deep learning Models -------------------------------------------------36
2.3.3.3.1 Word2Vec averaging & deep dense networks-------------36
2.3.3.3.2 Recursive networks-------------------------------------------
36 2.3.3.3.3 Recurrent Networks-------------------------------------------37
2.3.3.3.4 Convolutional Networks-------------------------------------39
2.3.3.4 Deep learning for sentence level SA---------------------------------39
2.3.3.5 Deep learning for Arabic language-----------------------------------40
2.4 Arabic language-----------------------------------------------------------------------41
2.4.1 Definition ----------------------------------------------------------------------41
2.4.2 Arabic varieties-----------------------------------------------------------------42
2.4.3 SA in Arabic : Challenges ----------------------------------------------------43
2.4.4 Differences between MSA & regional dialects----------------------------43
2.4.5 Computational processing of standard Arabic-----------------------------44
2.5 Related works ------------------------------------------------------------------------------44
2.5.1 issues related to current work------------------------------------------------------45
2.5.2 Previous studies----------------------------------------------------------------------45
2.6 Proposed work------------------------------------------------------------------------------45
2.6.1 proposed theory & framework-----------------------------------------------------45
2.6.2 proposed model/system-------------------------------------------------------------47
2.7 Summary------------------------------------------------------------------------------------50
CHAPTER THREE
METHODOLOGY AND IMPLEMENTATION
3.1 Introduction--------------------------------------------------------------------------------51
3.2. Methodology -----------------------------------------------------------------------------51
3.2.1 Type of study-------------------------------------------------------------------------51
3.2.2 System used -------------------------------------------------------------------------51
3.2.3 Data description ---------------------------------------------------------------------51
3.3 Implementation ---------------------------------------------------------------------------52
3.4 Summary-----------------------------------------------------------------------------------54
CHAPTER FOUR:
RESULTS AND DISCUSSION
4.1 Introduction --------------------------------------------------------------------------------55
4.2 Data Analysis methods--------------------------------------------------------------------55
4.3 First level comparison---------------------------------------------------------------------55
4.3.1 With Tf-idf Vectorizer---------------------------------------------------------------55
4.3.2 With CountVectorizer---------------------------------------------------------------56
4.4 Second level comparison:-----------------------------------------------------------------63
4.5 Neural networks with the pervious algorithms comparison--------------------------64
4.5.1 Neural network---------------------------------------------------------------------64
4.5.2 LSTM--------------------------------------------------------------------------------65
4.5.3 Comparison-------------------------------------------------------------------------67
4.6 Summary -----------------------------------------------------------------------------------68
CHAPTER FIVE:
CONCLUSIONS AND FUTURE WORK
5
5.1 Conclusion----------------------------------------------------------------------------------69
5.2 Future Work--------------------------------------------------------------------------------69
Appendix ---------------------------------------------------------------------------------------70
Visualization of some test results--------------------------------------------------70
References--------------------------------------------------------------------------------------72
List of Figures
Figure 1:The bagging technique [6] ---------------------------------------------------------Côte titre : MAI/0310 En ligne : https://drive.google.com/file/d/1dppP-vKTfakkJWol8LTh7zJ9kBfYB5ou/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0310 MAI/0310 Mémoire Bibliothéque des sciences Français Disponible
Disponible