Titre : |
Analyse de sentiment dans les réseaux sociaux, nouvelle stratégie a base d'ensemble de classifieurs |
Type de document : |
texte imprimé |
Auteurs : |
Keddad, walid ; Abdelouahab Moussaoui, Directeur de thèse |
Editeur : |
Setif:UFA |
Année de publication : |
2017 |
Importance : |
1 vol (64f.) |
Format : |
29 cm |
Langues : |
Français (fre) |
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Ingénierie de Données
Technologies Web
réseaux sociaux
Analyse de sentiment |
Index. décimale : |
004 Informatique |
Résumé : |
Abstract
Twitter sentiment analysis, the process of automatically extracting sentiment conveyed
by Twitter data, is a field that has seen a dramatic increase in research in recent years. The
goal of this master thesis is to develop a new machine learning model based on ensemble
learning to classify Twitter messages with respect to their sentiment. Sentiment can be
divided into three classes: positive, negative and neutral.
To compare our new model, several machine learning methods were used during experimentation sessions: Artificial Neural Network, Multinomial Naive Bayes, Support Vector
Machines, Random Forest, Logistic Regression and others. Besides, we tried to compare
different techniques for preprocessing natural language in order to find those that have an
impact on building accurate classifiers. To this purpose we applied Bag-of-Words model
(vector of unigrams), Bag-of-N-grams model (vector of bigrams and vector of trigrams) to
represent text data in suitable numeric format. Bag-of-unigrams and Bag-of-bigrams models
showed the best results for all methods and influenced in a positive way the overall accuracy.
The best performance was achieved by our new model, for both two class (positive and
negative) and three class (positive, negative and neutral) classification. Our new model
achieved an accuracy of 90.06% on two class classification and 78.21% on three class classification. |
Note de contenu : |
Contents
1 Introduction 1
1.1 Research Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Thesis Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Background 3
2.1 Social Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Machine Learning process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Machine Learning types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5 Learning Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5.1 Artificial Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.3 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.4 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.5 Ensemble methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Literature Review 21
3.1 Sentiment Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Sentiment Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Levels of Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Sentiment Analysis Difficulties . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Different Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.1 Lexicon based method . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.2 Machine learning method . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4 Datasets and implementation frameworks 29
4.1 Data Collection and Preprocessing . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.1 Description of Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.3 Features Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.4 Final Data representation . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Development environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.3 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.4 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Experiments and results 46
5.1 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2 Proposed ensemble classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.1 Two Classes: Positive and Negative . . . . . . . . . . . . . . . . . . . 47
5.3.2 Three Classes: Positive, Negative and Neutral . . . . . . . . . . . . . 51
6 Discussion 55
6.1 Two Classes: Positive and Negative . . . . . . . . . . . . . . . . . . . . . . . 55
6.2 Three Classes: Positive, Negative and Neutral . . . . . . . . . . . . . . . . . 56
7 Conclusion 58 |
Côte titre : |
MAI/0205 |
En ligne : |
https://drive.google.com/file/d/1xz1H6CxpjAAAQRHw1Bdejyxbgg4aoJVH/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
Analyse de sentiment dans les réseaux sociaux, nouvelle stratégie a base d'ensemble de classifieurs [texte imprimé] / Keddad, walid ; Abdelouahab Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2017 . - 1 vol (64f.) ; 29 cm. Langues : Français ( fre)
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Ingénierie de Données
Technologies Web
réseaux sociaux
Analyse de sentiment |
Index. décimale : |
004 Informatique |
Résumé : |
Abstract
Twitter sentiment analysis, the process of automatically extracting sentiment conveyed
by Twitter data, is a field that has seen a dramatic increase in research in recent years. The
goal of this master thesis is to develop a new machine learning model based on ensemble
learning to classify Twitter messages with respect to their sentiment. Sentiment can be
divided into three classes: positive, negative and neutral.
To compare our new model, several machine learning methods were used during experimentation sessions: Artificial Neural Network, Multinomial Naive Bayes, Support Vector
Machines, Random Forest, Logistic Regression and others. Besides, we tried to compare
different techniques for preprocessing natural language in order to find those that have an
impact on building accurate classifiers. To this purpose we applied Bag-of-Words model
(vector of unigrams), Bag-of-N-grams model (vector of bigrams and vector of trigrams) to
represent text data in suitable numeric format. Bag-of-unigrams and Bag-of-bigrams models
showed the best results for all methods and influenced in a positive way the overall accuracy.
The best performance was achieved by our new model, for both two class (positive and
negative) and three class (positive, negative and neutral) classification. Our new model
achieved an accuracy of 90.06% on two class classification and 78.21% on three class classification. |
Note de contenu : |
Contents
1 Introduction 1
1.1 Research Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Thesis Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Background 3
2.1 Social Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Machine Learning process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Machine Learning types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5 Learning Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5.1 Artificial Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.3 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.4 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.5 Ensemble methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Literature Review 21
3.1 Sentiment Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Sentiment Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Levels of Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Sentiment Analysis Difficulties . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Different Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.1 Lexicon based method . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.2 Machine learning method . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4 Datasets and implementation frameworks 29
4.1 Data Collection and Preprocessing . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.1 Description of Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.3 Features Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.4 Final Data representation . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Development environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.3 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.4 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Experiments and results 46
5.1 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2 Proposed ensemble classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.1 Two Classes: Positive and Negative . . . . . . . . . . . . . . . . . . . 47
5.3.2 Three Classes: Positive, Negative and Neutral . . . . . . . . . . . . . 51
6 Discussion 55
6.1 Two Classes: Positive and Negative . . . . . . . . . . . . . . . . . . . . . . . 55
6.2 Three Classes: Positive, Negative and Neutral . . . . . . . . . . . . . . . . . 56
7 Conclusion 58 |
Côte titre : |
MAI/0205 |
En ligne : |
https://drive.google.com/file/d/1xz1H6CxpjAAAQRHw1Bdejyxbgg4aoJVH/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
|