University Sétif 1 FERHAT ABBAS Faculty of Sciences
Résultat de la recherche
1 résultat(s) recherche sur le mot-clé 'Social Media Fake News Detection Feature Extraction words Embedding Techniques Deep Learning'
Ajouter le résultat dans votre panier Affiner la recherche Générer le flux rss de la recherche
Partager le résultat de cette recherche
Titre : Prediction Model For Verfication of information in Social Media Type de document : texte imprimé Auteurs : Ferhat ,Hamida, Auteur ; Drif, Ahlam, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (64 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Social Media
Fake News Detection
Feature Extraction words Embedding Techniques
Deep LearningIndex. décimale : 004 - Informatique Résumé : Due to the availability of the Internet and the willingness to share information via
social media, it is easy to create and disseminate false informations around the world. When
widely disseminated, this news can have a significant negative impact on many aspects of
life. For this reason,several researchs have been recently done to deal with fake news detection
challenge. The detection of fake news is the classification of news by its veracity.
Feature extraction is a critical task in fake news detection. Embedding techniques, such as
word embedding and deep neural networks, are attracting much attention for textual feature
extraction, and have the potential to learn better representations. In this master project, we
propose a joint Convolutional Neural Network model (CNN) and a Long Short Term Memory
(LSTM) recurrent neural network architecture, taking advantage of the coarse-grained local
features generated by CNN and long-distance dependencies learned via LSTM. An empirical
evaluation of our model shows good prediction accuracy of fake news detection, when
compared to SVM and CNN baselines.Note de contenu : Sommaire
List of Figures iv
List of Tables vi
General Introduction 1
1 Theoretical Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition of Machine Learning . . . . . . . . . . . . . . . . . . . 4
1.2.2 Features and applications of Machine Learning . . . . . . . . . . . 5
1.2.3 Machine Learning Life Cycle . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Types of Machine Learning . . . . . . . . . . . . . . . . . . . . . 8
1.2.4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 8
1.2.4.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . 9
1.2.4.3 Semi-supervised Learning . . . . . . . . . . . . . . . . . 10
1.2.4.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . 10
1.2.5 Supervised Learning Algorithms . . . . . . . . . . . . . . . . . . . 10
1.2.5.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . 10
1.2.5.2 Support Vector Machine(SVM) . . . . . . . . . . . . . . 11
1.2.5.3 Artificial Neural Networks . . . . . . . . . . . . . . . . 15
1.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 How Deep Learning Works? . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Convolutional Neural Networks (CNN or ConvNets ) . . . . . . . . 22
1.3.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3.2 CNN’s Architecture . . . . . . . . . . . . . . . . . . . . 22
1.3.4 The Recurrent Neural Network . . . . . . . . . . . . . . . . . . . 24
1.3.4.1 Long Short-Term memory Networks (LSTMs) . . . . . . 25
1.3.4.2 Diffrences With CNN [37] . . . . . . . . . . . . . . . . 26
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
i
2 NLP: Literature Review 28
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Natural Language Processing (NLP) . . . . . . . . . . . . . . . . . . . . . 28
2.3 Linguistic knowledge in NLP . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 NLP Difficulties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 How does NLP Works? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Techniques to Understand Text . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1 Text Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1.1 Data Preprocessing . . . . . . . . . . . . . . . . . . . . 30
2.6.1.2 Feature Extraction . . . . . . . . . . . . . . . . . . . . . 31
2.6.1.3 Choosing ML Algorithms . . . . . . . . . . . . . . . . . 33
2.7 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 A Survey On Fake News Detection 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Fake News definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Type of False Informations . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.1 Categorization based on intent . . . . . . . . . . . . . . . . . . . . 36
3.3.2 Categorization based on knowledge . . . . . . . . . . . . . . . . . 36
3.4 The factors influencing fake news consumptions . . . . . . . . . . . . . . . 36
3.5 Fake News Detection Methods . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Fake News Datasets Sources . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Combining CNN-LSTM deep learning model for fake news detection 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Problem formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Proposed Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Dataset analysis phase . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1.1 Liar dataset: a benchmark dataset for fake news detection 42
4.3.2 Text preprocessing phase . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.2.1 Word representation phase . . . . . . . . . . . . . . . . . 47
4.3.3 The CNN-LSTM model construction . . . . . . . . . . . . . . . . 48
4.3.3.1 Convolutional Neural Networks Architecture . . . . . . . 48
4.3.3.2 Combaining CNN and LSTM . . . . . . . . . . . . . . . 49
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
ii
5 Implementation and Results 52
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Implementation Framework . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Deep learning frameworks . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1.1 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1.2 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.1 Anaconda Distribution . . . . . . . . . . . . . . . . . . . 53
5.2.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.3 The Jupyter Notebook . . . . . . . . . . . . . . . . . . . 54
5.2.2.4 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.5 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.6 Matplotlib and Seaborn . . . . . . . . . . . . . . . . . . 54
5.2.2.7 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.2.8 NLTK and TextBlob . . . . . . . . . . . . . . . . . . . . 55
5.3 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Classification accuracy . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.3 Classification report . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Implementation and experimental setup . . . . . . . . . . . . . . . . . . . 56
5.5 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Conclusion 63
Bibliography 64
iii
ListCôte titre : MAI/0325 En ligne : https://drive.google.com/file/d/1V_FNqtjnQEWbO33-FSmfv6XFXzZuLJOt/view?usp=shari [...] Format de la ressource électronique : Prediction Model For Verfication of information in Social Media [texte imprimé] / Ferhat ,Hamida, Auteur ; Drif, Ahlam, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (64 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Social Media
Fake News Detection
Feature Extraction words Embedding Techniques
Deep LearningIndex. décimale : 004 - Informatique Résumé : Due to the availability of the Internet and the willingness to share information via
social media, it is easy to create and disseminate false informations around the world. When
widely disseminated, this news can have a significant negative impact on many aspects of
life. For this reason,several researchs have been recently done to deal with fake news detection
challenge. The detection of fake news is the classification of news by its veracity.
Feature extraction is a critical task in fake news detection. Embedding techniques, such as
word embedding and deep neural networks, are attracting much attention for textual feature
extraction, and have the potential to learn better representations. In this master project, we
propose a joint Convolutional Neural Network model (CNN) and a Long Short Term Memory
(LSTM) recurrent neural network architecture, taking advantage of the coarse-grained local
features generated by CNN and long-distance dependencies learned via LSTM. An empirical
evaluation of our model shows good prediction accuracy of fake news detection, when
compared to SVM and CNN baselines.Note de contenu : Sommaire
List of Figures iv
List of Tables vi
General Introduction 1
1 Theoretical Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition of Machine Learning . . . . . . . . . . . . . . . . . . . 4
1.2.2 Features and applications of Machine Learning . . . . . . . . . . . 5
1.2.3 Machine Learning Life Cycle . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Types of Machine Learning . . . . . . . . . . . . . . . . . . . . . 8
1.2.4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 8
1.2.4.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . 9
1.2.4.3 Semi-supervised Learning . . . . . . . . . . . . . . . . . 10
1.2.4.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . 10
1.2.5 Supervised Learning Algorithms . . . . . . . . . . . . . . . . . . . 10
1.2.5.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . 10
1.2.5.2 Support Vector Machine(SVM) . . . . . . . . . . . . . . 11
1.2.5.3 Artificial Neural Networks . . . . . . . . . . . . . . . . 15
1.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 How Deep Learning Works? . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Convolutional Neural Networks (CNN or ConvNets ) . . . . . . . . 22
1.3.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3.2 CNN’s Architecture . . . . . . . . . . . . . . . . . . . . 22
1.3.4 The Recurrent Neural Network . . . . . . . . . . . . . . . . . . . 24
1.3.4.1 Long Short-Term memory Networks (LSTMs) . . . . . . 25
1.3.4.2 Diffrences With CNN [37] . . . . . . . . . . . . . . . . 26
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
i
2 NLP: Literature Review 28
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Natural Language Processing (NLP) . . . . . . . . . . . . . . . . . . . . . 28
2.3 Linguistic knowledge in NLP . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 NLP Difficulties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 How does NLP Works? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Techniques to Understand Text . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1 Text Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1.1 Data Preprocessing . . . . . . . . . . . . . . . . . . . . 30
2.6.1.2 Feature Extraction . . . . . . . . . . . . . . . . . . . . . 31
2.6.1.3 Choosing ML Algorithms . . . . . . . . . . . . . . . . . 33
2.7 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 A Survey On Fake News Detection 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Fake News definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Type of False Informations . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.1 Categorization based on intent . . . . . . . . . . . . . . . . . . . . 36
3.3.2 Categorization based on knowledge . . . . . . . . . . . . . . . . . 36
3.4 The factors influencing fake news consumptions . . . . . . . . . . . . . . . 36
3.5 Fake News Detection Methods . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Fake News Datasets Sources . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Combining CNN-LSTM deep learning model for fake news detection 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Problem formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Proposed Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Dataset analysis phase . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1.1 Liar dataset: a benchmark dataset for fake news detection 42
4.3.2 Text preprocessing phase . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.2.1 Word representation phase . . . . . . . . . . . . . . . . . 47
4.3.3 The CNN-LSTM model construction . . . . . . . . . . . . . . . . 48
4.3.3.1 Convolutional Neural Networks Architecture . . . . . . . 48
4.3.3.2 Combaining CNN and LSTM . . . . . . . . . . . . . . . 49
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
ii
5 Implementation and Results 52
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Implementation Framework . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Deep learning frameworks . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1.1 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1.2 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.1 Anaconda Distribution . . . . . . . . . . . . . . . . . . . 53
5.2.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.3 The Jupyter Notebook . . . . . . . . . . . . . . . . . . . 54
5.2.2.4 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.5 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.6 Matplotlib and Seaborn . . . . . . . . . . . . . . . . . . 54
5.2.2.7 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.2.8 NLTK and TextBlob . . . . . . . . . . . . . . . . . . . . 55
5.3 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Classification accuracy . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.3 Classification report . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Implementation and experimental setup . . . . . . . . . . . . . . . . . . . 56
5.5 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Conclusion 63
Bibliography 64
iii
ListCôte titre : MAI/0325 En ligne : https://drive.google.com/file/d/1V_FNqtjnQEWbO33-FSmfv6XFXzZuLJOt/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0325 MAI/0325 Mémoire Bibliothéque des sciences Français Disponible
Disponible