Titre : |
Fake News Detection in Arabic Online Social Networks (OSN): A Transformers Based Approach |
Type de document : |
texte imprimé |
Auteurs : |
Roumaissa Berkat, Auteur ; Aicha Ayad ; Lakhfif, Abdelaziz, Directeur de thèse |
Editeur : |
Setif:UFA |
Année de publication : |
2024 |
Importance : |
1 vol (69 f .) |
Format : |
29 cm |
Langues : |
Anglais (eng) |
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Fake news
NLP
Pre-trained transformers
BERT
MSA
Arabic Dialects. |
Index. décimale : |
004 - Informatique |
Résumé : |
Fake news has become a serious problem due to its rapid spread across Online Social
Networks (OSN), the difficulty of discovering and distinguishing it from real news, and
the increasing dependence of individuals on social networks platforms as their main news
source. To detect whether the news is fake and stop it before it can spread, a reliable,
rapid, and automated system using artificial intelligence should be applied. This thesis
uses transformer-based approaches to address fake news detection in Arabic online social
networks. We performed several experiments in order to evaluate the effectiveness of
BERT-based models for fake news detection in Arabic social networks content. We experiment
the following Bert models for Arabic: AraBertV02, QARIB, AraElectra,
and CaMel-Bert, on different Arabic datasets. Our experiments were performed on
several Arabic datasets, including Modern Standard Arabic (MSA) and Arabic dialects
datasets. Also, We built a comprehensive dataset from recent events in Gaza (2024),
which adds a new contribution in existing resources available for Arabic fake news detection.
We developed a novel model combining the Arabertv02 model with a Support
Vector Machine (SVM) classifier.Our experiments results showed that our BERT based
models was able to outperform existing deep learning models. |
Note de contenu : |
Sommaire
Chapter 1: General Introduction 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Problem Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1 Challenges for Arabic . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 The Objective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Chapter 2: Online Social Networks (OSN) 5
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Online Social Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Plateforms of Social Networks . . . . . . . . . . . . . . . . . 6
2.2.3 Challenges of Social Networks . . . . . . . . . . . . . . . . . 7
2.3 Fake news . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.2 Fake News Categories . . . . . . . . . . . . . . . . . . . . . . 9
2.3.3 Fake News Sources . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Chapter 3: Background 13
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Fake News Detection Methods . . . . . . . . . . . . . . . . . . . . . 13
3.2.1 Traditional Methods . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.2 Modern methods (NLP Techniques) . . . . . . . . . . . . . 14
3.2.3 Linguistic Part . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.4 The Pre-Processing Phase: From Text To Data . . . . . . 15
3.2.5 Feature Extraction Methods . . . . . . . . . . . . . . . . . . 16
3.2.6 Learning Phase:From Data to Model . . . . . . . . . . . . . 17
3.2.7 Machine Learning (ML) . . . . . . . . . . . . . . . . . . . . . 17
3.2.8 Deep Learning Methods . . . . . . . . . . . . . . . . . . . . . 18
3.2.8.1 Convolutional Neural Network (CNN) . . . . . . . 19
3.2.8.2 Recurrent Neural Network (RNN) . . . . . . . . . 20
3.2.8.3 Long Short-Term Memory (LSTM) . . . . . . . . . 20
3.2.9 Transformers Approaches . . . . . . . . . . . . . . . . . . . . 20
3.2.10 Transformer Architecture . . . . . . . . . . . . . . . . . . . . 20
3.2.11 Transformer Advantages . . . . . . . . . . . . . . . . . . . . . 21
3.2.12 Transformers Based Models . . . . . . . . . . . . . . . . . . . 22
3.2.13 Advances Transformer-Based Models for the Arabic Language
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.14 Fine tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Chapter 4: Related Works 27
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Fake News Subtasks . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 Recent Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Chapter 5: Implementation And Evaluation 32
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 Experimental Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2.1 Data collection . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2.2 Pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.3 Data Spliting: . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3 Tools Presentation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3.1 Anaconda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3.2 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4 Programming Language: . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4.1 Python: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4.2 Python libraries: . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.5 Evaluation Metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.6 Modeling: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.6.1 BERT Models For Arabic . . . . . . . . . . . . . . . . . . . . 49
5.6.2 Parameters Setting . . . . . . . . . . . . . . . . . . . . . . . . 50
5.6.3 Steps of Fine-Tuning . . . . . . . . . . . . . . . . . . . . . . . 51
5.7 Experimental Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.7.1 Experiment 01 . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.7.2 Experiment 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.7.3 Experiment 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.7.4 Experiment 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.7.5 Experiment 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.8 Our Technique (Arabertv02-SVM) . . . . . . . . . . . . . . . . . . 58
5.8.1 Advantages of our Technique . . . . . . . . . . . . . . . . . . 58
5.8.2 Functioning and Architecture . . . . . . . . . . . . . . . . . . 59
5.8.3 Experiments with our techniques . . . . . . . . . . . . . . . 61
5.9 Discussion and Comparison . . . . . . . . . . . . . . . . . . . . . . . 62
5.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Chapter 6: Conclusion and Future Work 65
6.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Future Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 |
Côte titre : |
MAI/0883 |
Fake News Detection in Arabic Online Social Networks (OSN): A Transformers Based Approach [texte imprimé] / Roumaissa Berkat, Auteur ; Aicha Ayad ; Lakhfif, Abdelaziz, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (69 f .) ; 29 cm. Langues : Anglais ( eng)
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Fake news
NLP
Pre-trained transformers
BERT
MSA
Arabic Dialects. |
Index. décimale : |
004 - Informatique |
Résumé : |
Fake news has become a serious problem due to its rapid spread across Online Social
Networks (OSN), the difficulty of discovering and distinguishing it from real news, and
the increasing dependence of individuals on social networks platforms as their main news
source. To detect whether the news is fake and stop it before it can spread, a reliable,
rapid, and automated system using artificial intelligence should be applied. This thesis
uses transformer-based approaches to address fake news detection in Arabic online social
networks. We performed several experiments in order to evaluate the effectiveness of
BERT-based models for fake news detection in Arabic social networks content. We experiment
the following Bert models for Arabic: AraBertV02, QARIB, AraElectra,
and CaMel-Bert, on different Arabic datasets. Our experiments were performed on
several Arabic datasets, including Modern Standard Arabic (MSA) and Arabic dialects
datasets. Also, We built a comprehensive dataset from recent events in Gaza (2024),
which adds a new contribution in existing resources available for Arabic fake news detection.
We developed a novel model combining the Arabertv02 model with a Support
Vector Machine (SVM) classifier.Our experiments results showed that our BERT based
models was able to outperform existing deep learning models. |
Note de contenu : |
Sommaire
Chapter 1: General Introduction 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Problem Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1 Challenges for Arabic . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 The Objective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Chapter 2: Online Social Networks (OSN) 5
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Online Social Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Plateforms of Social Networks . . . . . . . . . . . . . . . . . 6
2.2.3 Challenges of Social Networks . . . . . . . . . . . . . . . . . 7
2.3 Fake news . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.2 Fake News Categories . . . . . . . . . . . . . . . . . . . . . . 9
2.3.3 Fake News Sources . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Chapter 3: Background 13
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Fake News Detection Methods . . . . . . . . . . . . . . . . . . . . . 13
3.2.1 Traditional Methods . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.2 Modern methods (NLP Techniques) . . . . . . . . . . . . . 14
3.2.3 Linguistic Part . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.4 The Pre-Processing Phase: From Text To Data . . . . . . 15
3.2.5 Feature Extraction Methods . . . . . . . . . . . . . . . . . . 16
3.2.6 Learning Phase:From Data to Model . . . . . . . . . . . . . 17
3.2.7 Machine Learning (ML) . . . . . . . . . . . . . . . . . . . . . 17
3.2.8 Deep Learning Methods . . . . . . . . . . . . . . . . . . . . . 18
3.2.8.1 Convolutional Neural Network (CNN) . . . . . . . 19
3.2.8.2 Recurrent Neural Network (RNN) . . . . . . . . . 20
3.2.8.3 Long Short-Term Memory (LSTM) . . . . . . . . . 20
3.2.9 Transformers Approaches . . . . . . . . . . . . . . . . . . . . 20
3.2.10 Transformer Architecture . . . . . . . . . . . . . . . . . . . . 20
3.2.11 Transformer Advantages . . . . . . . . . . . . . . . . . . . . . 21
3.2.12 Transformers Based Models . . . . . . . . . . . . . . . . . . . 22
3.2.13 Advances Transformer-Based Models for the Arabic Language
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.14 Fine tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Chapter 4: Related Works 27
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Fake News Subtasks . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 Recent Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Chapter 5: Implementation And Evaluation 32
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 Experimental Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2.1 Data collection . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2.2 Pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.3 Data Spliting: . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3 Tools Presentation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3.1 Anaconda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3.2 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4 Programming Language: . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4.1 Python: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4.2 Python libraries: . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.5 Evaluation Metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.6 Modeling: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.6.1 BERT Models For Arabic . . . . . . . . . . . . . . . . . . . . 49
5.6.2 Parameters Setting . . . . . . . . . . . . . . . . . . . . . . . . 50
5.6.3 Steps of Fine-Tuning . . . . . . . . . . . . . . . . . . . . . . . 51
5.7 Experimental Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.7.1 Experiment 01 . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.7.2 Experiment 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.7.3 Experiment 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.7.4 Experiment 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.7.5 Experiment 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.8 Our Technique (Arabertv02-SVM) . . . . . . . . . . . . . . . . . . 58
5.8.1 Advantages of our Technique . . . . . . . . . . . . . . . . . . 58
5.8.2 Functioning and Architecture . . . . . . . . . . . . . . . . . . 59
5.8.3 Experiments with our techniques . . . . . . . . . . . . . . . 61
5.9 Discussion and Comparison . . . . . . . . . . . . . . . . . . . . . . . 62
5.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Chapter 6: Conclusion and Future Work 65
6.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Future Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 |
Côte titre : |
MAI/0883 |
|