University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Drif, Ahlam |
Documents disponibles écrits par cet auteur
Ajouter le résultat dans votre panier Affiner la recherche
Modèle de Prédiction pour l’Extraction des Influenceurs les dans Réseaux Sociaux / Daîche ,Amina
Titre : Modèle de Prédiction pour l’Extraction des Influenceurs les dans Réseaux Sociaux Type de document : texte imprimé Auteurs : Daîche ,Amina, Auteur ; Drif, Ahlam, Directeur de thèse Editeur : Setif:UFA Année de publication : 2018 Importance : 1 vol (74 f .) Format : 29 cm Langues : Français (fre) Langues originales : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Réseaux sociaux
Analyse de réseau
SVM
Extraction des connaissances
Détecter des influenceursIndex. décimale : 004 Informatique Résumé : Résumé
Un média est par définition un outil émergeant du social. Les dispositifs de communication n’émergent qu’en société, sont produits par elle et évoluent en son niveau. Par ailleurs, le terme média appliqué aux différents sites Web et plateformes de réseaux sociaux par exemple Twitter et Foursquare. L’un des outils spécifiques à l’analyse de ces réseaux est la détection des influenceurs, et parmi les divers algorithmes de l’identification de l’influence il y a le PageRank, TwitterRank, IP Algorithm. Grâce à la disponibilité de grands volumes de données et du calcul intensif, sans oublier les avancées intéressantes en optimisation, les algorithmes et les systèmes d'apprentissage automatique ont connu d'importantes avancées, car ils ont une caractéristique majeure qui est la capacité à apprendre les descripteurs tout en effectuant le classement. Afin de prédire les utilisateurs influents sur le réseau Foursquare, nous effectuons sur notre benchmark choisi plusieurs étapes de prétraitement, visualisation et calcul de mesures structurelles de réseau, il soit prêt à l’application d’un algorithme d’apprentissage supervisé SVM, ce dernier prouve une performance remarquable dans la classification des noeuds influenceurs par apport à l’arbre de décision.Note de contenu :
Sommaire
Partie théorique
Chapitre I: Les réseaux sociaux: concepts et définitions
I.2 Les médias sociaux ..................................................................................................... 5
I.2.1 Une mise en perspective historique .................................................................... 6
I.3 Les types des médias sociaux .................................................................................... 7
I.3.1 Twitter .................................................................................................................. 7
I.3.2 Les caractéristiques du Twitter ............................................................................ 9
I.3.3 Foursquare .......................................................................................................... 9
I.4 Diffusion de l’information ........................................................................................
I.4.1 La thématique .................................................................................................... 10
I.4.2 L’influence sociale ............................................................................................. 11
I.4.3 Les types des utilisateurs .................................................................................. 11
I.5 Les mesures des modèles de diffusion de l’information dans les OSN ................... 12
I.5 Conclusion ................................................................................................................ 13
Chapitre II : L’état de l’art
II.1 Introduction ............................................................................................................. 15
II.2 L’algorithme de Page Rank ..................................................................................... 15
II.3 Weighted PageRank ............................................................................................ 17
II.4 Topic-Sensitive PageRank ..................................................................................... 19
II.5 TwitterRank ............................................................................................................. 21
II.6 Influence- Passivity algorithm(IP algorithm) .......................................................... 23
II.7 Conclusion .............................................................................................................. 25
Chapitre III : Apprentissage automatique et classification
III.1 Introduction ............................................................................................................ 27
III.2 L’apprentissage automatique ................................................................................ 27
III.3 Objectif des algorithmes d’apprentissage ......................................................... 27
III.3.1 Par rapport à l'environnement ................................................................................. 27
III.3.2 Par rapport à la connaissance .................................................................................. 28
III.3.3 Par rapport aux structures de données ..................................................................... 28
III.4 Les modes d’apprentissage automatique .............................................................. 28
III.4.1 Apprentissage supervisé ................................................................................. 28
III.4.2 Apprentissage par renforcement ..................................................................... 29
III.4.3 Apprentissage non-supervisé .......................................................................... 29
III.4.4 Apprentissage semi-supervisé ......................................................................... 29
III.5 Les problèmes d’apprentissage ............................................................................. 30
III.6 Les méthodes de classification.............................................................................. 30
III.6.1 Méthodes de classification supervisées .......................................................... 30
III.6.1.1 L’arbre de décision .............................................................................................. 31
III.6.1.2 Les Réseaux de Neurones ....................................................................................
III.6.1.3 Algorithme des machines à support de vecteurs (SVM) ...................................... 32
III.6.1.4 Classification par analyse des règles d’association .............................................. 32
III.6.2 Méthodes de classification non supervisées .................................................... 33
Partie théorique
Chapitre IV : Extraction de connaissances à partir de réseaux Fouresquare et Twitter
IV.1 Introduction ........................................................................................................... 36
IV.2 Les langages utilisés et les outils d'implémentations ............................................. 36
IV.2.1 langage R ....................................................................................................... 36
IV.2.2 RStudio ........................................................................................................... 37
IV.2.3 Outil de visualisation Gephi ............................................................................ 39
IV.2.4 Langage GML ................................................................................................ 40
IV.3 Description des dataset ..........................................................................................
IV.3.1 Jeu de données FourSquare ............................................................................. 40
IV.3.1.1 Définition ............................................................................................................. 40
IV.3.1.2 Paramètres ............................................................................................................ 40
IV.3.2 Jeu de données Twitter .................................................................................... 41
IV.3.2.1 Définition ............................................................................................................. 41
IV.3.3.2 Paramètres ............................................................................................................ 42
IV.4 Extraction des connaiossances depuis les jeux des données étudiés ..................... 42
IV.4.1 Prétraitement des données ............................................................................... 42
IV.4.1.1 Nettoyage et traitement des données manquantes ou aberrantes ........................ 43
IV.4.1.2 Transformation ..................................................................................................... 43
IV.4.3 Visualisation des données ............................................................................... 46
IV.4.3.1 Les graphes ......................................................................................................... 46
IV.5 Mesures d’influence...............................................................................................
IV.6 Conclusion ............................................................................................................. 52
Chapitre V : Modèle de détection des influenceurs dans LSBN
V.1 Introduction ............................................................................................................. 54
V.2 Notre problématique ...............................................................................................
V.3 Approche d’apprentissage supervisé ....................................................................... 54
V.3.1 Centralité dans les graphes ............................................................................... 55
V.3.1.1 Centralité de degré ................................................................................................ 56
V.3.1.2 Centralité de proximité (Closeness centrality) ...................................................... 58
V.3.1.3 Centralité d’intermédiarité (betweeness centrality)............................................... 59
V.3.1.4 Centralité du vecteur propre (Eigen-vector centrality) .......................................... 60
V.3.1.5 Centralité M-reach de degré ..................................................................................
V.3.1.6 Centralité M-reach de proximité ........................................................................... 63
V.4 Implémentation du modèle et Résultats .................................................................. 64
V.4.1 Le modèle de SVM (Séparateurs à Vastes Marges) ......................................... 64
V.4.1.1 Description du modèle SVM ................................................................................. 64
V.4.1.2 Principe de fonctionnement général ...................................................................... 65
V.4.2 Discussion des résultas ..................................................................................... 66
V.5 Conclusion .............................................................................................................. 67
Conclusion général ....................................................................................................
Bibliographie…………………………………………………………………..70
Webographie…………………………………………………………………..Côte titre : MAI/0247 En ligne : https://drive.google.com/file/d/1owO0tWBO9qstXrf5VSdvPv-vUZMpp-8K/view?usp=shari [...] Format de la ressource électronique : Modèle de Prédiction pour l’Extraction des Influenceurs les dans Réseaux Sociaux [texte imprimé] / Daîche ,Amina, Auteur ; Drif, Ahlam, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (74 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Réseaux sociaux
Analyse de réseau
SVM
Extraction des connaissances
Détecter des influenceursIndex. décimale : 004 Informatique Résumé : Résumé
Un média est par définition un outil émergeant du social. Les dispositifs de communication n’émergent qu’en société, sont produits par elle et évoluent en son niveau. Par ailleurs, le terme média appliqué aux différents sites Web et plateformes de réseaux sociaux par exemple Twitter et Foursquare. L’un des outils spécifiques à l’analyse de ces réseaux est la détection des influenceurs, et parmi les divers algorithmes de l’identification de l’influence il y a le PageRank, TwitterRank, IP Algorithm. Grâce à la disponibilité de grands volumes de données et du calcul intensif, sans oublier les avancées intéressantes en optimisation, les algorithmes et les systèmes d'apprentissage automatique ont connu d'importantes avancées, car ils ont une caractéristique majeure qui est la capacité à apprendre les descripteurs tout en effectuant le classement. Afin de prédire les utilisateurs influents sur le réseau Foursquare, nous effectuons sur notre benchmark choisi plusieurs étapes de prétraitement, visualisation et calcul de mesures structurelles de réseau, il soit prêt à l’application d’un algorithme d’apprentissage supervisé SVM, ce dernier prouve une performance remarquable dans la classification des noeuds influenceurs par apport à l’arbre de décision.Note de contenu :
Sommaire
Partie théorique
Chapitre I: Les réseaux sociaux: concepts et définitions
I.2 Les médias sociaux ..................................................................................................... 5
I.2.1 Une mise en perspective historique .................................................................... 6
I.3 Les types des médias sociaux .................................................................................... 7
I.3.1 Twitter .................................................................................................................. 7
I.3.2 Les caractéristiques du Twitter ............................................................................ 9
I.3.3 Foursquare .......................................................................................................... 9
I.4 Diffusion de l’information ........................................................................................
I.4.1 La thématique .................................................................................................... 10
I.4.2 L’influence sociale ............................................................................................. 11
I.4.3 Les types des utilisateurs .................................................................................. 11
I.5 Les mesures des modèles de diffusion de l’information dans les OSN ................... 12
I.5 Conclusion ................................................................................................................ 13
Chapitre II : L’état de l’art
II.1 Introduction ............................................................................................................. 15
II.2 L’algorithme de Page Rank ..................................................................................... 15
II.3 Weighted PageRank ............................................................................................ 17
II.4 Topic-Sensitive PageRank ..................................................................................... 19
II.5 TwitterRank ............................................................................................................. 21
II.6 Influence- Passivity algorithm(IP algorithm) .......................................................... 23
II.7 Conclusion .............................................................................................................. 25
Chapitre III : Apprentissage automatique et classification
III.1 Introduction ............................................................................................................ 27
III.2 L’apprentissage automatique ................................................................................ 27
III.3 Objectif des algorithmes d’apprentissage ......................................................... 27
III.3.1 Par rapport à l'environnement ................................................................................. 27
III.3.2 Par rapport à la connaissance .................................................................................. 28
III.3.3 Par rapport aux structures de données ..................................................................... 28
III.4 Les modes d’apprentissage automatique .............................................................. 28
III.4.1 Apprentissage supervisé ................................................................................. 28
III.4.2 Apprentissage par renforcement ..................................................................... 29
III.4.3 Apprentissage non-supervisé .......................................................................... 29
III.4.4 Apprentissage semi-supervisé ......................................................................... 29
III.5 Les problèmes d’apprentissage ............................................................................. 30
III.6 Les méthodes de classification.............................................................................. 30
III.6.1 Méthodes de classification supervisées .......................................................... 30
III.6.1.1 L’arbre de décision .............................................................................................. 31
III.6.1.2 Les Réseaux de Neurones ....................................................................................
III.6.1.3 Algorithme des machines à support de vecteurs (SVM) ...................................... 32
III.6.1.4 Classification par analyse des règles d’association .............................................. 32
III.6.2 Méthodes de classification non supervisées .................................................... 33
Partie théorique
Chapitre IV : Extraction de connaissances à partir de réseaux Fouresquare et Twitter
IV.1 Introduction ........................................................................................................... 36
IV.2 Les langages utilisés et les outils d'implémentations ............................................. 36
IV.2.1 langage R ....................................................................................................... 36
IV.2.2 RStudio ........................................................................................................... 37
IV.2.3 Outil de visualisation Gephi ............................................................................ 39
IV.2.4 Langage GML ................................................................................................ 40
IV.3 Description des dataset ..........................................................................................
IV.3.1 Jeu de données FourSquare ............................................................................. 40
IV.3.1.1 Définition ............................................................................................................. 40
IV.3.1.2 Paramètres ............................................................................................................ 40
IV.3.2 Jeu de données Twitter .................................................................................... 41
IV.3.2.1 Définition ............................................................................................................. 41
IV.3.3.2 Paramètres ............................................................................................................ 42
IV.4 Extraction des connaiossances depuis les jeux des données étudiés ..................... 42
IV.4.1 Prétraitement des données ............................................................................... 42
IV.4.1.1 Nettoyage et traitement des données manquantes ou aberrantes ........................ 43
IV.4.1.2 Transformation ..................................................................................................... 43
IV.4.3 Visualisation des données ............................................................................... 46
IV.4.3.1 Les graphes ......................................................................................................... 46
IV.5 Mesures d’influence...............................................................................................
IV.6 Conclusion ............................................................................................................. 52
Chapitre V : Modèle de détection des influenceurs dans LSBN
V.1 Introduction ............................................................................................................. 54
V.2 Notre problématique ...............................................................................................
V.3 Approche d’apprentissage supervisé ....................................................................... 54
V.3.1 Centralité dans les graphes ............................................................................... 55
V.3.1.1 Centralité de degré ................................................................................................ 56
V.3.1.2 Centralité de proximité (Closeness centrality) ...................................................... 58
V.3.1.3 Centralité d’intermédiarité (betweeness centrality)............................................... 59
V.3.1.4 Centralité du vecteur propre (Eigen-vector centrality) .......................................... 60
V.3.1.5 Centralité M-reach de degré ..................................................................................
V.3.1.6 Centralité M-reach de proximité ........................................................................... 63
V.4 Implémentation du modèle et Résultats .................................................................. 64
V.4.1 Le modèle de SVM (Séparateurs à Vastes Marges) ......................................... 64
V.4.1.1 Description du modèle SVM ................................................................................. 64
V.4.1.2 Principe de fonctionnement général ...................................................................... 65
V.4.2 Discussion des résultas ..................................................................................... 66
V.5 Conclusion .............................................................................................................. 67
Conclusion général ....................................................................................................
Bibliographie…………………………………………………………………..70
Webographie…………………………………………………………………..Côte titre : MAI/0247 En ligne : https://drive.google.com/file/d/1owO0tWBO9qstXrf5VSdvPv-vUZMpp-8K/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0247 MAI/0247 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Prediction Model For Verfication of information in Social Media Type de document : texte imprimé Auteurs : Ferhat ,Hamida, Auteur ; Drif, Ahlam, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (64 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Social Media
Fake News Detection
Feature Extraction words Embedding Techniques
Deep LearningIndex. décimale : 004 - Informatique Résumé : Due to the availability of the Internet and the willingness to share information via
social media, it is easy to create and disseminate false informations around the world. When
widely disseminated, this news can have a significant negative impact on many aspects of
life. For this reason,several researchs have been recently done to deal with fake news detection
challenge. The detection of fake news is the classification of news by its veracity.
Feature extraction is a critical task in fake news detection. Embedding techniques, such as
word embedding and deep neural networks, are attracting much attention for textual feature
extraction, and have the potential to learn better representations. In this master project, we
propose a joint Convolutional Neural Network model (CNN) and a Long Short Term Memory
(LSTM) recurrent neural network architecture, taking advantage of the coarse-grained local
features generated by CNN and long-distance dependencies learned via LSTM. An empirical
evaluation of our model shows good prediction accuracy of fake news detection, when
compared to SVM and CNN baselines.Note de contenu : Sommaire
List of Figures iv
List of Tables vi
General Introduction 1
1 Theoretical Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition of Machine Learning . . . . . . . . . . . . . . . . . . . 4
1.2.2 Features and applications of Machine Learning . . . . . . . . . . . 5
1.2.3 Machine Learning Life Cycle . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Types of Machine Learning . . . . . . . . . . . . . . . . . . . . . 8
1.2.4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 8
1.2.4.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . 9
1.2.4.3 Semi-supervised Learning . . . . . . . . . . . . . . . . . 10
1.2.4.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . 10
1.2.5 Supervised Learning Algorithms . . . . . . . . . . . . . . . . . . . 10
1.2.5.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . 10
1.2.5.2 Support Vector Machine(SVM) . . . . . . . . . . . . . . 11
1.2.5.3 Artificial Neural Networks . . . . . . . . . . . . . . . . 15
1.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 How Deep Learning Works? . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Convolutional Neural Networks (CNN or ConvNets ) . . . . . . . . 22
1.3.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3.2 CNN’s Architecture . . . . . . . . . . . . . . . . . . . . 22
1.3.4 The Recurrent Neural Network . . . . . . . . . . . . . . . . . . . 24
1.3.4.1 Long Short-Term memory Networks (LSTMs) . . . . . . 25
1.3.4.2 Diffrences With CNN [37] . . . . . . . . . . . . . . . . 26
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
i
2 NLP: Literature Review 28
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Natural Language Processing (NLP) . . . . . . . . . . . . . . . . . . . . . 28
2.3 Linguistic knowledge in NLP . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 NLP Difficulties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 How does NLP Works? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Techniques to Understand Text . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1 Text Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1.1 Data Preprocessing . . . . . . . . . . . . . . . . . . . . 30
2.6.1.2 Feature Extraction . . . . . . . . . . . . . . . . . . . . . 31
2.6.1.3 Choosing ML Algorithms . . . . . . . . . . . . . . . . . 33
2.7 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 A Survey On Fake News Detection 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Fake News definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Type of False Informations . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.1 Categorization based on intent . . . . . . . . . . . . . . . . . . . . 36
3.3.2 Categorization based on knowledge . . . . . . . . . . . . . . . . . 36
3.4 The factors influencing fake news consumptions . . . . . . . . . . . . . . . 36
3.5 Fake News Detection Methods . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Fake News Datasets Sources . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Combining CNN-LSTM deep learning model for fake news detection 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Problem formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Proposed Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Dataset analysis phase . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1.1 Liar dataset: a benchmark dataset for fake news detection 42
4.3.2 Text preprocessing phase . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.2.1 Word representation phase . . . . . . . . . . . . . . . . . 47
4.3.3 The CNN-LSTM model construction . . . . . . . . . . . . . . . . 48
4.3.3.1 Convolutional Neural Networks Architecture . . . . . . . 48
4.3.3.2 Combaining CNN and LSTM . . . . . . . . . . . . . . . 49
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
ii
5 Implementation and Results 52
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Implementation Framework . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Deep learning frameworks . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1.1 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1.2 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.1 Anaconda Distribution . . . . . . . . . . . . . . . . . . . 53
5.2.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.3 The Jupyter Notebook . . . . . . . . . . . . . . . . . . . 54
5.2.2.4 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.5 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.6 Matplotlib and Seaborn . . . . . . . . . . . . . . . . . . 54
5.2.2.7 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.2.8 NLTK and TextBlob . . . . . . . . . . . . . . . . . . . . 55
5.3 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Classification accuracy . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.3 Classification report . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Implementation and experimental setup . . . . . . . . . . . . . . . . . . . 56
5.5 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Conclusion 63
Bibliography 64
iii
ListCôte titre : MAI/0325 En ligne : https://drive.google.com/file/d/1V_FNqtjnQEWbO33-FSmfv6XFXzZuLJOt/view?usp=shari [...] Format de la ressource électronique : Prediction Model For Verfication of information in Social Media [texte imprimé] / Ferhat ,Hamida, Auteur ; Drif, Ahlam, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (64 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Social Media
Fake News Detection
Feature Extraction words Embedding Techniques
Deep LearningIndex. décimale : 004 - Informatique Résumé : Due to the availability of the Internet and the willingness to share information via
social media, it is easy to create and disseminate false informations around the world. When
widely disseminated, this news can have a significant negative impact on many aspects of
life. For this reason,several researchs have been recently done to deal with fake news detection
challenge. The detection of fake news is the classification of news by its veracity.
Feature extraction is a critical task in fake news detection. Embedding techniques, such as
word embedding and deep neural networks, are attracting much attention for textual feature
extraction, and have the potential to learn better representations. In this master project, we
propose a joint Convolutional Neural Network model (CNN) and a Long Short Term Memory
(LSTM) recurrent neural network architecture, taking advantage of the coarse-grained local
features generated by CNN and long-distance dependencies learned via LSTM. An empirical
evaluation of our model shows good prediction accuracy of fake news detection, when
compared to SVM and CNN baselines.Note de contenu : Sommaire
List of Figures iv
List of Tables vi
General Introduction 1
1 Theoretical Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition of Machine Learning . . . . . . . . . . . . . . . . . . . 4
1.2.2 Features and applications of Machine Learning . . . . . . . . . . . 5
1.2.3 Machine Learning Life Cycle . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Types of Machine Learning . . . . . . . . . . . . . . . . . . . . . 8
1.2.4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 8
1.2.4.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . 9
1.2.4.3 Semi-supervised Learning . . . . . . . . . . . . . . . . . 10
1.2.4.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . 10
1.2.5 Supervised Learning Algorithms . . . . . . . . . . . . . . . . . . . 10
1.2.5.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . 10
1.2.5.2 Support Vector Machine(SVM) . . . . . . . . . . . . . . 11
1.2.5.3 Artificial Neural Networks . . . . . . . . . . . . . . . . 15
1.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 How Deep Learning Works? . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Convolutional Neural Networks (CNN or ConvNets ) . . . . . . . . 22
1.3.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3.2 CNN’s Architecture . . . . . . . . . . . . . . . . . . . . 22
1.3.4 The Recurrent Neural Network . . . . . . . . . . . . . . . . . . . 24
1.3.4.1 Long Short-Term memory Networks (LSTMs) . . . . . . 25
1.3.4.2 Diffrences With CNN [37] . . . . . . . . . . . . . . . . 26
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
i
2 NLP: Literature Review 28
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Natural Language Processing (NLP) . . . . . . . . . . . . . . . . . . . . . 28
2.3 Linguistic knowledge in NLP . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 NLP Difficulties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 How does NLP Works? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Techniques to Understand Text . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1 Text Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.1.1 Data Preprocessing . . . . . . . . . . . . . . . . . . . . 30
2.6.1.2 Feature Extraction . . . . . . . . . . . . . . . . . . . . . 31
2.6.1.3 Choosing ML Algorithms . . . . . . . . . . . . . . . . . 33
2.7 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 A Survey On Fake News Detection 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Fake News definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Type of False Informations . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.1 Categorization based on intent . . . . . . . . . . . . . . . . . . . . 36
3.3.2 Categorization based on knowledge . . . . . . . . . . . . . . . . . 36
3.4 The factors influencing fake news consumptions . . . . . . . . . . . . . . . 36
3.5 Fake News Detection Methods . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Fake News Datasets Sources . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Combining CNN-LSTM deep learning model for fake news detection 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Problem formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Proposed Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Dataset analysis phase . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1.1 Liar dataset: a benchmark dataset for fake news detection 42
4.3.2 Text preprocessing phase . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.2.1 Word representation phase . . . . . . . . . . . . . . . . . 47
4.3.3 The CNN-LSTM model construction . . . . . . . . . . . . . . . . 48
4.3.3.1 Convolutional Neural Networks Architecture . . . . . . . 48
4.3.3.2 Combaining CNN and LSTM . . . . . . . . . . . . . . . 49
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
ii
5 Implementation and Results 52
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Implementation Framework . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Deep learning frameworks . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1.1 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1.2 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.1 Anaconda Distribution . . . . . . . . . . . . . . . . . . . 53
5.2.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2.3 The Jupyter Notebook . . . . . . . . . . . . . . . . . . . 54
5.2.2.4 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.5 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2.6 Matplotlib and Seaborn . . . . . . . . . . . . . . . . . . 54
5.2.2.7 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.2.8 NLTK and TextBlob . . . . . . . . . . . . . . . . . . . . 55
5.3 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Classification accuracy . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.3 Classification report . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Implementation and experimental setup . . . . . . . . . . . . . . . . . . . 56
5.5 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Conclusion 63
Bibliography 64
iii
ListCôte titre : MAI/0325 En ligne : https://drive.google.com/file/d/1V_FNqtjnQEWbO33-FSmfv6XFXzZuLJOt/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0325 MAI/0325 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Recommender system based on Graph learning model Type de document : texte imprimé Auteurs : Mohamed Amine Saied, Auteur ; Alaeddin Aichouche ; Drif, Ahlam, Directeur de thèse Editeur : Sétif:UFS Année de publication : 2023 Importance : 1 vol (59 f.) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Systèmes de recommandation
Système de recommandation hybride
Filtrage collaboratif
Filtrage bas´e sur le contenu
Les r´eseaux de neurones en graphes (GNN)Index. décimale : 004 - Informatique Résumé : Un syst`eme de recommandation bas´e sur les r´eseaux de neurones en graphes peut capturer efficacement les interactions utilisateur-´el´ement `a travers la structure du graphe,
conduisant `a des recommandations hautement personnalis´ees et pertinentes. Cependant, les travaux existants qui adaptent les r´eseaux convolutifs pour graphe (GCN) aux
recommandations sont confront´es au probl`eme du d´emarrage `a froid, o`u il est difficile
de faire des recommandations pr´ecises pour les nouveaux utilisateurs ou les ´el´ements
avec peu ou pas de donn´ees d’interaction. A cette fin, nous d´eveloppons un mod`ele `
de recommandation hybride qui int`egre des incorporations de contenu d’´el´ement au
c´el`ebre mod`ele bas´e sur des graphes LightGCN avec un ajustement de son m´ecanisme
de recommandation afin de surmonter les difficult´es pos´ees par le d´emarrage `a froid par
´el´ement. Les trois composants d´evelopp´es sont : 1-) Une version supervis´ee de LightGCN, 2-) Un mod`ele d’int´egration bas´e sur le contenu et 3-) Un m´ecanisme d’extraction
et de r´egression de fonctionnalit´es. L’´etude empirique sur des ensembles de donn´ees
du monde r´eel prouve que le syst`eme de recommandation propos´e surpasse de mani`ere
significative les m´ethodes de l’´etat de l’art en termes de performances de recommandation = A recommender system based on Graph Neural Networks can effectively capture useritem interactions through the graph structure, leading to highly personalized and relevant recommendations. However, existing works that adapt Graph Convolutional
Networks (GCN) to recommendation struggles with the cold-start problem, where it’s
difficult to make accurate recommendations for new users or items with little or no
interaction data. For this purpose, we develop a hybrid recommender model that incorporates item content embeddings to the famous graph-based model LightGCN with
a tweaking to its recommendation mechanism in order to overcome the difficulties posed
by item-wise cold start. The three components developed are: 1-) A Supervised version
of LightGCN, 2-) A Content-Based Embedding model, and 3-) Feature Extraction and
Regression mechanism. The empirical study on real-world datasets proves that the
proposed recommender system significantly outperforms the state-of-the-art methods
in terms of recommendation performances.
Côte titre : MAI/0784
En ligne : https://drive.google.com/file/d/1BLl-XP4crq37rVj-OYNnFgUlBEAh81ZJ/view?usp=drive [...] Format de la ressource électronique : Recommender system based on Graph learning model [texte imprimé] / Mohamed Amine Saied, Auteur ; Alaeddin Aichouche ; Drif, Ahlam, Directeur de thèse . - [S.l.] : Sétif:UFS, 2023 . - 1 vol (59 f.) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Systèmes de recommandation
Système de recommandation hybride
Filtrage collaboratif
Filtrage bas´e sur le contenu
Les r´eseaux de neurones en graphes (GNN)Index. décimale : 004 - Informatique Résumé : Un syst`eme de recommandation bas´e sur les r´eseaux de neurones en graphes peut capturer efficacement les interactions utilisateur-´el´ement `a travers la structure du graphe,
conduisant `a des recommandations hautement personnalis´ees et pertinentes. Cependant, les travaux existants qui adaptent les r´eseaux convolutifs pour graphe (GCN) aux
recommandations sont confront´es au probl`eme du d´emarrage `a froid, o`u il est difficile
de faire des recommandations pr´ecises pour les nouveaux utilisateurs ou les ´el´ements
avec peu ou pas de donn´ees d’interaction. A cette fin, nous d´eveloppons un mod`ele `
de recommandation hybride qui int`egre des incorporations de contenu d’´el´ement au
c´el`ebre mod`ele bas´e sur des graphes LightGCN avec un ajustement de son m´ecanisme
de recommandation afin de surmonter les difficult´es pos´ees par le d´emarrage `a froid par
´el´ement. Les trois composants d´evelopp´es sont : 1-) Une version supervis´ee de LightGCN, 2-) Un mod`ele d’int´egration bas´e sur le contenu et 3-) Un m´ecanisme d’extraction
et de r´egression de fonctionnalit´es. L’´etude empirique sur des ensembles de donn´ees
du monde r´eel prouve que le syst`eme de recommandation propos´e surpasse de mani`ere
significative les m´ethodes de l’´etat de l’art en termes de performances de recommandation = A recommender system based on Graph Neural Networks can effectively capture useritem interactions through the graph structure, leading to highly personalized and relevant recommendations. However, existing works that adapt Graph Convolutional
Networks (GCN) to recommendation struggles with the cold-start problem, where it’s
difficult to make accurate recommendations for new users or items with little or no
interaction data. For this purpose, we develop a hybrid recommender model that incorporates item content embeddings to the famous graph-based model LightGCN with
a tweaking to its recommendation mechanism in order to overcome the difficulties posed
by item-wise cold start. The three components developed are: 1-) A Supervised version
of LightGCN, 2-) A Content-Based Embedding model, and 3-) Feature Extraction and
Regression mechanism. The empirical study on real-world datasets proves that the
proposed recommender system significantly outperforms the state-of-the-art methods
in terms of recommendation performances.
Côte titre : MAI/0784
En ligne : https://drive.google.com/file/d/1BLl-XP4crq37rVj-OYNnFgUlBEAh81ZJ/view?usp=drive [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0784 MAI/0784 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible