University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Hadjoudj ,Khalil |
Documents disponibles écrits par cet auteur



Titre : A Deep learning model for predicting information diffusion in social networks Type de document : texte imprimé Auteurs : Hadjoudj ,Khalil, Auteur ; Drif ahlem, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (74 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Apprentissage automatique
SupportVector Machine(SVM)
Régression
logistique,
Long Short memory
Réseau sociaux
diffusion de l’information
sentimentsIndex. décimale : 004 - Informatique Résumé : les réseau sociaux sont devenu un outil très important pour diffuser
une information. Plusieurs études sont faites dans le but de comprendre
le phénomène de la diffusion de l’information. Dans cette
thèse de master, on présente un modèle de prédiction pour la diffusion de
l’information dans les réseaux sociaux. Dans l’ordre de comprendre l’élément
essentiel durant la propagation de l’information, on a extrait des caractéristiques
essentielles de la dataset qu’on a acquisitionnée comme celle de
l’utilisateur, les caractéristiques du contenu de tweet et les sentiments. Pour le
model de prédiction, on a fait l’indexation du temp sur un nombre de session
spécifique et on a proposé une architecture LSTM(Long Short memory). On a
prouvé les caractéristiques qu’ont un impact sur la diffusion de l’information
par l’implémentation de deux model l’u se base sur les caractéristiques de
l’utilisateur en rajoutant le contenu et l’autre se base sur les caractéristiques
de ce dernier en rajoutant les sentiments. L’apprentissage de ces deux modèles
sont tester et valider sur des dataset real acquisitionné depuis twitter.
en utilisant notre méthodologie, on a essayé d’avoir la prédiction avec une
précession de 86,6% sur le premier model et une convergence a 87.8% pour le
deuxième.
Notre model montre une précision de prédiction dans la comparaison avec les
techniques de l’apprentissage automatique Support Vector Machine(SVM) et
la régression logistique(RL).
Note de contenu : Sommaire
Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Why we use Data mining ? . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 knowledge discovery from data . . . . . . . . . . . . . . . . . . 5
1.4 What kind of Data can be mined? . . . . . . . . . . . . . . . . 7
1.4.1 Relational Database . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Data warehouses . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Time-series Databases . . . . . . . . . . . . . . . . . . . 8
1.5 Data Mining technique . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Association rules mining . . . . . . . . . . . . . . . . . 9
1.5.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Prediction Technique . . . . . . . . . . . . . . . . . . . 10
1.5.4 Clustering Technique . . . . . . . . . . . . . . . . . . . 11
1.6 Outliers analysis technique . . . . . . . . . . . . . . . . . . . . 11
1.7 Data mining task primitives . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Set of task relevant data to be mined . . . . . . . . . . . 12
1.7.2 Kind of knowledge to be discovered . . . . . . . . . . . 12
1.7.3 Background knowledge . . . . . . . . . . . . . . . . . . 12
1.7.4 Justification of the interestingness of the knowledge . . 12
1.7.5 Representation for visualizing . . . . . . . . . . . . . . 12
1.8 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.9 History of Machine Learning . . . . . . . . . . . . . . . . . . . 13
1.9.1 ALAN TURING . . . . . . . . . . . . . . . . . . . . . . . 13
1.9.2 ARTHUR SAMUEL . . . . . . . . . . . . . . . . . . . . 14
1.9.3 TOM M. MITCHELL . . . . . . . . . . . . . . . . . . . . 14
1.9.4 SUMMARY DEFINITION . . . . . . . . . . . . . . . . . 14
1.10 Machine learning Techniques . . . . . . . . . . . . . . . . . . . 14
1.10.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 14
1.10.2 Supervised learning techniques . . . . . . . . . . . . . 15
1.10.3 Supervised learning algorithms . . . . . . . . . . . . . . 15
iii
1.11 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . 16
1.11.1 Unsupervised Algorithms . . . . . . . . . . . . . . . . . 16
1.12 Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 16
1.12.1 Support Vector Machines . . . . . . . . . . . . . . . . . 16
1.12.2 Neural Networks . . . . . . . . . . . . . . . . . . . . . . 19
1.12.3 What is Artificial Neural Network ? . . . . . . . . . . . 19
1.12.4 ANN Architectures . . . . . . . . . . . . . . . . . . . . 20
1.12.4.1 Feed-forward networks . . . . . . . . . . . . . 20
1.12.4.2 Feedback networks . . . . . . . . . . . . . . . 22
1.12.4.3 Activation functions . . . . . . . . . . . . . . . 22
1.12.4.4 Back-Propagation . . . . . . . . . . . . . . . . 23
1.13 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.14 Decision tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.15 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Deep Learning 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Deep learning architectures . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Deep Neural Networks (DNN) . . . . . . . . . . . . . . 27
2.3.2 Convolutional Neural Networks . . . . . . . . . . . . . 28
2.3.3 Recurrent Neural Networks . . . . . . . . . . . . . . . . 29
2.3.3.1 How does RNN works? . . . . . . . . . . . . . 29
2.3.3.2 Training through RNN . . . . . . . . . . . . . 30
2.3.4 Advantages of Recurrent Neural Network . . . . . . . . 31
2.3.5 Disadvantages of Recurrent Neural Network . . . . . . 31
2.4 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . 31
2.4.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.1 Dropout . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.2 Batch normalization . . . . . . . . . . . . . . . 32
2.4.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 LITERATURE REVIEW 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Social networks . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Social networks modelling . . . . . . . . . . . . . . . . . 34
3.3 Information Diffusion and Epidemic Modeling . . . . . . . . . 34
3.3.1 SI model . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
iv
3.3.2 SIS model . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.3 SIR model . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.4 SIRS Model . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Predictive Models . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 Independent Cascade Model (ICM) . . . . . . . . . . . 37
3.4.2 Linear Threshold Model (LTM) . . . . . . . . . . . . . . 38
3.4.3 Game Theory Model (GTM) . . . . . . . . . . . . . . . 38
3.5 Related work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Adeep learning model for predicting information diffusion inOSN 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Problematic formulation . . . . . . . . . . . . . . . . . . . . . . 40
4.3 The proposed data mining framework . . . . . . . . . . . . . . 42
4.4 Data collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4.1 How to get data from twitter API? . . . . . . . . . . . . 43
4.4.2 Dataset description . . . . . . . . . . . . . . . . . . . . . 43
4.5 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.1 User features . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.2 Content features . . . . . . . . . . . . . . . . . . . . . . 45
4.6.3 Sentiment Features . . . . . . . . . . . . . . . . . . . . . 47
4.7 Prediction model construction based on LSTM . . . . . . . . . 47
4.7.1 Long short term memory (LSTM) . . . . . . . . . . . . 48
4.7.2 Forget gate . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7.3 Input gate . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7.4 Output gate . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7.5 The proposed architecture . . . . . . . . . . . . . . . . . 50
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Implementation and Results 53
5.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Language R . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.3 Anaconda . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.4 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.5 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.6 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
v
5.3 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 The features extraction . . . . . . . . . . . . . . . . . . . 56
5.3.2 Support vector machines . . . . . . . . . . . . . . . . . . 56
5.3.3 Logistic regression . . . . . . . . . . . . . . . . . . . . . 56
5.3.4 LSTM model configuration . . . . . . . . . . . . . . . . 56
5.4 Evaluation and results . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.1 Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.2 Results and discussion . . . . . . . . . . . . . . . . . . . 59
5.4.2.1 Robustness of the predictive LSTM model . . 64
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Côte titre : MAI/0313 En ligne : https://drive.google.com/file/d/1W_sW-aQDFuJmtdvY_zSoShN4ajY52Ibt/view?usp=shari [...] Format de la ressource électronique : A Deep learning model for predicting information diffusion in social networks [texte imprimé] / Hadjoudj ,Khalil, Auteur ; Drif ahlem, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (74 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Apprentissage automatique
SupportVector Machine(SVM)
Régression
logistique,
Long Short memory
Réseau sociaux
diffusion de l’information
sentimentsIndex. décimale : 004 - Informatique Résumé : les réseau sociaux sont devenu un outil très important pour diffuser
une information. Plusieurs études sont faites dans le but de comprendre
le phénomène de la diffusion de l’information. Dans cette
thèse de master, on présente un modèle de prédiction pour la diffusion de
l’information dans les réseaux sociaux. Dans l’ordre de comprendre l’élément
essentiel durant la propagation de l’information, on a extrait des caractéristiques
essentielles de la dataset qu’on a acquisitionnée comme celle de
l’utilisateur, les caractéristiques du contenu de tweet et les sentiments. Pour le
model de prédiction, on a fait l’indexation du temp sur un nombre de session
spécifique et on a proposé une architecture LSTM(Long Short memory). On a
prouvé les caractéristiques qu’ont un impact sur la diffusion de l’information
par l’implémentation de deux model l’u se base sur les caractéristiques de
l’utilisateur en rajoutant le contenu et l’autre se base sur les caractéristiques
de ce dernier en rajoutant les sentiments. L’apprentissage de ces deux modèles
sont tester et valider sur des dataset real acquisitionné depuis twitter.
en utilisant notre méthodologie, on a essayé d’avoir la prédiction avec une
précession de 86,6% sur le premier model et une convergence a 87.8% pour le
deuxième.
Notre model montre une précision de prédiction dans la comparaison avec les
techniques de l’apprentissage automatique Support Vector Machine(SVM) et
la régression logistique(RL).
Note de contenu : Sommaire
Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Why we use Data mining ? . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 knowledge discovery from data . . . . . . . . . . . . . . . . . . 5
1.4 What kind of Data can be mined? . . . . . . . . . . . . . . . . 7
1.4.1 Relational Database . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Data warehouses . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Time-series Databases . . . . . . . . . . . . . . . . . . . 8
1.5 Data Mining technique . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Association rules mining . . . . . . . . . . . . . . . . . 9
1.5.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Prediction Technique . . . . . . . . . . . . . . . . . . . 10
1.5.4 Clustering Technique . . . . . . . . . . . . . . . . . . . 11
1.6 Outliers analysis technique . . . . . . . . . . . . . . . . . . . . 11
1.7 Data mining task primitives . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Set of task relevant data to be mined . . . . . . . . . . . 12
1.7.2 Kind of knowledge to be discovered . . . . . . . . . . . 12
1.7.3 Background knowledge . . . . . . . . . . . . . . . . . . 12
1.7.4 Justification of the interestingness of the knowledge . . 12
1.7.5 Representation for visualizing . . . . . . . . . . . . . . 12
1.8 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.9 History of Machine Learning . . . . . . . . . . . . . . . . . . . 13
1.9.1 ALAN TURING . . . . . . . . . . . . . . . . . . . . . . . 13
1.9.2 ARTHUR SAMUEL . . . . . . . . . . . . . . . . . . . . 14
1.9.3 TOM M. MITCHELL . . . . . . . . . . . . . . . . . . . . 14
1.9.4 SUMMARY DEFINITION . . . . . . . . . . . . . . . . . 14
1.10 Machine learning Techniques . . . . . . . . . . . . . . . . . . . 14
1.10.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 14
1.10.2 Supervised learning techniques . . . . . . . . . . . . . 15
1.10.3 Supervised learning algorithms . . . . . . . . . . . . . . 15
iii
1.11 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . 16
1.11.1 Unsupervised Algorithms . . . . . . . . . . . . . . . . . 16
1.12 Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 16
1.12.1 Support Vector Machines . . . . . . . . . . . . . . . . . 16
1.12.2 Neural Networks . . . . . . . . . . . . . . . . . . . . . . 19
1.12.3 What is Artificial Neural Network ? . . . . . . . . . . . 19
1.12.4 ANN Architectures . . . . . . . . . . . . . . . . . . . . 20
1.12.4.1 Feed-forward networks . . . . . . . . . . . . . 20
1.12.4.2 Feedback networks . . . . . . . . . . . . . . . 22
1.12.4.3 Activation functions . . . . . . . . . . . . . . . 22
1.12.4.4 Back-Propagation . . . . . . . . . . . . . . . . 23
1.13 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.14 Decision tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.15 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Deep Learning 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Deep learning architectures . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Deep Neural Networks (DNN) . . . . . . . . . . . . . . 27
2.3.2 Convolutional Neural Networks . . . . . . . . . . . . . 28
2.3.3 Recurrent Neural Networks . . . . . . . . . . . . . . . . 29
2.3.3.1 How does RNN works? . . . . . . . . . . . . . 29
2.3.3.2 Training through RNN . . . . . . . . . . . . . 30
2.3.4 Advantages of Recurrent Neural Network . . . . . . . . 31
2.3.5 Disadvantages of Recurrent Neural Network . . . . . . 31
2.4 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . 31
2.4.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.1 Dropout . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.2 Batch normalization . . . . . . . . . . . . . . . 32
2.4.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 LITERATURE REVIEW 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Social networks . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Social networks modelling . . . . . . . . . . . . . . . . . 34
3.3 Information Diffusion and Epidemic Modeling . . . . . . . . . 34
3.3.1 SI model . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
iv
3.3.2 SIS model . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.3 SIR model . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.4 SIRS Model . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Predictive Models . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 Independent Cascade Model (ICM) . . . . . . . . . . . 37
3.4.2 Linear Threshold Model (LTM) . . . . . . . . . . . . . . 38
3.4.3 Game Theory Model (GTM) . . . . . . . . . . . . . . . 38
3.5 Related work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Adeep learning model for predicting information diffusion inOSN 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Problematic formulation . . . . . . . . . . . . . . . . . . . . . . 40
4.3 The proposed data mining framework . . . . . . . . . . . . . . 42
4.4 Data collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4.1 How to get data from twitter API? . . . . . . . . . . . . 43
4.4.2 Dataset description . . . . . . . . . . . . . . . . . . . . . 43
4.5 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.1 User features . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.2 Content features . . . . . . . . . . . . . . . . . . . . . . 45
4.6.3 Sentiment Features . . . . . . . . . . . . . . . . . . . . . 47
4.7 Prediction model construction based on LSTM . . . . . . . . . 47
4.7.1 Long short term memory (LSTM) . . . . . . . . . . . . 48
4.7.2 Forget gate . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7.3 Input gate . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7.4 Output gate . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7.5 The proposed architecture . . . . . . . . . . . . . . . . . 50
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Implementation and Results 53
5.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Language R . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.3 Anaconda . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.4 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.5 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.6 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
v
5.3 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 The features extraction . . . . . . . . . . . . . . . . . . . 56
5.3.2 Support vector machines . . . . . . . . . . . . . . . . . . 56
5.3.3 Logistic regression . . . . . . . . . . . . . . . . . . . . . 56
5.3.4 LSTM model configuration . . . . . . . . . . . . . . . . 56
5.4 Evaluation and results . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.1 Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.2 Results and discussion . . . . . . . . . . . . . . . . . . . 59
5.4.2.1 Robustness of the predictive LSTM model . . 64
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Côte titre : MAI/0313 En ligne : https://drive.google.com/file/d/1W_sW-aQDFuJmtdvY_zSoShN4ajY52Ibt/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0313 MAI/0313 Mémoire Bibliothéque des sciences Français Disponible
Disponible