University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Toumi,Lyazid |
Documents disponibles écrits par cet auteur



Titre : Crime Prediction Using Machine Learning Type de document : texte imprimé Auteurs : Houfaf, Nardjes, Auteur ; Toumi,Lyazid, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (59 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Crime classification,
San Francisco crime dataset
Supervised classification
Sklearn (Scikit-learnIndex. décimale : 004 - Informatique Résumé : Crime is one of the biggest issue in our society, a huge numbers of crimes are committed daily .Treating criminal activities of a place and time is important in order to interrupt it. Law enforcement can predict crimes effectively and solve it faster if they have a better information about crime patterns in different points of a city. In this project we will use machine learning techniques to classify the type of a criminal incident, depending on its occurrence at a given time and location. The experimentation will be conducted on a dataset of San Francisco that contains crime records from 01-01-2003 to 08-02-2019. For this supervised classification problem, we will use Gaussian Naive Bayes, Decision Tree, k-Nearest Neighbor (knn), multinomial logistic regression, Random Forest and support vector machine (Svm) And for unsupervised classification problem, we will use clustering. The results achieved are experimentally evaluated and compared with a previous work. Lastly, in a Smart City, the law enforcement can apply this proposed model. Note de contenu :
Sommaire
Motivation .............................................................................................................. 6
1.2 Problem Formulation ............................................................................................. 6
CHAPTER 02
Definitions and Techniques
2.1 Predictive Analytics ............................................................................................... 8
2.2 Classification Techniques ..................................................................................... 9
2.2.1 Binary classification ....................................................................................... 9
2.2.2Multiclass classification ................................................................................. 9
2.3 Log Loss Scoring ................................................................................................. 14
2.4 Parallel Processing ............................................................................................... 15
CHAPTER 03
Related Work
3.1 Temporal and Spectral Analysis .......................................................................... 17
3.2 Prediction using Clustering and Classification techniques .................................. 18
3.3 Hotspot Detection................................................................................................. 19
CHAPTER 4
Design and Implementation
4.1 Overview of the dataset ........................................................................................ 21
4.2 Data Preprocessing ............................................................................................... 22
4.2.1 Preprocessing using sklearn ........................................................................ 22
4.2.2 Techniques used for preprocessing .............................................................. 23
4.2.2.1 Data Cleaning ....................................................................................... 23
4.2.2.2 Data Transformation ............................................................................. 24
4.2.2.3 Data Reduction ..................................................................................... 26
4.3 Software and Technologies Used ......................................................................... 26
CHAPTER 5
Experimental Results
5.1 Comparison of this approach with existing results .............................................. 28
5.2 Results of Graphical Analysis .............................................................................. 30
5.3 Methodology and Results ..................................................................................... 38
5.3.1 import necessary modules ........................................................................... 38
5.3.2 Preparation of the dataset ............................................................................. 38
5.3.2.1 Importing the data set ........................................................................... 38
5.3.2.2 Data Exploration ................................................................................... 38
5.3.2.3 Data Cleaning ....................................................................................... 40
5.3.2.4 Data Reduction ..................................................................................... 42
5.3.3 Pre- processing of the dataset using SKlearn ............................................... 45
5.3.3.1 Importing the data set ........................................................................... 45
5.3.3.2 Drop the unnecessary features .............................................................. 45
5.3.3.3 Convert Time to datetime format (numeric format) ............................ 45
5.3.3.3.1 Extract Hour from Time .................................................................. 46
5.3.3.4 convert Date to datetime format ........................................................... 46
5.3.3.4.1 Extract Year from Date ................................................................... 46
5.3.3.4.2 Extract Month from Date ................................................................... 47
5.3.3.4.3 Extract Day from Date ....................................................................... 47
5.3.3.4.4 Encode PdDistrict .............................................................................. 47
5.3.3.5 Build new array and create train data and train label ........................... 48
5.3.3.5.1 Create response 'category' ............................................................... 48
5.3.3.5.2 Create feature dataframe ................................................................ 49
5.3.3.6 Split the dataset into crime train data and crime test data .................... 49
5.3.3.7 The classifiers used to calculate the log_loss of the crime ................... 49
5.3.3.7.1 Random Forest ................................................................................ 49
5.3.3.7.2 Gaussian Naive Bayes ..................................................................... 49
5.3.3.7.3 Logistic Regression ......................................................................... 50
5.3.3.7.4 Nearest neighbors ............................................................................ 50
5.3.3.7.5 Decision Tree .................................................................................. 50
5.3.3.7.6 Support Vector Machine ................................................................. 50
5.3.3.8 Plotting the comparison of Log Loss using Histogram ........................ 51
5.3.3.8 Distribution of Longitude and Latitude in San Francisco map............. 51
5.3.3.9 Hotspot different crimes densities ........................................................ 52
CHAPTER 06
Conclusion and Future Work ............................................................................................... 55
LIST OF REFERENCES ........................................................................................... 56
Côte titre : MAI/0333 En ligne : https://drive.google.com/file/d/1nSq_f6zmecLXYj2X8P2rRmz4LGzwpfpa/view?usp=shari [...] Format de la ressource électronique : Crime Prediction Using Machine Learning [texte imprimé] / Houfaf, Nardjes, Auteur ; Toumi,Lyazid, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Crime classification,
San Francisco crime dataset
Supervised classification
Sklearn (Scikit-learnIndex. décimale : 004 - Informatique Résumé : Crime is one of the biggest issue in our society, a huge numbers of crimes are committed daily .Treating criminal activities of a place and time is important in order to interrupt it. Law enforcement can predict crimes effectively and solve it faster if they have a better information about crime patterns in different points of a city. In this project we will use machine learning techniques to classify the type of a criminal incident, depending on its occurrence at a given time and location. The experimentation will be conducted on a dataset of San Francisco that contains crime records from 01-01-2003 to 08-02-2019. For this supervised classification problem, we will use Gaussian Naive Bayes, Decision Tree, k-Nearest Neighbor (knn), multinomial logistic regression, Random Forest and support vector machine (Svm) And for unsupervised classification problem, we will use clustering. The results achieved are experimentally evaluated and compared with a previous work. Lastly, in a Smart City, the law enforcement can apply this proposed model. Note de contenu :
Sommaire
Motivation .............................................................................................................. 6
1.2 Problem Formulation ............................................................................................. 6
CHAPTER 02
Definitions and Techniques
2.1 Predictive Analytics ............................................................................................... 8
2.2 Classification Techniques ..................................................................................... 9
2.2.1 Binary classification ....................................................................................... 9
2.2.2Multiclass classification ................................................................................. 9
2.3 Log Loss Scoring ................................................................................................. 14
2.4 Parallel Processing ............................................................................................... 15
CHAPTER 03
Related Work
3.1 Temporal and Spectral Analysis .......................................................................... 17
3.2 Prediction using Clustering and Classification techniques .................................. 18
3.3 Hotspot Detection................................................................................................. 19
CHAPTER 4
Design and Implementation
4.1 Overview of the dataset ........................................................................................ 21
4.2 Data Preprocessing ............................................................................................... 22
4.2.1 Preprocessing using sklearn ........................................................................ 22
4.2.2 Techniques used for preprocessing .............................................................. 23
4.2.2.1 Data Cleaning ....................................................................................... 23
4.2.2.2 Data Transformation ............................................................................. 24
4.2.2.3 Data Reduction ..................................................................................... 26
4.3 Software and Technologies Used ......................................................................... 26
CHAPTER 5
Experimental Results
5.1 Comparison of this approach with existing results .............................................. 28
5.2 Results of Graphical Analysis .............................................................................. 30
5.3 Methodology and Results ..................................................................................... 38
5.3.1 import necessary modules ........................................................................... 38
5.3.2 Preparation of the dataset ............................................................................. 38
5.3.2.1 Importing the data set ........................................................................... 38
5.3.2.2 Data Exploration ................................................................................... 38
5.3.2.3 Data Cleaning ....................................................................................... 40
5.3.2.4 Data Reduction ..................................................................................... 42
5.3.3 Pre- processing of the dataset using SKlearn ............................................... 45
5.3.3.1 Importing the data set ........................................................................... 45
5.3.3.2 Drop the unnecessary features .............................................................. 45
5.3.3.3 Convert Time to datetime format (numeric format) ............................ 45
5.3.3.3.1 Extract Hour from Time .................................................................. 46
5.3.3.4 convert Date to datetime format ........................................................... 46
5.3.3.4.1 Extract Year from Date ................................................................... 46
5.3.3.4.2 Extract Month from Date ................................................................... 47
5.3.3.4.3 Extract Day from Date ....................................................................... 47
5.3.3.4.4 Encode PdDistrict .............................................................................. 47
5.3.3.5 Build new array and create train data and train label ........................... 48
5.3.3.5.1 Create response 'category' ............................................................... 48
5.3.3.5.2 Create feature dataframe ................................................................ 49
5.3.3.6 Split the dataset into crime train data and crime test data .................... 49
5.3.3.7 The classifiers used to calculate the log_loss of the crime ................... 49
5.3.3.7.1 Random Forest ................................................................................ 49
5.3.3.7.2 Gaussian Naive Bayes ..................................................................... 49
5.3.3.7.3 Logistic Regression ......................................................................... 50
5.3.3.7.4 Nearest neighbors ............................................................................ 50
5.3.3.7.5 Decision Tree .................................................................................. 50
5.3.3.7.6 Support Vector Machine ................................................................. 50
5.3.3.8 Plotting the comparison of Log Loss using Histogram ........................ 51
5.3.3.8 Distribution of Longitude and Latitude in San Francisco map............. 51
5.3.3.9 Hotspot different crimes densities ........................................................ 52
CHAPTER 06
Conclusion and Future Work ............................................................................................... 55
LIST OF REFERENCES ........................................................................................... 56
Côte titre : MAI/0333 En ligne : https://drive.google.com/file/d/1nSq_f6zmecLXYj2X8P2rRmz4LGzwpfpa/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0333 MAI/0333 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Deep Learning based Recommendation Systems for Big Data Type de document : texte imprimé Auteurs : Boughazi ,Chaima, Auteur ; Toumi,Lyazid, Directeur de thèse Editeur : Setif:UFA Année de publication : 2020 Importance : 1 vol (58 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Côte titre : MAI/0350 En ligne : https://drive.google.com/file/d/1PYiMbW1DnDSUKCCFpDoLEZamRNxwBMfb/view?usp=shari [...] Format de la ressource électronique : Deep Learning based Recommendation Systems for Big Data [texte imprimé] / Boughazi ,Chaima, Auteur ; Toumi,Lyazid, Directeur de thèse . - [S.l.] : Setif:UFA, 2020 . - 1 vol (58 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Côte titre : MAI/0350 En ligne : https://drive.google.com/file/d/1PYiMbW1DnDSUKCCFpDoLEZamRNxwBMfb/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0350 MAI/0350 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : Détection de Communauté dans Les Réseaux Sociaux Type de document : texte imprimé Auteurs : Belarbi,Ahmed Karim, Auteur ; Toumi,Lyazid, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (86 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Détection de communautés
Réseaux sociauxIndex. décimale : 004 - Informatique Résumé : La capacité d’analyser les grands réseaux pour détecter les sous-ensembles de sommets plus densément connectés que d’autres, peut nous aider à comprendre et à visualiser la structure de ces réseaux. Les sous-ensembles appelé communautés.
La détection des communautés est appliquée dans des déférents domaines diversifiés tels que la sociologie, l’informatique, l’ingénierie et la biologie.
De fait, il s’agit de déterminer des classes dans un graphe. De nombreuses approches ont été proposées pour découvrir les structures de communautés dans les réseaux. Ces approches sont pour la plupart dédiées pour détecter les communautés disjointes. En biologie, où nous analysons les réseaux d’interactions protéine-protéine pour, entre autres, prédire leurs fonctions, nombreuses sont celles qui ont plusieurs fonctions et dans ce cas il est raisonnable de construire non pas une partition, mais un recouvrement, c’est à dire un système de classes chevauchantes. Il en est de même dans les réseaux sociaux, où les individus peuvent appartenir à plusieurs groupes.
On s'intéresse sur les méthodes de construction d’une partition des sommets du graphe qui maximisent un certain critère. Parmi les nombreux critères qui évaluent la qualité d’une partition, nous ne faisons ici référence qu’à la notion de modularité introduite par Newman. Malheureusement, son optimisation sur l’ensemble de toutes les partitions des sommets d’un graphe est un problème NP-difficile ; il en est évidemment de même pour les recouvrements. Il faut donc utiliser des méthodes heuristiques, dès lors que les graphes étudiés sont de grande taille. Dans ce mémoire, nous proposons deux méthodes approchées, l’une pour les partitions, ce qui permet d’optimiser la modularité (VOS Clustering) basée sur l'algorithme de Louvain, qui est actuellement le meilleur algorithme en termes de complexité, d’efficacité pour calculer des communautés sur de très grands graphes. L’autre pour les recouvrements, Elle est basée sur la première approche pour le nombre de communautés défini pour détecter les communautés chevauchantes, c’est l’algorithme FCM (Fuzzy C-Means).
Nous avons mis en place une évaluation de nos méthodes, après avoir les testés sur des différents benchmarks de graphes réels. Et nous avons présenté les résultats qui sont jugés satisfaisants après les comparés à ceux de la littérature.Note de contenu : Sommaire
Dédicaces…………………………………………………………………………..ii
Remerciements………………………………………………………………..…..iii
Résumé……………………………………………..……………………………...iv
Table des matières…………………………………………………………….…..vi
Table de figures……………………………………………………………….…...x
Introduction Générale………………………….…………..……...………….…..13
1. Contexte générale……………………………………………………….13
2. Problématique et objectif de l’étude…………………………………….14
3. Contribution……………………………………………………………..14
4. Organisation du mémoire……………………………………...….……..14
Chapitre 1 : Notations et définitions
1.1 Introduction…………………….……………………………………..….…….……17
1.2 Réseau social………………….….………..…………………………….……...……17
1.3 Modélisation par les graphes………………………………………..…..…….…….18
1.4 Concepts…………….…………..……………………………………….…......….….19
1.4.1 Notion relative au graphe……………………..……………………….……...….19
1.5 Mesures de centralités……………………………………………...…..….…………23
1.5.1 Degré de centralité…………….....…………………………………...………....23
1.5.2 Centralité intermédiarité………………………..……………………....……….24
1.6 Modularité………………………………………………………………..…..………24
1.7 Graphe de terrain……………………………………………………….…..……….26
1.8 Communauté…………………………………………………………….……..…….26
1.9 Détection de communautés……………..……………………………………….…..27
vii
1.10 Analyse des réseaux sociaux……………………………………………………….28
1.11 Intérêt de la détection de communautés et ses applications……………….…….29
1.12 Conclusion…………………………...………………………………….…………..30
Chapitre 2 : Etat de l'art
2.1 Introduction………………………………………………………….………….32
2.2 Les approches de détection de communauté……………………………………32
2.2.1 Les approches statistiques sans recouvrements……………….…………32
2.2.1.1 Les approches hiérarchiques………………………………..……….33
2.2.1.1.1 Approche Hiérarchique Ascendantes…………….………34
2.2.1.1.2 Approche Hiérarchique Descendantes…….………..…….37
2.2.1.2 Partitionnement non hiérarchique…………………………..………41
2.2.1.2.1 Centre mobiles……………………………………..………41
2.2.1.2.2 Nuées dynamiques………………………………….……..42
2.2.1.3 Approches utilisant des marches aléatoires………………….……..42
2.2.1.4 Approches spectrales…………………………………………..…...44
2.2.2 Les approches statistiques avec recouvrement…………….………..…45
2.2.2.1 Approches basées sur des cliques………………………………..…46
2.2.2.2 Approches basé sur la propagation de labels………………….…....48
2.2.2.3 Approches basées sur des graines………………………….…….....51
2.3 Les approches dynamiques………………………………………………..52
2.3.1 Approches par détections statiques successives……………………….54
2.3.2 Les approches par détections statiques informées successives……….56
2.4 Conclusion…………………………………………………………..……..59
viii
Chapitre 3 : Contribution Et Algorithmes Etudiés
3.1 Introduction………………………………………………………………….61
3.2 Détection communautés avec la méthode VOS Clustering……………….61
3.2.1 Méthode de Louvain…………………………………………………61
3.2.1.1 Avantage……………………………………………………………..61
3.2.1.2 Inconvénient…………………………………………………….…...62
3.2.1.3 Exemple de détection de communautés pour des réseaux sociaux…...62
3.2.2 Vos Clustering…………………………………………………..……..63
3.2.2.1 Avantage……………………………………………………..………63
3.2.2.2 inconvénients………………………………………………..……….64
3.3 Détection les recouvrements avec la méthode de Fuzzy C-means……….…64
3.3.1 Avantages………………………………………………………………..…..65
3.3.2 Inconvénients……………………………………………………………..…65
3.4 Contribution…………………………………………………………………..65
3.4.1 Distance et métriques……………………………………………..………...66
3.4.1.1 Notion de distance………………………………………….………..66
3.4.1.2 Quelques types de distance………………………………….……….66
3.4.1.3 Similarité…………………………………………………….………68
3.5 Conclusion………………………………………………………………..……69
Chapitre 4 : Évaluation et Expérimentation.
4.1 Introduction…………………………………………………………………...71
4.2 Les langages utilisés et les outils d'implémentations………………………..71
4.2.1 Langage Python…………………………………………………………….71
4.2.2 PyCharm……………………………………………………………………71
4.3 Les Benchmarks de Test……………………………………………………...72
ix
4.3.1 Benchmark du Club de Karaté Zachary………………………………….72
4.3.2 Benchmark d’Albert Barabasi Model…………………………………….72
4.4 Format du fichier……………………………………………………………..72
4.5 Interfaces de notre application de détection de communauté…………..…74
4.5.1 Interface d’accueil………………………………………………………….74
4.5.2 Principe de fonctionnement de l’application……………………………..75
4.5.2.1 Détection de communautés partitionnées…………………………...76
4.5.2.2 Détection et analyse de communautés recouvrantes………………...81
4.6 Conclusion……………………………………………………………………..84
Conclusion générale………………………………………………………………85
Bibliographie……………………………………………………………………...86Côte titre : MAI/0295 En ligne : https://drive.google.com/file/d/1h8tFrJ5pOSHjoIpKRj3dNDcit8Ql2XGD/view?usp=shari [...] Format de la ressource électronique : Détection de Communauté dans Les Réseaux Sociaux [texte imprimé] / Belarbi,Ahmed Karim, Auteur ; Toumi,Lyazid, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (86 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Détection de communautés
Réseaux sociauxIndex. décimale : 004 - Informatique Résumé : La capacité d’analyser les grands réseaux pour détecter les sous-ensembles de sommets plus densément connectés que d’autres, peut nous aider à comprendre et à visualiser la structure de ces réseaux. Les sous-ensembles appelé communautés.
La détection des communautés est appliquée dans des déférents domaines diversifiés tels que la sociologie, l’informatique, l’ingénierie et la biologie.
De fait, il s’agit de déterminer des classes dans un graphe. De nombreuses approches ont été proposées pour découvrir les structures de communautés dans les réseaux. Ces approches sont pour la plupart dédiées pour détecter les communautés disjointes. En biologie, où nous analysons les réseaux d’interactions protéine-protéine pour, entre autres, prédire leurs fonctions, nombreuses sont celles qui ont plusieurs fonctions et dans ce cas il est raisonnable de construire non pas une partition, mais un recouvrement, c’est à dire un système de classes chevauchantes. Il en est de même dans les réseaux sociaux, où les individus peuvent appartenir à plusieurs groupes.
On s'intéresse sur les méthodes de construction d’une partition des sommets du graphe qui maximisent un certain critère. Parmi les nombreux critères qui évaluent la qualité d’une partition, nous ne faisons ici référence qu’à la notion de modularité introduite par Newman. Malheureusement, son optimisation sur l’ensemble de toutes les partitions des sommets d’un graphe est un problème NP-difficile ; il en est évidemment de même pour les recouvrements. Il faut donc utiliser des méthodes heuristiques, dès lors que les graphes étudiés sont de grande taille. Dans ce mémoire, nous proposons deux méthodes approchées, l’une pour les partitions, ce qui permet d’optimiser la modularité (VOS Clustering) basée sur l'algorithme de Louvain, qui est actuellement le meilleur algorithme en termes de complexité, d’efficacité pour calculer des communautés sur de très grands graphes. L’autre pour les recouvrements, Elle est basée sur la première approche pour le nombre de communautés défini pour détecter les communautés chevauchantes, c’est l’algorithme FCM (Fuzzy C-Means).
Nous avons mis en place une évaluation de nos méthodes, après avoir les testés sur des différents benchmarks de graphes réels. Et nous avons présenté les résultats qui sont jugés satisfaisants après les comparés à ceux de la littérature.Note de contenu : Sommaire
Dédicaces…………………………………………………………………………..ii
Remerciements………………………………………………………………..…..iii
Résumé……………………………………………..……………………………...iv
Table des matières…………………………………………………………….…..vi
Table de figures……………………………………………………………….…...x
Introduction Générale………………………….…………..……...………….…..13
1. Contexte générale……………………………………………………….13
2. Problématique et objectif de l’étude…………………………………….14
3. Contribution……………………………………………………………..14
4. Organisation du mémoire……………………………………...….……..14
Chapitre 1 : Notations et définitions
1.1 Introduction…………………….……………………………………..….…….……17
1.2 Réseau social………………….….………..…………………………….……...……17
1.3 Modélisation par les graphes………………………………………..…..…….…….18
1.4 Concepts…………….…………..……………………………………….…......….….19
1.4.1 Notion relative au graphe……………………..……………………….……...….19
1.5 Mesures de centralités……………………………………………...…..….…………23
1.5.1 Degré de centralité…………….....…………………………………...………....23
1.5.2 Centralité intermédiarité………………………..……………………....……….24
1.6 Modularité………………………………………………………………..…..………24
1.7 Graphe de terrain……………………………………………………….…..……….26
1.8 Communauté…………………………………………………………….……..…….26
1.9 Détection de communautés……………..……………………………………….…..27
vii
1.10 Analyse des réseaux sociaux……………………………………………………….28
1.11 Intérêt de la détection de communautés et ses applications……………….…….29
1.12 Conclusion…………………………...………………………………….…………..30
Chapitre 2 : Etat de l'art
2.1 Introduction………………………………………………………….………….32
2.2 Les approches de détection de communauté……………………………………32
2.2.1 Les approches statistiques sans recouvrements……………….…………32
2.2.1.1 Les approches hiérarchiques………………………………..……….33
2.2.1.1.1 Approche Hiérarchique Ascendantes…………….………34
2.2.1.1.2 Approche Hiérarchique Descendantes…….………..…….37
2.2.1.2 Partitionnement non hiérarchique…………………………..………41
2.2.1.2.1 Centre mobiles……………………………………..………41
2.2.1.2.2 Nuées dynamiques………………………………….……..42
2.2.1.3 Approches utilisant des marches aléatoires………………….……..42
2.2.1.4 Approches spectrales…………………………………………..…...44
2.2.2 Les approches statistiques avec recouvrement…………….………..…45
2.2.2.1 Approches basées sur des cliques………………………………..…46
2.2.2.2 Approches basé sur la propagation de labels………………….…....48
2.2.2.3 Approches basées sur des graines………………………….…….....51
2.3 Les approches dynamiques………………………………………………..52
2.3.1 Approches par détections statiques successives……………………….54
2.3.2 Les approches par détections statiques informées successives……….56
2.4 Conclusion…………………………………………………………..……..59
viii
Chapitre 3 : Contribution Et Algorithmes Etudiés
3.1 Introduction………………………………………………………………….61
3.2 Détection communautés avec la méthode VOS Clustering……………….61
3.2.1 Méthode de Louvain…………………………………………………61
3.2.1.1 Avantage……………………………………………………………..61
3.2.1.2 Inconvénient…………………………………………………….…...62
3.2.1.3 Exemple de détection de communautés pour des réseaux sociaux…...62
3.2.2 Vos Clustering…………………………………………………..……..63
3.2.2.1 Avantage……………………………………………………..………63
3.2.2.2 inconvénients………………………………………………..……….64
3.3 Détection les recouvrements avec la méthode de Fuzzy C-means……….…64
3.3.1 Avantages………………………………………………………………..…..65
3.3.2 Inconvénients……………………………………………………………..…65
3.4 Contribution…………………………………………………………………..65
3.4.1 Distance et métriques……………………………………………..………...66
3.4.1.1 Notion de distance………………………………………….………..66
3.4.1.2 Quelques types de distance………………………………….……….66
3.4.1.3 Similarité…………………………………………………….………68
3.5 Conclusion………………………………………………………………..……69
Chapitre 4 : Évaluation et Expérimentation.
4.1 Introduction…………………………………………………………………...71
4.2 Les langages utilisés et les outils d'implémentations………………………..71
4.2.1 Langage Python…………………………………………………………….71
4.2.2 PyCharm……………………………………………………………………71
4.3 Les Benchmarks de Test……………………………………………………...72
ix
4.3.1 Benchmark du Club de Karaté Zachary………………………………….72
4.3.2 Benchmark d’Albert Barabasi Model…………………………………….72
4.4 Format du fichier……………………………………………………………..72
4.5 Interfaces de notre application de détection de communauté…………..…74
4.5.1 Interface d’accueil………………………………………………………….74
4.5.2 Principe de fonctionnement de l’application……………………………..75
4.5.2.1 Détection de communautés partitionnées…………………………...76
4.5.2.2 Détection et analyse de communautés recouvrantes………………...81
4.6 Conclusion……………………………………………………………………..84
Conclusion générale………………………………………………………………85
Bibliographie……………………………………………………………………...86Côte titre : MAI/0295 En ligne : https://drive.google.com/file/d/1h8tFrJ5pOSHjoIpKRj3dNDcit8Ql2XGD/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0295 MAI/0295 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Detection of anomaly from application log data Type de document : texte imprimé Auteurs : Segueni ,Mossadek-Chakib, Auteur ; Toumi,Lyazid, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (59 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Application log
Anomaly detection
Machine leaning
Classification
ClusteringIndex. décimale : 004 - Informatique Résumé : Dans cette enquête, nous fournissons un cadre d’apprentissage automatique pour détecter les logiciels malveillants. Nous
ont collecté, analysé et traité de nombreux programmes propres et malveillants pour trouver les meilleures fonctionnalités
et créer des modèles pour classer un programme particulier dans une catégorie de malware ou propre.
De nombreuses techniques de détection anormales ont été développées spécifiquement pour certaines zones de
application, tandis que d'autres sont plus générales. Cette enquête tente de fournir une analyse complète et
vue coordonnée de la recherche de détection d'anomalies. Nous avons compilé les technologies existantes dans
différentes catégories. Pour chaque catégorie, nous avons identifié des hypothèses clés, qui sont utilisées par
techniques permettant de distinguer les comportements naturels des comportements anormaux. De plus, pour chaque catégorie,
nous déterminons les avantages et les inconvénients de ces techniques.
Notre approche utilise la technique de classification KNN et la classification K-MEANS.
Nous espérons que cette enquête fournira une meilleure compréhension de ce domaine et aidera à découvrir
mieux travailler sur les fonctionnalités
Envoyer des commentaires
Historique
Enregistré
CommunautéNote de contenu : Sommaire
Contents
General Introduction: ................................................................................................................................. 9
Chapter 1: Detection of anomalies. ........................................................................................................... 10
1 Introduction: ....................................................................................................................................... 11
2 Log data ............................................................................................................................................... 11
3 Anomalies in log data: ......................................................................................................................... 13
4 Axes of anomalies in log data: ............................................................................................................ 14
4.1 Unstructured Text: ...................................................................................................................... 14
4.2 Redundant information: ............................................................................................................. 15
4.3 Big data: ...................................................................................................................................... 15
5 Types of anomalies: ............................................................................................................................ 16
5.1 Point anomaly: ............................................................................................................................ 16
5.2 Contextual anomaly: ................................................................................................................... 17
5.3 Collective anomaly: ..................................................................................................................... 17
6 Detection Methods: ............................................................................................................................ 18
6.1 Scanning: ..................................................................................................................................... 19
6.2 Activity monitoring: .................................................................................................................... 19
6.3 Integrity checking: ....................................................................................................................... 19
7 Conclusion ........................................................................................................................................... 19
Chapter2 : techniques of anomalies detection. ......................................................................................... 20
1 INTRODUCTION .............................................................................................................................. 21
2 Machine learning: ............................................................................................................................... 22
3 Learning models: ................................................................................................................................ 23
3.1 Supervised machine learning: ..................................................................................................... 24
3.1.1 Advantage and inconvenient: [8] [10] [11] ...................................................................... 24
3.2 Unsupervised machine learning: ................................................................................................. 25
3.2.1 Advantage and inconvenient: ........................................................................................... 25
3.3 Semi-supervised machine learning (one-class classification): .................................................... 26
3.3.1 Advantage and inconvenient: [13] ...................................................................................... 26
3.4 Hybrid machine learning:............................................................................................................ 27
4 Classification approaches:................................................................................................................... 27
5 Clustering approaches: ........................................................................................................................ 27
6 Distance-based approaches: ................................................................................................................ 29
5
7 Density-based approaches: .................................................................................................................. 29
8 Spectral decomposition: ...................................................................................................................... 29
9 Depth-based approaches: .................................................................................................................... 29
10 Distribution-based/ Statistical approaches: ..................................................................................... 29
11 Neural Network Based Anomaly Detection:................................................................................... 30
12 Conclusion: ..................................................................................................................................... 30
Chapter3: K-MEANS and KNN methods. ................................................................................................. 31
1 Introduction: ........................................................................................................................................ 32
2 Algorithm K-means: ........................................................................................................................... 32
2.1 Use Cases of K-means: .............................................................................................................. 35
2.2 Advantages of K-Means: .......................................................................................................... 36
2.3 Inconvenient of K-Means: ........................................................................................................ 36
2.4 Versions of K-means: ................................................................................................................ 36
2.4.1 Global K-means: ............................................................................................................... 36
2.4.2 Modified fast global K-means: ......................................................................................... 37
3 Algorithm K-NN: ................................................................................................................................ 37
3.1 Application domain: .................................................................................................................... 39
3.2 Working principle: ...................................................................................................................... 39
3.3 Pseudo code for the Algorithm KNN: ......................................................................................... 40
3.4 Advantages and disadvantages: .................................................................................................. 41
3.5 KNN density based algorithm for anomalies detection: ............................................................. 41
3.5.1 Pseudo code of LOF ............................................................................................................ 42
4 Conclusion: ......................................................................................................................................... 43
1 Introduction: ........................................................................................................................................ 45
2 Dataset: ............................................................................................................................................... 45
2.1 Database analysis and cleaning: .................................................................................................. 46
3 Transformation of data: ....................................................................................................................... 48
4 First case K-MEANS: ......................................................................................................................... 49
4.1 Result: ......................................................................................................................................... 49
5 Second case KNN: .............................................................................................................................. 51
5.1 Results ......................................................................................................................................... 52
6 Comparison with other results: ........................................................................................................... 53
7 Conclusion: ......................................................................................................................................... 54
Côte titre : MAI/0301 En ligne : https://drive.google.com/file/d/1tdUtKJNTgnJSyyT37vb9L-n5S-dQW6SQ/view?usp=shari [...] Format de la ressource électronique : Detection of anomaly from application log data [texte imprimé] / Segueni ,Mossadek-Chakib, Auteur ; Toumi,Lyazid, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Application log
Anomaly detection
Machine leaning
Classification
ClusteringIndex. décimale : 004 - Informatique Résumé : Dans cette enquête, nous fournissons un cadre d’apprentissage automatique pour détecter les logiciels malveillants. Nous
ont collecté, analysé et traité de nombreux programmes propres et malveillants pour trouver les meilleures fonctionnalités
et créer des modèles pour classer un programme particulier dans une catégorie de malware ou propre.
De nombreuses techniques de détection anormales ont été développées spécifiquement pour certaines zones de
application, tandis que d'autres sont plus générales. Cette enquête tente de fournir une analyse complète et
vue coordonnée de la recherche de détection d'anomalies. Nous avons compilé les technologies existantes dans
différentes catégories. Pour chaque catégorie, nous avons identifié des hypothèses clés, qui sont utilisées par
techniques permettant de distinguer les comportements naturels des comportements anormaux. De plus, pour chaque catégorie,
nous déterminons les avantages et les inconvénients de ces techniques.
Notre approche utilise la technique de classification KNN et la classification K-MEANS.
Nous espérons que cette enquête fournira une meilleure compréhension de ce domaine et aidera à découvrir
mieux travailler sur les fonctionnalités
Envoyer des commentaires
Historique
Enregistré
CommunautéNote de contenu : Sommaire
Contents
General Introduction: ................................................................................................................................. 9
Chapter 1: Detection of anomalies. ........................................................................................................... 10
1 Introduction: ....................................................................................................................................... 11
2 Log data ............................................................................................................................................... 11
3 Anomalies in log data: ......................................................................................................................... 13
4 Axes of anomalies in log data: ............................................................................................................ 14
4.1 Unstructured Text: ...................................................................................................................... 14
4.2 Redundant information: ............................................................................................................. 15
4.3 Big data: ...................................................................................................................................... 15
5 Types of anomalies: ............................................................................................................................ 16
5.1 Point anomaly: ............................................................................................................................ 16
5.2 Contextual anomaly: ................................................................................................................... 17
5.3 Collective anomaly: ..................................................................................................................... 17
6 Detection Methods: ............................................................................................................................ 18
6.1 Scanning: ..................................................................................................................................... 19
6.2 Activity monitoring: .................................................................................................................... 19
6.3 Integrity checking: ....................................................................................................................... 19
7 Conclusion ........................................................................................................................................... 19
Chapter2 : techniques of anomalies detection. ......................................................................................... 20
1 INTRODUCTION .............................................................................................................................. 21
2 Machine learning: ............................................................................................................................... 22
3 Learning models: ................................................................................................................................ 23
3.1 Supervised machine learning: ..................................................................................................... 24
3.1.1 Advantage and inconvenient: [8] [10] [11] ...................................................................... 24
3.2 Unsupervised machine learning: ................................................................................................. 25
3.2.1 Advantage and inconvenient: ........................................................................................... 25
3.3 Semi-supervised machine learning (one-class classification): .................................................... 26
3.3.1 Advantage and inconvenient: [13] ...................................................................................... 26
3.4 Hybrid machine learning:............................................................................................................ 27
4 Classification approaches:................................................................................................................... 27
5 Clustering approaches: ........................................................................................................................ 27
6 Distance-based approaches: ................................................................................................................ 29
5
7 Density-based approaches: .................................................................................................................. 29
8 Spectral decomposition: ...................................................................................................................... 29
9 Depth-based approaches: .................................................................................................................... 29
10 Distribution-based/ Statistical approaches: ..................................................................................... 29
11 Neural Network Based Anomaly Detection:................................................................................... 30
12 Conclusion: ..................................................................................................................................... 30
Chapter3: K-MEANS and KNN methods. ................................................................................................. 31
1 Introduction: ........................................................................................................................................ 32
2 Algorithm K-means: ........................................................................................................................... 32
2.1 Use Cases of K-means: .............................................................................................................. 35
2.2 Advantages of K-Means: .......................................................................................................... 36
2.3 Inconvenient of K-Means: ........................................................................................................ 36
2.4 Versions of K-means: ................................................................................................................ 36
2.4.1 Global K-means: ............................................................................................................... 36
2.4.2 Modified fast global K-means: ......................................................................................... 37
3 Algorithm K-NN: ................................................................................................................................ 37
3.1 Application domain: .................................................................................................................... 39
3.2 Working principle: ...................................................................................................................... 39
3.3 Pseudo code for the Algorithm KNN: ......................................................................................... 40
3.4 Advantages and disadvantages: .................................................................................................. 41
3.5 KNN density based algorithm for anomalies detection: ............................................................. 41
3.5.1 Pseudo code of LOF ............................................................................................................ 42
4 Conclusion: ......................................................................................................................................... 43
1 Introduction: ........................................................................................................................................ 45
2 Dataset: ............................................................................................................................................... 45
2.1 Database analysis and cleaning: .................................................................................................. 46
3 Transformation of data: ....................................................................................................................... 48
4 First case K-MEANS: ......................................................................................................................... 49
4.1 Result: ......................................................................................................................................... 49
5 Second case KNN: .............................................................................................................................. 51
5.1 Results ......................................................................................................................................... 52
6 Comparison with other results: ........................................................................................................... 53
7 Conclusion: ......................................................................................................................................... 54
Côte titre : MAI/0301 En ligne : https://drive.google.com/file/d/1tdUtKJNTgnJSyyT37vb9L-n5S-dQW6SQ/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0301 MAI/0301 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : Fraud Detection in onlin advertising click Type de document : texte imprimé Auteurs : Aouir,Yahia, Auteur ; Toumi,Lyazid, Directeur de thèse Editeur : Setif:UFA Année de publication : 2021 Importance : 1 vol (64 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Résumé :
Fraud, the art of compromising systems, and taking advantage of any flaws within.
Fraud has existed since ever and now, in the era of technology this has taken significant
steps forward and today it costs governments and private institutions a huge
amount money. Ad click fraud is a one shape of this fraudulent behavior attempting
to defraud digital advertising networks for financial gain, there are a number of methods
scammers and fraudsters use and there are many of methods to prevent them
from doing so. In this work we will try to present one way of standing against this
fraudulent behavior through the use of machine learning techniques mainly classification
techniques, logistic regression to prevent or at least minimize the damages that
might occur. And has shown how effective it could be in preventing such fraudulent
actions.
iiCôte titre : MAI/0546 En ligne : https://drive.google.com/file/d/1IGsEivF7IAOU19YyayXM7erDjdl8d8mQ/view?usp=shari [...] Format de la ressource électronique : Fraud Detection in onlin advertising click [texte imprimé] / Aouir,Yahia, Auteur ; Toumi,Lyazid, Directeur de thèse . - [S.l.] : Setif:UFA, 2021 . - 1 vol (64 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Résumé :
Fraud, the art of compromising systems, and taking advantage of any flaws within.
Fraud has existed since ever and now, in the era of technology this has taken significant
steps forward and today it costs governments and private institutions a huge
amount money. Ad click fraud is a one shape of this fraudulent behavior attempting
to defraud digital advertising networks for financial gain, there are a number of methods
scammers and fraudsters use and there are many of methods to prevent them
from doing so. In this work we will try to present one way of standing against this
fraudulent behavior through the use of machine learning techniques mainly classification
techniques, logistic regression to prevent or at least minimize the damages that
might occur. And has shown how effective it could be in preventing such fraudulent
actions.
iiCôte titre : MAI/0546 En ligne : https://drive.google.com/file/d/1IGsEivF7IAOU19YyayXM7erDjdl8d8mQ/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0546 MAI/0546 Mémoire Bibliothéque des sciences Anglais Disponible
DisponiblePermalinkPermalinkPermalinkPermalinkOnline Virtual Experimentation in Educational Facilities: Development of a Cross-Platform application. / Sanaa Ardjane
![]()
PermalinkPermalinkPermalinkPermalinkStatic and Incremental Dynamic Approaches for Multi-Objective Horizontal Partitioning Selection in Data Warehouses / Chemakh ,Hiba Abir
![]()
Permalink