University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Bensedira, Ayoub |
Documents disponibles écrits par cet auteur



Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce / Bensedira, Ayoub
![]()
Titre : Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce Type de document : texte imprimé Auteurs : Bensedira, Ayoub, Auteur ; Nasri,Khaled, Directeur de thèse Editeur : Setif:UFA Année de publication : 2018 Importance : 1 vol (69 f .) Format : 29 cm Langues : Français (fre) Langues originales : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data
Data Mining
Hadoop
MapReduceIndex. décimale : 004 Informatique Résumé : Résumé
Les données sont devenues aujourd'hui le nouveau champ de bataille concurrentielle
entre les entreprises, notamment avec la prolifération massive des données dans
un contexte Big Data où l'intégration des données en tant qu'une discipline s'impose
de plus en plus comme un dé opérationnel majeur et inédit.
Le datamining est déni comme étant le processus d'extraction de connaissances
à partir de grandes masses de données, il est utilisé dans plusieurs domaines :
médecine, marketing, industrie, recherche opérationnelle entre autres.
Plusieurs entreprises pionnières et chercheurs dans le domaine commencent à faire
face à ce dé de taille par la proposition de nouvelles approches conceptuelles et algorithmiques
an de remédier à cette problématique imposée par un environnement
extérieur émouvant, des approches qui prennent en considération la monté en puissance
et en popularité des réseaux sociaux, Internet Of Things (IoT) et les analyses
Big Data.
Des débats intensifs se sont orientés et concentrés sur la pertinence des anciennes
méthodes traditionnelles et l'introduction de nouvelles méthodes plus exibles
qui s'adaptent à la vélocité, variété et volume des données qui parviennent de
l'environnement. A traves ce projets nous voulons répondre à un certain nombre de
problématiques tel que :
Quels sont les outils et les techniques utilisées dans le domaine de Big Data
pour analyser les données et extraire des connaissances.
Comment introduire la notion de parallélisme pour implémenter un algorithmes
de Data Mining selon le modèle de programmation MapReduce.Note de contenu : Sommaire
Abstract i
Acknowledgement iii
Contents iv
List of Figures vii
Introduction 1
1 Objective: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Big Data 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Data Evolution: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Denitions of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Sources of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Big Data Vs small data: . . . . . . . . . . . . . . . . . . . . . . . . . 7
6 Data structure: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.1 Structured: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 Semi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3 Quasi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4 Unstructured: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.5 Combination of the Four Groups: . . . . . . . . . . . . . . . . 9
7 Big Data ecosystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Big Data Lifecycle: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.1 Data collection phase . . . . . . . . . . . . . . . . . . . . . . . 12
8.2 Data storage phase: . . . . . . . . . . . . . . . . . . . . . . . . 13
8.3 Data analytics phase: . . . . . . . . . . . . . . . . . . . . . . 13
8.4 Knowledge creation phase: . . . . . . . . . . . . . . . . . . . . 13
9 Data scientists: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
10 Big Data and related technologies: . . . . . . . . . . . . . . . . . . . . 15
10.1 Hadoop: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
10.1.1 Hadoop architecture: . . . . . . . . . . . . . . . . . . 16
10.1.1.1 HDFS (Hadoop Distributed File System): . . . . . . 16
10.1.1.2 MapReduce: . . . . . . . . . . . . . . . . . . . . . . . 17
10.2 Cloud Computing: . . . . . . . . . . . . . . . . . . . . . . . . 19
10.3 NoSQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11 Big Data applications: . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Challenges of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 23
13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Data Mining in Big Data 26
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Data Mining overview: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Data Mining denition: . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Machine learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Machine Learning techniques: . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Supervised Learning: . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Unsupervised Learning: . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Reinforcement Learning: . . . . . . . . . . . . . . . . . . . . . 31
6 Machine Learning process: . . . . . . . . . . . . . . . . . . . . . . . . 31
7 Literature review: Data mining in Big Data . . . . . . . . . . . . . . 32
8 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning for Big Data 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Train Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1 Regularization: . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Weight initialization: . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Activation function: . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Loss function: . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Backpropagation: . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Deep Architectures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Feed forward neural networks: . . . . . . . . . . . . . . . . . . 40
4.2 Convolutional neural networks: . . . . . . . . . . . . . . . . . 40
4.3 Recurrent neural networks: . . . . . . . . . . . . . . . . . . . . 42
5 Deep learning and big data: . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Challenges: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Some recent work: Deep learning in big data . . . . . . . . . . 45
6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Realized Work 47
1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Proposed Architecture: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Implementation Environment: . . . . . . . . . . . . . . . . . . . . . . 48
3.1 Jupyter Notebook: . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Python 2.7: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Keras backend TensorFlow: . . . . . . . . . . . . . . . . . . . 49
3.4 h5py: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Hadoop 2.8.4: . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Hadoop Streaming: . . . . . . . . . . . . . . . . . . . 50
3.5.2 Installation and conguration of Hadoop: . . . . . . 51
4 Dataset: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Building the Model: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 MapReduce test and evaluation: . . . . . . . . . . . . . . . . . . . . . 60
6.1 Prepare data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Upload CSV le to HDFS: . . . . . . . . . . . . . . . . . . . . 60
6.3 MapReduce code in python: . . . . . . . . . . . . . . . . . . . 61
6.3.1 Mapper: . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3.2 Reducer: . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Run the MapReduce job: . . . . . . . . . . . . . . . . . . . . . 63
7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion 64
Bibliography 66Côte titre : MAI/0266 En ligne : https://drive.google.com/file/d/1eqC_-rS8sX7jpUH4A3vdgJserTuUGgX4/view?usp=shari [...] Format de la ressource électronique : Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce [texte imprimé] / Bensedira, Ayoub, Auteur ; Nasri,Khaled, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (69 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data
Data Mining
Hadoop
MapReduceIndex. décimale : 004 Informatique Résumé : Résumé
Les données sont devenues aujourd'hui le nouveau champ de bataille concurrentielle
entre les entreprises, notamment avec la prolifération massive des données dans
un contexte Big Data où l'intégration des données en tant qu'une discipline s'impose
de plus en plus comme un dé opérationnel majeur et inédit.
Le datamining est déni comme étant le processus d'extraction de connaissances
à partir de grandes masses de données, il est utilisé dans plusieurs domaines :
médecine, marketing, industrie, recherche opérationnelle entre autres.
Plusieurs entreprises pionnières et chercheurs dans le domaine commencent à faire
face à ce dé de taille par la proposition de nouvelles approches conceptuelles et algorithmiques
an de remédier à cette problématique imposée par un environnement
extérieur émouvant, des approches qui prennent en considération la monté en puissance
et en popularité des réseaux sociaux, Internet Of Things (IoT) et les analyses
Big Data.
Des débats intensifs se sont orientés et concentrés sur la pertinence des anciennes
méthodes traditionnelles et l'introduction de nouvelles méthodes plus exibles
qui s'adaptent à la vélocité, variété et volume des données qui parviennent de
l'environnement. A traves ce projets nous voulons répondre à un certain nombre de
problématiques tel que :
Quels sont les outils et les techniques utilisées dans le domaine de Big Data
pour analyser les données et extraire des connaissances.
Comment introduire la notion de parallélisme pour implémenter un algorithmes
de Data Mining selon le modèle de programmation MapReduce.Note de contenu : Sommaire
Abstract i
Acknowledgement iii
Contents iv
List of Figures vii
Introduction 1
1 Objective: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Big Data 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Data Evolution: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Denitions of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Sources of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Big Data Vs small data: . . . . . . . . . . . . . . . . . . . . . . . . . 7
6 Data structure: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.1 Structured: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 Semi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3 Quasi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4 Unstructured: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.5 Combination of the Four Groups: . . . . . . . . . . . . . . . . 9
7 Big Data ecosystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Big Data Lifecycle: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.1 Data collection phase . . . . . . . . . . . . . . . . . . . . . . . 12
8.2 Data storage phase: . . . . . . . . . . . . . . . . . . . . . . . . 13
8.3 Data analytics phase: . . . . . . . . . . . . . . . . . . . . . . 13
8.4 Knowledge creation phase: . . . . . . . . . . . . . . . . . . . . 13
9 Data scientists: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
10 Big Data and related technologies: . . . . . . . . . . . . . . . . . . . . 15
10.1 Hadoop: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
10.1.1 Hadoop architecture: . . . . . . . . . . . . . . . . . . 16
10.1.1.1 HDFS (Hadoop Distributed File System): . . . . . . 16
10.1.1.2 MapReduce: . . . . . . . . . . . . . . . . . . . . . . . 17
10.2 Cloud Computing: . . . . . . . . . . . . . . . . . . . . . . . . 19
10.3 NoSQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11 Big Data applications: . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Challenges of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 23
13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Data Mining in Big Data 26
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Data Mining overview: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Data Mining denition: . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Machine learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Machine Learning techniques: . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Supervised Learning: . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Unsupervised Learning: . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Reinforcement Learning: . . . . . . . . . . . . . . . . . . . . . 31
6 Machine Learning process: . . . . . . . . . . . . . . . . . . . . . . . . 31
7 Literature review: Data mining in Big Data . . . . . . . . . . . . . . 32
8 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning for Big Data 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Train Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1 Regularization: . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Weight initialization: . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Activation function: . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Loss function: . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Backpropagation: . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Deep Architectures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Feed forward neural networks: . . . . . . . . . . . . . . . . . . 40
4.2 Convolutional neural networks: . . . . . . . . . . . . . . . . . 40
4.3 Recurrent neural networks: . . . . . . . . . . . . . . . . . . . . 42
5 Deep learning and big data: . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Challenges: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Some recent work: Deep learning in big data . . . . . . . . . . 45
6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Realized Work 47
1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Proposed Architecture: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Implementation Environment: . . . . . . . . . . . . . . . . . . . . . . 48
3.1 Jupyter Notebook: . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Python 2.7: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Keras backend TensorFlow: . . . . . . . . . . . . . . . . . . . 49
3.4 h5py: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Hadoop 2.8.4: . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Hadoop Streaming: . . . . . . . . . . . . . . . . . . . 50
3.5.2 Installation and conguration of Hadoop: . . . . . . 51
4 Dataset: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Building the Model: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 MapReduce test and evaluation: . . . . . . . . . . . . . . . . . . . . . 60
6.1 Prepare data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Upload CSV le to HDFS: . . . . . . . . . . . . . . . . . . . . 60
6.3 MapReduce code in python: . . . . . . . . . . . . . . . . . . . 61
6.3.1 Mapper: . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3.2 Reducer: . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Run the MapReduce job: . . . . . . . . . . . . . . . . . . . . . 63
7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion 64
Bibliography 66Côte titre : MAI/0266 En ligne : https://drive.google.com/file/d/1eqC_-rS8sX7jpUH4A3vdgJserTuUGgX4/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0266 MAI/0266 Mémoire Bibliothéque des sciences Français Disponible
Disponible