University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur BENSAAD, Salima |
Documents disponibles écrits par cet auteur
Ajouter le résultat dans votre panier Affiner la recherche
Titre : Infrastructure pour le Big Data Type de document : texte imprimé Auteurs : BENSAAD, Salima ; SAIDI,MOHAMED, Directeur de thèse Editeur : Setif:UFA Année de publication : 2016 Importance : 1 vol (66f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Génie Logiciel
Big Data
écosystème Hadoop
MapReduce
HDFS
NoSQLIndex. décimale : 004 Informatique Résumé : Résumé:
Le Big Data regroupe plusieurs nouvelles technologies et d’outils pour répondre Ã
un triple problématique: un volume de données important à traiter, une grande variété
d’informations et un certain niveau de vélocité à atteindre. Pour répondre à ces besoins, il
s'avère que l'écosystème Hadoop serait la solution open source par excellence. Notre
objectif est de mettre en œuvre une architecture d'Hadoop et montrer l’influence du
parallélisme sur les performances globales du système, d’un côté, d’un autre côté, la
familiarisation avec l’environnement Hadoop et la maitrise de nouvelles technologies,
MapReduce, HDFS et NoSQL. Pour atteindre cet objectif on a spécifié la notion de chaque
terme de ce thème et décrit les principales technologies utilisées, et conçu et réalisé une
infrastructure pour le stockage et le traitement des gros volumes de données non
structurées en proposant une étude de cas dans le domaine de commerce électronique.Note de contenu : Table des matières
Résume ..................................................................................................................................I
Introduction Générale ........................................................................................................ 9
Chapitre 1 : le Big Data ............................................................................................. 11
1. Introduction............................................................................................................. 11
2. Historique et contexte ............................................................................................. 11
3. Problématique ......................................................................................................... 12
4. Définition de Big Data ........................................................................................... 12
5. Les caractéristiques de Big Data .............................................................................13
5.1. Le volume ................................................................................................... 13
5.2. La vitesse .................................................................................................... 14
5.3. Variété ........................................................................................................ 14
5.4. Au-delà des 3v: les 5v .................................................................................14
6. Les principales technologies de Big Data ...............................................................15
6.1. Les bases NoSQL ........................................................................................15
6.1.1. Historique .............................................................................................. 15
6.1.2. Définition .............................................................................................. 15
6.1.3. Pourquoi NoSQL? ................................................................................ 16
6.1.4. Caractéristiques des bases NoSQL ....................................................... 17
6.1.5. Les types de bases NoSQL ................................................................... 18
6.1.6. Avantages NoSQL ................................................................................ 21
6.2. MapReduce ................................................................................................. 22
6.3. Hadoop ....................................................................................................... 22
6.4. Cloud computing ........................................................................................ 22
6.5. La visualisation ............................................................................................23
7. Quelques domaines d'utilisation de Big Data ..........................................................24
8. Conclusion .............................................................................................................. 24
Chapitre 2: Composants d'Hadoop ..................................................................... 25
1. Introduction............................................................................................................. 25
2. Défis technique de big data .....................................................................................25
3. Présentation d'Hadoop ............................................................................................ 25
3.1. Définition .................................................................................................... 26
3.2. Outils composants le noyau Hadoop .......................................................... 27
3.2.1. HDFS (Distributed File System) .................................................... 27
3.2.1.1. Architecture HDFS ......................................................................... 27
3.2.1.2. Lecture d4un fichier HDFS............................................................. 28
3.2.1.3. Ecriture dans un fichier HDFS ....................................................... 29
3.2.2. MapReduce .................................................................................... 29
3.2.2.1. Définition et fonctionnement .......................................................... 29
3.2.2.2. MapReduce dans Hadoop ............................................................... 31
3.2.2.3. MapReduce et HDFS ...................................................................... 32
3.2.2.4. Caractéristiques MapReduce .......................................................... 32
3.2.3. HBase ............................................................................................. 33
3.3. Les outils de requetage et de scripting des données dans Hadoop ............ 33
3.3.1. Hive ................................................................................................ 33
3.3.2. Pig .................................................................................................. 33
3.4. L'outil d'intégration SGBD-R (relationnel) Scoop (Cloudra) .................... 34
3.5. Les outils de gestion et de supervision du cluster Hadoop ......................... 34
3.5.1. Zookeeper ........................................................................................34
3.6. Outil d'ordonnancement et de coordination: Apache Oozie (yahoo) ......... 34
4. Domaines d'utilisation d'Hadoop ........................................................................... 34
5. Avantages d'Hadoop .............................................................................................. 35
6. Conlusion ............................................................................................................... 36
Chapitre 3: conception .............................................................................................. 37
1. Introduction............................................................................................................. 37
2. Présentation d'UML ................................................................................................37
2.1. Star UML …………………...................................................................... 37
2.2. Les différentes types des diagrammes ……………….............................. 37
2.2.1. Diagramme de cas d'utilisation ....................................................... 37
2.2.2. Diagramme d'activité ………………….......................................... 37
2.2.3. Diagramme de séquence …………………..................................... 38
2.2.4. Diagramme de classe ………………….......................................... 38
2.2.5. Diagramme de déploiement …………………................................ 38
3. Big Data dans le commerce électronique …………………................................... 38
3.1. Description de système …………………................................................. 38
4. Mettre en place la bonne infrastructure …………………...................................... 40
5. Déploiement des composants …………..……....................................................... 42
5.1. Structure des données de système.............................................................. 42
5.1.1. Les bases NoSQL…………............................................................. 42
5.2. Algorithme MapReduce ..…...................................................................... 42
5.2.1. Etapes de fonctionnement de MapReduce ………………….......... 43
5.2.2. Pseudo code MapReduce ………………….................................... 43
5.2.3. Exemple illustrative …………………............................................ 44
6. Les diagrammes …………………......................................................................... 46
6.1. Diagramme de cas d'utilisation.................................................................. 46
6.2. Diagramme d'activité ………………….................................................... 47
6.3. Diagramme de séquence …………………............................................... 47
6.3.1. Diagramme de séquence d'Hadoop Mapreduce ………………….. 47
6.4. Diagramme de classe de déroulement de la requête …………………..... 48
6.5. Diagramme de classe ………………….................................................... 50
7. Conclusion
Chapitre 4: Réalisation ................................................................ 51
1. Introduction ............................................................................................................ 51
2. Description de la solution proposée ........................................................................51
3. L'environnement de travail ..................................................................................... 51
3.1. Choix technologique et mise en œuvre …………...…………………..... 51
3.1.1. Système d'exploitation …………………......…………………..... 52
3.1.2. Outil de développement …………...…………………................... 52
4. Expérimentation …………………………………….……...…………………..... 53
4.1. Le code Java …………...……………………………………………..... 53
5. Le job: MaxVente …………...………………….................................................... 54
6. Les fenêtres d'application …………………………...……...…………………..... 58
7. Conclusion …………...…………………………………………………………... 61
Conlusion générale …………...…………………............................................................ 63
BibliographieCôte titre : MAI/0095 En ligne : https://drive.google.com/file/d/1xf3Ql52Vf-7Hye47L118e8YXZS76N3oK/view?usp=shari [...] Format de la ressource électronique : Infrastructure pour le Big Data [texte imprimé] / BENSAAD, Salima ; SAIDI,MOHAMED, Directeur de thèse . - [S.l.] : Setif:UFA, 2016 . - 1 vol (66f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Génie Logiciel
Big Data
écosystème Hadoop
MapReduce
HDFS
NoSQLIndex. décimale : 004 Informatique Résumé : Résumé:
Le Big Data regroupe plusieurs nouvelles technologies et d’outils pour répondre Ã
un triple problématique: un volume de données important à traiter, une grande variété
d’informations et un certain niveau de vélocité à atteindre. Pour répondre à ces besoins, il
s'avère que l'écosystème Hadoop serait la solution open source par excellence. Notre
objectif est de mettre en œuvre une architecture d'Hadoop et montrer l’influence du
parallélisme sur les performances globales du système, d’un côté, d’un autre côté, la
familiarisation avec l’environnement Hadoop et la maitrise de nouvelles technologies,
MapReduce, HDFS et NoSQL. Pour atteindre cet objectif on a spécifié la notion de chaque
terme de ce thème et décrit les principales technologies utilisées, et conçu et réalisé une
infrastructure pour le stockage et le traitement des gros volumes de données non
structurées en proposant une étude de cas dans le domaine de commerce électronique.Note de contenu : Table des matières
Résume ..................................................................................................................................I
Introduction Générale ........................................................................................................ 9
Chapitre 1 : le Big Data ............................................................................................. 11
1. Introduction............................................................................................................. 11
2. Historique et contexte ............................................................................................. 11
3. Problématique ......................................................................................................... 12
4. Définition de Big Data ........................................................................................... 12
5. Les caractéristiques de Big Data .............................................................................13
5.1. Le volume ................................................................................................... 13
5.2. La vitesse .................................................................................................... 14
5.3. Variété ........................................................................................................ 14
5.4. Au-delà des 3v: les 5v .................................................................................14
6. Les principales technologies de Big Data ...............................................................15
6.1. Les bases NoSQL ........................................................................................15
6.1.1. Historique .............................................................................................. 15
6.1.2. Définition .............................................................................................. 15
6.1.3. Pourquoi NoSQL? ................................................................................ 16
6.1.4. Caractéristiques des bases NoSQL ....................................................... 17
6.1.5. Les types de bases NoSQL ................................................................... 18
6.1.6. Avantages NoSQL ................................................................................ 21
6.2. MapReduce ................................................................................................. 22
6.3. Hadoop ....................................................................................................... 22
6.4. Cloud computing ........................................................................................ 22
6.5. La visualisation ............................................................................................23
7. Quelques domaines d'utilisation de Big Data ..........................................................24
8. Conclusion .............................................................................................................. 24
Chapitre 2: Composants d'Hadoop ..................................................................... 25
1. Introduction............................................................................................................. 25
2. Défis technique de big data .....................................................................................25
3. Présentation d'Hadoop ............................................................................................ 25
3.1. Définition .................................................................................................... 26
3.2. Outils composants le noyau Hadoop .......................................................... 27
3.2.1. HDFS (Distributed File System) .................................................... 27
3.2.1.1. Architecture HDFS ......................................................................... 27
3.2.1.2. Lecture d4un fichier HDFS............................................................. 28
3.2.1.3. Ecriture dans un fichier HDFS ....................................................... 29
3.2.2. MapReduce .................................................................................... 29
3.2.2.1. Définition et fonctionnement .......................................................... 29
3.2.2.2. MapReduce dans Hadoop ............................................................... 31
3.2.2.3. MapReduce et HDFS ...................................................................... 32
3.2.2.4. Caractéristiques MapReduce .......................................................... 32
3.2.3. HBase ............................................................................................. 33
3.3. Les outils de requetage et de scripting des données dans Hadoop ............ 33
3.3.1. Hive ................................................................................................ 33
3.3.2. Pig .................................................................................................. 33
3.4. L'outil d'intégration SGBD-R (relationnel) Scoop (Cloudra) .................... 34
3.5. Les outils de gestion et de supervision du cluster Hadoop ......................... 34
3.5.1. Zookeeper ........................................................................................34
3.6. Outil d'ordonnancement et de coordination: Apache Oozie (yahoo) ......... 34
4. Domaines d'utilisation d'Hadoop ........................................................................... 34
5. Avantages d'Hadoop .............................................................................................. 35
6. Conlusion ............................................................................................................... 36
Chapitre 3: conception .............................................................................................. 37
1. Introduction............................................................................................................. 37
2. Présentation d'UML ................................................................................................37
2.1. Star UML …………………...................................................................... 37
2.2. Les différentes types des diagrammes ……………….............................. 37
2.2.1. Diagramme de cas d'utilisation ....................................................... 37
2.2.2. Diagramme d'activité ………………….......................................... 37
2.2.3. Diagramme de séquence …………………..................................... 38
2.2.4. Diagramme de classe ………………….......................................... 38
2.2.5. Diagramme de déploiement …………………................................ 38
3. Big Data dans le commerce électronique …………………................................... 38
3.1. Description de système …………………................................................. 38
4. Mettre en place la bonne infrastructure …………………...................................... 40
5. Déploiement des composants …………..……....................................................... 42
5.1. Structure des données de système.............................................................. 42
5.1.1. Les bases NoSQL…………............................................................. 42
5.2. Algorithme MapReduce ..…...................................................................... 42
5.2.1. Etapes de fonctionnement de MapReduce ………………….......... 43
5.2.2. Pseudo code MapReduce ………………….................................... 43
5.2.3. Exemple illustrative …………………............................................ 44
6. Les diagrammes …………………......................................................................... 46
6.1. Diagramme de cas d'utilisation.................................................................. 46
6.2. Diagramme d'activité ………………….................................................... 47
6.3. Diagramme de séquence …………………............................................... 47
6.3.1. Diagramme de séquence d'Hadoop Mapreduce ………………….. 47
6.4. Diagramme de classe de déroulement de la requête …………………..... 48
6.5. Diagramme de classe ………………….................................................... 50
7. Conclusion
Chapitre 4: Réalisation ................................................................ 51
1. Introduction ............................................................................................................ 51
2. Description de la solution proposée ........................................................................51
3. L'environnement de travail ..................................................................................... 51
3.1. Choix technologique et mise en œuvre …………...…………………..... 51
3.1.1. Système d'exploitation …………………......…………………..... 52
3.1.2. Outil de développement …………...…………………................... 52
4. Expérimentation …………………………………….……...…………………..... 53
4.1. Le code Java …………...……………………………………………..... 53
5. Le job: MaxVente …………...………………….................................................... 54
6. Les fenêtres d'application …………………………...……...…………………..... 58
7. Conclusion …………...…………………………………………………………... 61
Conlusion générale …………...…………………............................................................ 63
BibliographieCôte titre : MAI/0095 En ligne : https://drive.google.com/file/d/1xf3Ql52Vf-7Hye47L118e8YXZS76N3oK/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0095 MAI/0095 Mémoire Bibliothéque des sciences Français Disponible
Disponible