Titre : |
Coordinated Snapshot Algorithm for Distributed Computing Systems |
Type de document : |
texte imprimé |
Auteurs : |
Bouzidi, Yasmine, Auteur ; Mansouri,Hossem, Directeur de thèse |
Editeur : |
Setif:UFA |
Année de publication : |
2018 |
Importance : |
1 vol (50 f .) |
Format : |
29 cm |
Langues : |
Français (fre) Langues originales : Français (fre) |
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Système distribué
Sûreté de Fonctionnement
Tolérance aux pannes
Point de contrôle coordonné non bloquant
ing |
Index. décimale : |
004 - Informatique |
Résumé : |
Résumé
La restauration de restauration dans les systèmes répartis est importante pour le calcul tolérant aux pannes. Sans tolérance de panne
mécanismes, une application fonctionnant sur un système doit être restaurée à partir de zéro si une erreur se produit dans le
milieu de son exécution, entraînant une perte de l'informatique utile. Pour fournir une restauration de restauration e? Cient pour
la tolérance aux pannes dans les systèmes distribués, il est important de réduire le nombre de points de contrôle dans l'existence
de points globaux cohérents dans des algorithmes de points distribués coordonnés.
La saisie coordonnée est une approche attrayante pour ajouter de manière transparente la tolérance aux pannes
applications attribuées car elle évite les effets domino et minimise l'exigence de stockage stable. Cependant,
il subit des frais généraux élevés associés au processus de cartographie dans les systèmes informatiques mobiles. Deux
Des approches ont été utilisées pour réduire les frais généraux: d'abord, réduire le nombre de mes-
les sages et le nombre de points de contrôle; l'autre est de rendre le processus de surveillance non bloquant. Dans ce
Nous introduisons le concept du checkpoint mutable, qui est soit un point de contrôle provisoire, soit un
point de contrôle, pour concevoir des algorithmes e-cient de points de contrôle. Les points muets peuvent être sauvegardés n'importe où.
De cette façon, prendre un point de contrôle mutable évite le transfert de grandes quantités de données vers
stockage stable. Nous présentons des techniques pour minimiser le nombre de points de contrôle mutables. Résultats de simulation
de Cao et de l'algorithme singhal montrent que l'overhead de prendre des checkpoints mutables est négligeable. Basé
sur des points de contrôle mutables, notre algorithme de non-blocage évite l'effet d'avalanche et ne force qu'un minimum
nombre de processus pour prendre leurs points sur le stockage stable. |
Note de contenu : |
Sommaire
Introduction 6
1 Dependability and Fault Tolerance in Distributed Systems 7
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Dependability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Dependability Impairments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1.1 Fault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1.2 Errors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1.3 Failures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Dependability attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Means to Attain Dependability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3.1 Fault prevention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3.2 Fault tolerance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3.3 Fault removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3.4 Fault forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Failure classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Fault Tolerance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Error Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1.1 Redundancy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.2 Recovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2.1 Error Handling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2.2 Fault Handling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Fault tolerance in distributed system . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Distributed Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1.1 Distributed System Architecture . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5.2 Fault tolerance techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.2.1 Fault tolerance by replication . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.2.2 Fault tolerance by stable storage . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Checkpointing Techniques 22
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Backgrounds and Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Checkpointing techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Checkpoint-Based Recovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1.1 Coordinated checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1.2 Uncoordinated checkpointing . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1.3 Communication induced checkpointing . . . . . . . . . . . . . . . . . . . . . 26
2.3.2 Log Based . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.2.1 Pessimistic logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.2.2 Optimistic logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2.3 Causal logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Checkpointing Techniques Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 Checkpointing Algorithms Classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.1 Classication tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 Coordinated Checkpointing Algorithms 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 ChkSim : A Distributed Checkpointing Simulator . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 ChkSim Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2.1 Jdom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2.2 Junit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2.3 Apache ant(Another Neat Tool) . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2.4 Gnuplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.3 Simulation Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.4 Software Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.5 Load Generator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.6 Statistic Load Generator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.7 Simulator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.8 Simulator Runner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Cao and Singhal Checkpointing Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1.1 The Basic Idea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 The Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2.1 Checkpointing Initiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2.2 Reception of a Checkpoint Request . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2.3 Computation Messages Received during Checkpointing . . . . . . . . . . . . 42
3.3.2.4 Termination and Garbage Collection . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.2.5 Instead of Broadcasting commit Messages to All Processes . . . . . . . . . . 43
3.3.3 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Conclusion 47
|
Côte titre : |
MAI/0267 |
En ligne : |
https://drive.google.com/file/d/1v9BIJRc_uow9ZDl-CZC9nKSzD5X8jCvw/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
Coordinated Snapshot Algorithm for Distributed Computing Systems [texte imprimé] / Bouzidi, Yasmine, Auteur ; Mansouri,Hossem, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (50 f .) ; 29 cm. Langues : Français ( fre) Langues originales : Français ( fre)
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Système distribué
Sûreté de Fonctionnement
Tolérance aux pannes
Point de contrôle coordonné non bloquant
ing |
Index. décimale : |
004 - Informatique |
Résumé : |
Résumé
La restauration de restauration dans les systèmes répartis est importante pour le calcul tolérant aux pannes. Sans tolérance de panne
mécanismes, une application fonctionnant sur un système doit être restaurée à partir de zéro si une erreur se produit dans le
milieu de son exécution, entraînant une perte de l'informatique utile. Pour fournir une restauration de restauration e? Cient pour
la tolérance aux pannes dans les systèmes distribués, il est important de réduire le nombre de points de contrôle dans l'existence
de points globaux cohérents dans des algorithmes de points distribués coordonnés.
La saisie coordonnée est une approche attrayante pour ajouter de manière transparente la tolérance aux pannes
applications attribuées car elle évite les effets domino et minimise l'exigence de stockage stable. Cependant,
il subit des frais généraux élevés associés au processus de cartographie dans les systèmes informatiques mobiles. Deux
Des approches ont été utilisées pour réduire les frais généraux: d'abord, réduire le nombre de mes-
les sages et le nombre de points de contrôle; l'autre est de rendre le processus de surveillance non bloquant. Dans ce
Nous introduisons le concept du checkpoint mutable, qui est soit un point de contrôle provisoire, soit un
point de contrôle, pour concevoir des algorithmes e-cient de points de contrôle. Les points muets peuvent être sauvegardés n'importe où.
De cette façon, prendre un point de contrôle mutable évite le transfert de grandes quantités de données vers
stockage stable. Nous présentons des techniques pour minimiser le nombre de points de contrôle mutables. Résultats de simulation
de Cao et de l'algorithme singhal montrent que l'overhead de prendre des checkpoints mutables est négligeable. Basé
sur des points de contrôle mutables, notre algorithme de non-blocage évite l'effet d'avalanche et ne force qu'un minimum
nombre de processus pour prendre leurs points sur le stockage stable. |
Note de contenu : |
Sommaire
Introduction 6
1 Dependability and Fault Tolerance in Distributed Systems 7
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Dependability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Dependability Impairments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1.1 Fault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1.2 Errors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1.3 Failures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Dependability attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Means to Attain Dependability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3.1 Fault prevention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3.2 Fault tolerance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3.3 Fault removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3.4 Fault forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Failure classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Fault Tolerance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Error Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1.1 Redundancy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.2 Recovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2.1 Error Handling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2.2 Fault Handling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Fault tolerance in distributed system . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Distributed Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1.1 Distributed System Architecture . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5.2 Fault tolerance techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.2.1 Fault tolerance by replication . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.2.2 Fault tolerance by stable storage . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Checkpointing Techniques 22
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Backgrounds and Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Checkpointing techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Checkpoint-Based Recovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1.1 Coordinated checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1.2 Uncoordinated checkpointing . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1.3 Communication induced checkpointing . . . . . . . . . . . . . . . . . . . . . 26
2.3.2 Log Based . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.2.1 Pessimistic logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.2.2 Optimistic logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2.3 Causal logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Checkpointing Techniques Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 Checkpointing Algorithms Classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.1 Classication tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 Coordinated Checkpointing Algorithms 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 ChkSim : A Distributed Checkpointing Simulator . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 ChkSim Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2.1 Jdom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2.2 Junit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2.3 Apache ant(Another Neat Tool) . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2.4 Gnuplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.3 Simulation Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.4 Software Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.5 Load Generator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.6 Statistic Load Generator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.7 Simulator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.8 Simulator Runner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Cao and Singhal Checkpointing Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1.1 The Basic Idea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 The Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2.1 Checkpointing Initiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2.2 Reception of a Checkpoint Request . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2.3 Computation Messages Received during Checkpointing . . . . . . . . . . . . 42
3.3.2.4 Termination and Garbage Collection . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.2.5 Instead of Broadcasting commit Messages to All Processes . . . . . . . . . . 43
3.3.3 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Conclusion 47
|
Côte titre : |
MAI/0267 |
En ligne : |
https://drive.google.com/file/d/1v9BIJRc_uow9ZDl-CZC9nKSzD5X8jCvw/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
|