University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Ben Ferhat ,Saliha |
Documents disponibles écrits par cet auteur
Ajouter le résultat dans votre panier Affiner la recherche
Titre : Séquences fréquentes Type de document : texte imprimé Auteurs : Ben Ferhat ,Saliha, Auteur ; Kamel, Nadjet, Directeur de thèse Editeur : Setif:UFA Année de publication : 2018 Importance : 1 vol (55 f .) Format : 29 cm Langues : Français (fre) Langues originales : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : fouille de données
Extraction motifs séquentielsIndex. décimale : 004 Informatique Résumé : Résumé
Dans le domaine de la fouille de données, l'extraction de motifs séquentiels est devenue,
depuis son introduction, une technique majeure avec de nombreuses applications (analyse du
comportement des consommateurs, bio-informatique, sécurité, etc.).
Il existe de nombreux algorithmes permettant l’extraction de tels motifs. Ces propositions
utilisent essentiellement deux méthodes, la première est basée sur le principe d’une recherche
horizontale dans la base de données et qui s'inspire de la méthode traditionnelle Apriori. Et la
deuxième utilise une recherche verticale très bien adaptée à cette problématique. Dans ce
projet, nous appliquons des algorithmes d'extraction de motifs séquentiels sur des données
réelles afin d’évaluer leurs performances.Note de contenu :
Sommaire
1. Introduction ....................................................................................................... 1
2. Historiques ......................................................................................................... 1
3. Définitions ......................................................................................................... 2
3.1 Définitions1 ................................................................................................. 2
3.2 Définition2 ................................................................................................... 2
4. Extraction de connaissance à partir de données ................................................ 3
5. Domaines d’application du Data Mining .......................................................... 3
6. Techniques du Data Mining .............................................................................. 4
6.1 Arbres de décision ....................................................................................... 4
6.2 Réseaux de neurones .................................................................................... 5
6.3 Règles d’association .................................................................................... 5
6.4 Analyse de liens ........................................................................................... 6
6.5 Plus proches voisins ..................................................................................... 6
6.6 Motifs séquentiels ........................................................................................ 6
6.7 Les algorithmes génétiques.......................................................................... 7
7. Les types de données qui sont utilisées par la fouille de données .................... 7
7.1 Base de données ........................................................................................... 8
7.2 "Flat file" les fichiers plats .......................................................................... 8
7.3 Entrepôts de données (data warehouses) ..................................................... 8
7.4 Données transactionnelles ........................................................................... 8
7.5 Les bases de données spatiales .................................................................... 8
7.6 Les bases de données multimédia ................................................................ 9
8. Tâches du Data Mining ..................................................................................... 9
8.1 Association ................................................................................................... 9
8.2 Prédiction ..................................................................................................... 9
8.3 Segmentation (analyse des clusters) .......................................................... 10
8.4 Classification ............................................................................................. 10
8.5 Description ................................................................................................. 10
8.6 L’estimation .............................................................................................. 11
9. Conclusion ....................................................................................................... 11
chapitre 2: séquences fréquentes
1. Introduction ..................................................................................................... 13
2. Définitions ....................................................................................................... 13
3. Notions fondamental .................................................................................... 16
4. Extraction les motifs séquentiels .................................................................... 17
Méthodes horizontales .................................................................................... 17
4.1 Algorithme GSP ..................................................................................... 17
4.1.1 Génération de séquences candidat ...................................................... 18
4.1.2 Algorithme GSP .................................................................................. 21
4.1.3 Calcul des supports .............................................................................. 21
4.1.4 Les limites de GSP .............................................................................. 23
Méthode verticale ................................................................................................ 23
4.2 Algorithme SPADE ................................................................................... 23
4.2.1 Principe de base .................................................................................. 24
4.2.2 Occurrence d’une séquence ................................................................ 24
4.2.3 Algorithme SPADE ............................................................................. 26
4.2.4 Limites de L’algorithme SPADE ........................................................ 27
Méthodes par projection (basées sur parcours en profondeur) ........................ 28
4.3 Algorithm PREFIX SPAN ......................................................................... 28
4.3.1 Principe de base ................................................................................... 29
4.3.2 Algorithme PRIFIXSPAN................................................................... 31
4.3.3 Limites de L’algorithme PREFIX−SPAN ......................................... 31
4.4 L’algorithme SPAM .................................................................................. 31
4.4.1 Principe de base ................................................................................... 32
4.4.2 Représentation en vecteurs de bits verticaux des séquences candidates.32
4.4.4 Algorithme SPAM ............................................................................... 33
4.4.5 Calcul des supports .............................................................................. 35
4.4.6 Limites de L’algorithme SPAM .......................................................... 35
4.5 L’algorithme PSP ....................................................................................... 36
4.5.1 Limites de PSP .................................................................................... 38
5. Comparaison caractéristique entre les algorithmes ........................................ 38
6. Conclusion ...................................................................................................... 39
Chapitre 3: analyse et comparaison
1. Introduction ..................................................................................................... 41
2. Les algorithmes de séquences fréquente ........................................................ 41
2.1 Algorithme GSP ......................................................................................... 41
2.1.1 Avantage .............................................................................................. 41
2.1.2 Inconvénient ........................................................................................ 41
2.2 Algorithme SPADE ................................................................................... 42
2.2.1 Avantage .............................................................................................. 42
2.2.2 Inconvénient ........................................................................................ 42
2.3 Algorithme SPAM .................................................................................. 43
2.3.1 Avantage .............................................................................................. 43
2.3.2 Inconvénient ........................................................................................ 43
2.4 Algorithme PREFIX SPAN ....................................................................... 43
2.4.1 Avantage .............................................................................................. 44
2.4.2 Inconvénient ........................................................................................ 44
3. Outils de développement ................................................................................. 44
3.1 NetBeans .................................................................................................... 44
3.1.1 Plate-forme NetBeans ......................................................................... 45
3.2 Le langage Java .......................................................................................... 45
3.2.1 Les caractéristiques du Java ............................................................... 45
3.3 Package jfreechart ...................................................................................... 46
3.4 Une bibliothèque de données extra-source ................................................ 46
4. Description de la base de Données .................................................................. 46
5. Description de l’application ............................................................................ 48
5.1 Les scénario des algorithmes ..................................................................... 50
5.1.1 Le scénario d’algorithme prefixspan ................................................... 50
5.1.2 Le scénario d’algorithme Spam .......................................................... 50
6. Exécution les algorithmes .............................................................................. 50
6.1 Résultat de l’exclusion ............................................................................... 51
7. Comparaison ................................................................................................... 52
8. Conclusion ...................................................................................................... 53
Conclusion générale ............................................................................................ 54
BIBLIOGRAPHIE .............................................................................................. 55Côte titre : MAI/0263 En ligne : https://drive.google.com/file/d/16-D4QMhKmAOy8PwTjaL-qfhuq0fzc6YH/view?usp=shari [...] Format de la ressource électronique : Séquences fréquentes [texte imprimé] / Ben Ferhat ,Saliha, Auteur ; Kamel, Nadjet, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (55 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : fouille de données
Extraction motifs séquentielsIndex. décimale : 004 Informatique Résumé : Résumé
Dans le domaine de la fouille de données, l'extraction de motifs séquentiels est devenue,
depuis son introduction, une technique majeure avec de nombreuses applications (analyse du
comportement des consommateurs, bio-informatique, sécurité, etc.).
Il existe de nombreux algorithmes permettant l’extraction de tels motifs. Ces propositions
utilisent essentiellement deux méthodes, la première est basée sur le principe d’une recherche
horizontale dans la base de données et qui s'inspire de la méthode traditionnelle Apriori. Et la
deuxième utilise une recherche verticale très bien adaptée à cette problématique. Dans ce
projet, nous appliquons des algorithmes d'extraction de motifs séquentiels sur des données
réelles afin d’évaluer leurs performances.Note de contenu :
Sommaire
1. Introduction ....................................................................................................... 1
2. Historiques ......................................................................................................... 1
3. Définitions ......................................................................................................... 2
3.1 Définitions1 ................................................................................................. 2
3.2 Définition2 ................................................................................................... 2
4. Extraction de connaissance à partir de données ................................................ 3
5. Domaines d’application du Data Mining .......................................................... 3
6. Techniques du Data Mining .............................................................................. 4
6.1 Arbres de décision ....................................................................................... 4
6.2 Réseaux de neurones .................................................................................... 5
6.3 Règles d’association .................................................................................... 5
6.4 Analyse de liens ........................................................................................... 6
6.5 Plus proches voisins ..................................................................................... 6
6.6 Motifs séquentiels ........................................................................................ 6
6.7 Les algorithmes génétiques.......................................................................... 7
7. Les types de données qui sont utilisées par la fouille de données .................... 7
7.1 Base de données ........................................................................................... 8
7.2 "Flat file" les fichiers plats .......................................................................... 8
7.3 Entrepôts de données (data warehouses) ..................................................... 8
7.4 Données transactionnelles ........................................................................... 8
7.5 Les bases de données spatiales .................................................................... 8
7.6 Les bases de données multimédia ................................................................ 9
8. Tâches du Data Mining ..................................................................................... 9
8.1 Association ................................................................................................... 9
8.2 Prédiction ..................................................................................................... 9
8.3 Segmentation (analyse des clusters) .......................................................... 10
8.4 Classification ............................................................................................. 10
8.5 Description ................................................................................................. 10
8.6 L’estimation .............................................................................................. 11
9. Conclusion ....................................................................................................... 11
chapitre 2: séquences fréquentes
1. Introduction ..................................................................................................... 13
2. Définitions ....................................................................................................... 13
3. Notions fondamental .................................................................................... 16
4. Extraction les motifs séquentiels .................................................................... 17
Méthodes horizontales .................................................................................... 17
4.1 Algorithme GSP ..................................................................................... 17
4.1.1 Génération de séquences candidat ...................................................... 18
4.1.2 Algorithme GSP .................................................................................. 21
4.1.3 Calcul des supports .............................................................................. 21
4.1.4 Les limites de GSP .............................................................................. 23
Méthode verticale ................................................................................................ 23
4.2 Algorithme SPADE ................................................................................... 23
4.2.1 Principe de base .................................................................................. 24
4.2.2 Occurrence d’une séquence ................................................................ 24
4.2.3 Algorithme SPADE ............................................................................. 26
4.2.4 Limites de L’algorithme SPADE ........................................................ 27
Méthodes par projection (basées sur parcours en profondeur) ........................ 28
4.3 Algorithm PREFIX SPAN ......................................................................... 28
4.3.1 Principe de base ................................................................................... 29
4.3.2 Algorithme PRIFIXSPAN................................................................... 31
4.3.3 Limites de L’algorithme PREFIX−SPAN ......................................... 31
4.4 L’algorithme SPAM .................................................................................. 31
4.4.1 Principe de base ................................................................................... 32
4.4.2 Représentation en vecteurs de bits verticaux des séquences candidates.32
4.4.4 Algorithme SPAM ............................................................................... 33
4.4.5 Calcul des supports .............................................................................. 35
4.4.6 Limites de L’algorithme SPAM .......................................................... 35
4.5 L’algorithme PSP ....................................................................................... 36
4.5.1 Limites de PSP .................................................................................... 38
5. Comparaison caractéristique entre les algorithmes ........................................ 38
6. Conclusion ...................................................................................................... 39
Chapitre 3: analyse et comparaison
1. Introduction ..................................................................................................... 41
2. Les algorithmes de séquences fréquente ........................................................ 41
2.1 Algorithme GSP ......................................................................................... 41
2.1.1 Avantage .............................................................................................. 41
2.1.2 Inconvénient ........................................................................................ 41
2.2 Algorithme SPADE ................................................................................... 42
2.2.1 Avantage .............................................................................................. 42
2.2.2 Inconvénient ........................................................................................ 42
2.3 Algorithme SPAM .................................................................................. 43
2.3.1 Avantage .............................................................................................. 43
2.3.2 Inconvénient ........................................................................................ 43
2.4 Algorithme PREFIX SPAN ....................................................................... 43
2.4.1 Avantage .............................................................................................. 44
2.4.2 Inconvénient ........................................................................................ 44
3. Outils de développement ................................................................................. 44
3.1 NetBeans .................................................................................................... 44
3.1.1 Plate-forme NetBeans ......................................................................... 45
3.2 Le langage Java .......................................................................................... 45
3.2.1 Les caractéristiques du Java ............................................................... 45
3.3 Package jfreechart ...................................................................................... 46
3.4 Une bibliothèque de données extra-source ................................................ 46
4. Description de la base de Données .................................................................. 46
5. Description de l’application ............................................................................ 48
5.1 Les scénario des algorithmes ..................................................................... 50
5.1.1 Le scénario d’algorithme prefixspan ................................................... 50
5.1.2 Le scénario d’algorithme Spam .......................................................... 50
6. Exécution les algorithmes .............................................................................. 50
6.1 Résultat de l’exclusion ............................................................................... 51
7. Comparaison ................................................................................................... 52
8. Conclusion ...................................................................................................... 53
Conclusion générale ............................................................................................ 54
BIBLIOGRAPHIE .............................................................................................. 55Côte titre : MAI/0263 En ligne : https://drive.google.com/file/d/16-D4QMhKmAOy8PwTjaL-qfhuq0fzc6YH/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0263 MAI/0263 Mémoire Bibliothéque des sciences Français Disponible
Disponible