University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur A Moussaoui |
Documents disponibles écrits par cet auteur
Ajouter le résultat dans votre panier Affiner la recherche
Titre : Apprentissage automatique dans les réseaux sociaux Type de document : texte imprimé Auteurs : Kebbab,naouel ; A Moussaoui, Directeur de thèse Editeur : Setif:UFA Année de publication : 2016 Importance : 1 vol (52f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Réseaux
Systèmes Distribués
apprentissage automatique
réseaux sociauxIndex. décimale : 004 Informatique Résumé : Résumé
Dans les grands réseaux, la détection de sous-ensembles de sommets plus densément
connectés que d’autres, appelés des communautés, est un problème que l’on retrouve dans
plusieurs disciplines : Biologie (réseaux d’interactions entre protéines), Informatique
(recherche d’informations sur le Web), mais aussi, Sociologie (groupes dans des réseaux
sociaux). Ces communautés jouent un rôle important dans l’organisation ou la structuration
des réseaux.
De fait, il s’agit de déterminer des classes dans un graphe. Ce problème est donc
fortement lié à celui du partitionnement, avec la spécificité suivante : suivant l’usage que
l’on veut faire de ces communautés, les classes peuvent (doivent) être disjointes ou non. En
Biologie, où l’on analyse les réseaux d’interactions protéine-protéine pour, entre autres,
prédire leurs fonctions, nombreuses sont celles qui ont plusieurs fonctions et dans ce cas il
est raisonnable de construire non pas une partition, mais un recouvrement, c’est à dire un
système de classes chevauchantes. Il en est de même dans les réseaux sociaux, où les
individus peuvent appartenir à plusieurs groupes.
Ainsi, les méthodes traditionnelles en Classification peuvent être utilisées ; en
particulier les méthodes de construction d’une partition des sommets du graphe qui
maximisent un certain critère. Parmi les nombreux critères qui évaluent la qualité d’une
partition, nous ne faisons ici référence qu’à la notion de modularité introduite par
Newman. Malheureusement, son optimisation sur l’ensemble de toutes les partitions des
sommets d’un graphe est un problème NP-difficile ; il en est évidemment de même pour
les recouvrements. Il faut donc utiliser des méthodes heuristiques, dès lors que les graphes
étudiés sont de grande taille. Dans ce mémoire, nous proposons deux méthodes
approchées, l’une pour les partitions, qui permet d’optimiser la modularité (VOS
Clustering) basée sur l'algorithme de Louvain, qui est actuellement le meilleur algorithme
en termes de complexité, d’efficacité pour calculer des communautés sur de très grands
graphes. L’autre pour les recouvrements, Elle est basée sur la première approche pour le
nombre de communautés défini pour détecter les communautés chevauchantes.
Cette approche originale basée sur les techniques de Data Mining pour l’extraction
des connaissances, est l’algorithme FCM (Fuzzy C-Means).
Une étude de performances, dans laquelle nos méthodes sont testés sur des différents
graphes réels atteste de leur pertinence.Note de contenu : Table des matières
Remerciements
Résumé
Table des matières
Table de figures
Introduction Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..…. 1
1 Data Mining
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 3
1.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Entrepôts de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 4
1.4 Le Data Mining est né de . . . . . . . . . . . . . . . . . . . . . …. . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Data Mining et KDD (Knowledge Data Discovery) . . . .. . . . . . . . . . . . .. . . . . . …. 5
1.6 DM : les raisons du développement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5
1.7 Mise en œuvre d’un projet de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.8 Caractérisation des méthodes de DM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.8.1 DM : une nouvelle conception de la statistique et du rôle des modèles. . . . . . . . .6
1.8.2 Tâches du Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 7
1.8.2.1 Classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.8.2.2 Clustering(Segmentation) . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .8
1.8.2.3 Règles d’association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8.2.4 Recherche de séquences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
1.8.2.5 Détection de déviation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . … . . .9
1.9 Techniques et algorithmes de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9.1Classification supervisé. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 10
1.9.1.1 Les arbres de décision. . . . . . . . . . . .. . . . . . . . .. . . . . . . . . . . . . . .. . . . . .10
1.9.1.2 Les réseaux de neurones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 11
1.9.1.3 Classification bayésienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.9.1.4 Support Vecteurs Machine(SVM) . . . . . . . . .. .. .. .. . . . . .. .. . . . . . .. .. . . 13
1.9.1.5 k plus proches voisins. . . . .. .. . . . . . .. . . .. . . . . . .. . . . . .. . . .. . .. . . . . .. .13
1.9.2 Classification non-supervisé(Automatique). . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.1 Classification hiérarchique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.2 Classification par densité . . . . . . . . . . . .. . . . . . . . . … .. .. . . .. . . .. .. . . . .15
1.9.2.3 Classification par partition. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .. . . . .16
1.10 Conclusion. . . . . . . . .. . . . . .. . . . . . .. . . . . . . . . . .. . . . . . .. . . .. .. . . . . . . . .. . . 16
2 Détection De Communautés Dans Les Réseaux Sociaux
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Concepts. . . . . . . .. . .. . .. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Qu’est-ce qu’un réseau social. . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17
2.2.2 Communauté . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .. .. . . . . . 18
2.2.3 La détection de communautés. . . . .. . . . . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Exemples de réseaux sociaux . . . . . . . . . . . . . .. . . . . . . . . .. .. . . .. . . . . . . . . . . . . . 18
2.3.1 Club de karaté du Zachary. .. . .. .. . . . . . . .. .. .. . .. . . .. .. . . . . .. . . . . . .. . . ... . 18
2.3.2 Le graphe de Pages Web. . . . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . . 19
2.4 Analyse des réseaux sociaux. . . . . . . . .. . .. . . . . . . . . . . . . . . . . . .. . . . . . . . 19
2.5 Caractéristique d’un réseau social. . . . . . . . . . .. . . . .. . . . . .. .. ... . .. . . . . . . .20
2.5.1 L'Effet petit-monde. . . . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . .. . . . . . . . . . 20
2.5.2 Un coefficient de clustering (transitivité) local élevé. . . . . . . . . . … . . . .. . . . . .21
2.5.3 Clusterisation.. . . .. . . ... . . .. .. . . . . . . . . . . . . . .. . . . . .. . . . . .. . . . .. . . .. .. 21
2.6 Classification des approches de détection de communautés . . . . . .. .. . . . . . . … . 22
2.6.1 Les approches statiques sans recouvrement. . . . . .. . . . . . .. . . .. . . . . . . . . . .22
2.6.1.1 Les approches hiérarchiques .. . . . . . . . . . . . . .. . . . . . . .. . . . . . . . . . . . . .22
A. Approches hiérarchiques ascendantes (agglomératives)…. . . . . .. ... . . . . .22
B. Approches hiérarchiques descendantes (divisives)…….. . . . . . . . . . . . . . .24
2.6.1.2 Approches utilisant des marches aléatoires. . . . . . . . . . . .. . . . . . . . .. . . . .26
2.6.1.3 Approches spectrales . . . . .. .. . . . . . . . . . . . . . . . . . . .. . . . .. . . . . . . . . .27
2.6.2 Les approches statiques avec recouvrement. . . . . . . . . . . .. . . . . . . . . . . . . . . . 27
2.6.2.1 Approches basées sur des cliques. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . 27
2.6.2.2 Approches basées sur la propagation de labels. . . . . .. . . . . . . . .. . . . . . .. .28
2.6.2.3 Approches basées sur des graines. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . .29
2.6.2.4 Autres approches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30
2.6.3 Les approches dynamiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 31
2.6.3.1 Les approches par détections statiques successives. . . . . . . . . . . . . . . . . . .31
A Approches non recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3.2 Les approches par détections statiques informées successives. . . . . . . . . . 32
A Approches non recouvrantes. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Conclusion. .. . . . . . .. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. ..33
3 Contribution Et Algorithmes Etudiés
3.1 Introduction. .. . . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . 33
3.2 Détecter Communautés avec la Méthode VOS Clustering. .. … .. .. .. .. . . .. . .. ..33
3.3 Détecter les recouvrements avec la méthode de Fuzzy -K-means . . . . .. . . . . . . . 36
3.3.1 Avantages. . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . 37
3.3.2 Inconvénients. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . .38
3.4 Contribution. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1 Distances et métriques. .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1.1 Notion de distance .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. 38
3.4.1.2 Quelques types de distances… . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. . 38
3.4.1.3 Similarité… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . 41
3.5 Conclusion… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 42
4 Validation Des Résultats
4.1 Introduction… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2 Implémentation.. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2.1 Java.. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.2.2 NetBeans .. . . . . .. … . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3 Les Benchmarks de Test . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3.1 Benchmark du Club de Karaté Zachary. .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Benchmark du réseau social Southern Women.. . . . . . . . . . . . . . . . . . . . . . . . .44
4.4 Détection de communautés partitionnées et recouvrement. . . . . . . . . . . . . . . 44
4.4.1 Détection de communautés partitionnées.. . .. .. . . . . . . . . . .. . . . . . . . . . . . . .44
4.4.2 Détection et analyse de communautés recouvrantes. . . . . . . . . . . . . . . . . . . . . .48
4.5 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . ..51
Conclusion générale. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . .52
BibliographieCôte titre : MAI/0124 En ligne : https://drive.google.com/file/d/1F406BCC-asu3AvYZrfdiWgPzC0nG9kh1/view?usp=shari [...] Format de la ressource électronique : Apprentissage automatique dans les réseaux sociaux [texte imprimé] / Kebbab,naouel ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2016 . - 1 vol (52f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Réseaux
Systèmes Distribués
apprentissage automatique
réseaux sociauxIndex. décimale : 004 Informatique Résumé : Résumé
Dans les grands réseaux, la détection de sous-ensembles de sommets plus densément
connectés que d’autres, appelés des communautés, est un problème que l’on retrouve dans
plusieurs disciplines : Biologie (réseaux d’interactions entre protéines), Informatique
(recherche d’informations sur le Web), mais aussi, Sociologie (groupes dans des réseaux
sociaux). Ces communautés jouent un rôle important dans l’organisation ou la structuration
des réseaux.
De fait, il s’agit de déterminer des classes dans un graphe. Ce problème est donc
fortement lié à celui du partitionnement, avec la spécificité suivante : suivant l’usage que
l’on veut faire de ces communautés, les classes peuvent (doivent) être disjointes ou non. En
Biologie, où l’on analyse les réseaux d’interactions protéine-protéine pour, entre autres,
prédire leurs fonctions, nombreuses sont celles qui ont plusieurs fonctions et dans ce cas il
est raisonnable de construire non pas une partition, mais un recouvrement, c’est à dire un
système de classes chevauchantes. Il en est de même dans les réseaux sociaux, où les
individus peuvent appartenir à plusieurs groupes.
Ainsi, les méthodes traditionnelles en Classification peuvent être utilisées ; en
particulier les méthodes de construction d’une partition des sommets du graphe qui
maximisent un certain critère. Parmi les nombreux critères qui évaluent la qualité d’une
partition, nous ne faisons ici référence qu’à la notion de modularité introduite par
Newman. Malheureusement, son optimisation sur l’ensemble de toutes les partitions des
sommets d’un graphe est un problème NP-difficile ; il en est évidemment de même pour
les recouvrements. Il faut donc utiliser des méthodes heuristiques, dès lors que les graphes
étudiés sont de grande taille. Dans ce mémoire, nous proposons deux méthodes
approchées, l’une pour les partitions, qui permet d’optimiser la modularité (VOS
Clustering) basée sur l'algorithme de Louvain, qui est actuellement le meilleur algorithme
en termes de complexité, d’efficacité pour calculer des communautés sur de très grands
graphes. L’autre pour les recouvrements, Elle est basée sur la première approche pour le
nombre de communautés défini pour détecter les communautés chevauchantes.
Cette approche originale basée sur les techniques de Data Mining pour l’extraction
des connaissances, est l’algorithme FCM (Fuzzy C-Means).
Une étude de performances, dans laquelle nos méthodes sont testés sur des différents
graphes réels atteste de leur pertinence.Note de contenu : Table des matières
Remerciements
Résumé
Table des matières
Table de figures
Introduction Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..…. 1
1 Data Mining
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 3
1.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Entrepôts de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 4
1.4 Le Data Mining est né de . . . . . . . . . . . . . . . . . . . . . …. . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Data Mining et KDD (Knowledge Data Discovery) . . . .. . . . . . . . . . . . .. . . . . . …. 5
1.6 DM : les raisons du développement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5
1.7 Mise en œuvre d’un projet de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.8 Caractérisation des méthodes de DM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.8.1 DM : une nouvelle conception de la statistique et du rôle des modèles. . . . . . . . .6
1.8.2 Tâches du Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 7
1.8.2.1 Classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.8.2.2 Clustering(Segmentation) . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .8
1.8.2.3 Règles d’association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8.2.4 Recherche de séquences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
1.8.2.5 Détection de déviation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . … . . .9
1.9 Techniques et algorithmes de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9.1Classification supervisé. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 10
1.9.1.1 Les arbres de décision. . . . . . . . . . . .. . . . . . . . .. . . . . . . . . . . . . . .. . . . . .10
1.9.1.2 Les réseaux de neurones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 11
1.9.1.3 Classification bayésienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.9.1.4 Support Vecteurs Machine(SVM) . . . . . . . . .. .. .. .. . . . . .. .. . . . . . .. .. . . 13
1.9.1.5 k plus proches voisins. . . . .. .. . . . . . .. . . .. . . . . . .. . . . . .. . . .. . .. . . . . .. .13
1.9.2 Classification non-supervisé(Automatique). . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.1 Classification hiérarchique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.2 Classification par densité . . . . . . . . . . . .. . . . . . . . . … .. .. . . .. . . .. .. . . . .15
1.9.2.3 Classification par partition. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .. . . . .16
1.10 Conclusion. . . . . . . . .. . . . . .. . . . . . .. . . . . . . . . . .. . . . . . .. . . .. .. . . . . . . . .. . . 16
2 Détection De Communautés Dans Les Réseaux Sociaux
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Concepts. . . . . . . .. . .. . .. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Qu’est-ce qu’un réseau social. . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17
2.2.2 Communauté . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .. .. . . . . . 18
2.2.3 La détection de communautés. . . . .. . . . . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Exemples de réseaux sociaux . . . . . . . . . . . . . .. . . . . . . . . .. .. . . .. . . . . . . . . . . . . . 18
2.3.1 Club de karaté du Zachary. .. . .. .. . . . . . . .. .. .. . .. . . .. .. . . . . .. . . . . . .. . . ... . 18
2.3.2 Le graphe de Pages Web. . . . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . . 19
2.4 Analyse des réseaux sociaux. . . . . . . . .. . .. . . . . . . . . . . . . . . . . . .. . . . . . . . 19
2.5 Caractéristique d’un réseau social. . . . . . . . . . .. . . . .. . . . . .. .. ... . .. . . . . . . .20
2.5.1 L'Effet petit-monde. . . . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . .. . . . . . . . . . 20
2.5.2 Un coefficient de clustering (transitivité) local élevé. . . . . . . . . . … . . . .. . . . . .21
2.5.3 Clusterisation.. . . .. . . ... . . .. .. . . . . . . . . . . . . . .. . . . . .. . . . . .. . . . .. . . .. .. 21
2.6 Classification des approches de détection de communautés . . . . . .. .. . . . . . . … . 22
2.6.1 Les approches statiques sans recouvrement. . . . . .. . . . . . .. . . .. . . . . . . . . . .22
2.6.1.1 Les approches hiérarchiques .. . . . . . . . . . . . . .. . . . . . . .. . . . . . . . . . . . . .22
A. Approches hiérarchiques ascendantes (agglomératives)…. . . . . .. ... . . . . .22
B. Approches hiérarchiques descendantes (divisives)…….. . . . . . . . . . . . . . .24
2.6.1.2 Approches utilisant des marches aléatoires. . . . . . . . . . . .. . . . . . . . .. . . . .26
2.6.1.3 Approches spectrales . . . . .. .. . . . . . . . . . . . . . . . . . . .. . . . .. . . . . . . . . .27
2.6.2 Les approches statiques avec recouvrement. . . . . . . . . . . .. . . . . . . . . . . . . . . . 27
2.6.2.1 Approches basées sur des cliques. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . 27
2.6.2.2 Approches basées sur la propagation de labels. . . . . .. . . . . . . . .. . . . . . .. .28
2.6.2.3 Approches basées sur des graines. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . .29
2.6.2.4 Autres approches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30
2.6.3 Les approches dynamiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 31
2.6.3.1 Les approches par détections statiques successives. . . . . . . . . . . . . . . . . . .31
A Approches non recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3.2 Les approches par détections statiques informées successives. . . . . . . . . . 32
A Approches non recouvrantes. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Conclusion. .. . . . . . .. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. ..33
3 Contribution Et Algorithmes Etudiés
3.1 Introduction. .. . . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . 33
3.2 Détecter Communautés avec la Méthode VOS Clustering. .. … .. .. .. .. . . .. . .. ..33
3.3 Détecter les recouvrements avec la méthode de Fuzzy -K-means . . . . .. . . . . . . . 36
3.3.1 Avantages. . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . 37
3.3.2 Inconvénients. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . .38
3.4 Contribution. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1 Distances et métriques. .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1.1 Notion de distance .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. 38
3.4.1.2 Quelques types de distances… . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. . 38
3.4.1.3 Similarité… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . 41
3.5 Conclusion… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 42
4 Validation Des Résultats
4.1 Introduction… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2 Implémentation.. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2.1 Java.. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.2.2 NetBeans .. . . . . .. … . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3 Les Benchmarks de Test . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3.1 Benchmark du Club de Karaté Zachary. .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Benchmark du réseau social Southern Women.. . . . . . . . . . . . . . . . . . . . . . . . .44
4.4 Détection de communautés partitionnées et recouvrement. . . . . . . . . . . . . . . 44
4.4.1 Détection de communautés partitionnées.. . .. .. . . . . . . . . . .. . . . . . . . . . . . . .44
4.4.2 Détection et analyse de communautés recouvrantes. . . . . . . . . . . . . . . . . . . . . .48
4.5 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . ..51
Conclusion générale. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . .52
BibliographieCôte titre : MAI/0124 En ligne : https://drive.google.com/file/d/1F406BCC-asu3AvYZrfdiWgPzC0nG9kh1/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0124 MAI/0124 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Apprentissage automatique par construction d’ensemble de classifieurs Type de document : texte imprimé Auteurs : TALHI, Ouafa ; A Moussaoui, Directeur de thèse Editeur : Setif:UFA Année de publication : 2015 Importance : 1 vol (58f.) Format : 29 cm Catégories : Informatique
Thèses & Mémoires:InformatiqueMots-clés : Classification, Data Mining, Extraction de connaissance, Apprentissage
automatique, Ensemble de Classifieurs, Boosting, Bagging, forêts aléatoires.Index. décimale : 004 Informatique Résumé : Résumé :
Dans de nombreux domaines (vision par ordinateur, reconnaissance des formes,
etc.), la résolution de la plupart des problèmes se base sur le traitement de données
extraites à partir des données acquises dans le monde réel, et structurées sous forme de
vecteurs. La qualité du système de traitement dépend directement du bon choix du contenu
de ces vecteurs. Mais dans de nombreux cas, la résolution du problème devient presque
impossible à cause de la dimension trop importante de ces vecteurs. Par conséquent, il est
souvent utile, et parfois nécessaire, de réduire celle-ci à une taille plus compatible avec les
méthodes de résolution, même si cette réduction peut conduire à une légère perte
d'informations.
Parmi ces méthodes : la construction d'ensembles de classifieurs.
Une manière particulière de construire un ensemble de classifieurs consiste Ã
sélectionner individuellement les membres en se basant sur des critères prédéfinis.
Dans ce cadre, nous avons présenté les méthodes les plus utilisé de cette méthode
(Bagging, Boosting, forêtes aléatoires) et utiliser ces méthodes pour la création d’un
nouvelle classifieur.
Note de contenu : TABLE DES MATIERES :
INTRODUCTION GENERALE
CHAPITRE1:EXTRACTION DES CONNAISSANCES ET FOUILLE DE DONNES
2. Extraction des connaissances à partir des données:................................................................3
2.1. Définitions de l’ECD : .....................................................................................................4
2.1.1. Définition 1: ..............................................................................................................4
2.1.2. Définition 2 : .............................................................................................................4
2.2. Le processus d’ECD : ......................................................................................................4
2.2.1. Nettoyage et intégration de données : .......................................................................5
2.2.2 Prétraitement de données ...........................................................................................5
2.2.3. Fouille de données(Datamining)...............................................................................6
2.2.4. Evaluation et présentation .........................................................................................6
2.3. Les limites de l'ECD ........................................................................................................7
3. La Fouille de données :...........................................................................................................7
3.1. Définitions: ......................................................................................................................7
3.1.1. Définition 1: ..............................................................................................................7
3.1.2. Définition 2: ..............................................................................................................7
3.2. Processus de fouille de données : ...................................................................................8
3.3. Les tâches du Data Mining : ............................................................................................9
3.4. Les méthodes de datamining..........................................................................................11
A. Les méthodes classiques..............................................................................................11
B. Les méthodes sophistiquées.........................................................................................11
3.5. Les domaines d’application de fouille de données.......................................................12
4. Conclusion :..........................................................................................................................13
CHAPITRE2 : APPRENTISSAGE AUTOMATIQUE ET CLASSIFICATION
1. Introduction : ........................................................................................................................14
2. Intelligence artificielle et apprentissage automatique ..........................................................14
3. Apprentissage automatique : ................................................................................................14
3.1. Objectif des algorithmes d’apprentissage :....................................................................15
3.2. Les modes d’apprentissage automatique : .....................................................................15
3.2.1. Apprentissage supervisé..........................................................................................15
3.2.2. Apprentissage non-supervisé : ................................................................................16
3.2.3. L’apprentissage semi-supervisé: .............................................................................16
3.3. Les problèmes d’apprentissage :....................................................................................16
4. La Classification :.................................................................................................................17
4.1. Définition:......................................................................................................................17
4.2. Méthodes de la classification.........................................................................................17
4.2.1. La classification supervisée :...................................................................................17
4.2.1.1. La méthode des k plus proches voisins (KPPV) : ............................................18
4.2.1.2. Les Réseaux de neurones : ...................................................................................19
4.2.1.3. Les arbres de décision : .......................................................................................20
4.2.1.4. Les machines à vecteurs de supports :.................................................................23
4.5.2. La classification non supervisée :............................................................................24
4.5.2. 1. Les méthodes par partitionnement : ....................................................................24
4.5.2. 1.1.La méthode de K-means :................................................................................24
4.5.2. 1.2. La méthode de k-medoids :...............................................................................25
4.5.2.1.3. Inconvénients des algorithmes de partitionnement:..........................................26
4.5.2. 2. Les méthodes hiérarchiques: ...............................................................................26
4.5.2. 2.1.classification ascendante hiérarchique (CAH) :...............................................26
4.5.2. 2.2. Les méthodes de classification descendante hiérarchique (CHD) ..................27
4.5.2. 2.2.Inconvénients des algorithmes hiérarchiques :..................................................27
Conclusion :..............................................................................................................................28
CHAPITRE3 : LES METHODES D'ENSEMBLES
1. Introduction : ........................................................................................................................29
2. Définition d’un classifieur :..................................................................................................29
3. Les méthodes d’ensembles de classifieurs: ..........................................................................29
3.1. Intérêt des méthodes ensemblistes :...............................................................................30
3.2. Les types des méthodes d’ensembles.............................................................................30
3.2.1. Les méthodes d’ensembles hétérogènes :...............................................................30
3.2.2. Les méthodes d’ensembles homogènes : ...............................................................30
4. Construction d’un ensemble de Classifieurs : ......................................................................31
4.1. Fusion de décisions :......................................................................................................31
4.1.1. Le mécanisme de vote ............................................................................................31
4.1.1.1. Le vote majoritaire : .........................................................................................31
4.1.1.2. Le vote majoritaire pondéré..............................................................................31
4.1.1.3. Le vote avec seuil .............................................................................................32
4.2. Techniques de construction d’un ensemble de classifieurs ...........................................32
4.2.1. Le Bagging :............................................................................................................32
4.2.1.1. Le principe de Bagging : ..................................................................................33
4.2.2. Le Boosting : ...........................................................................................................33
4.2.2.1.AdaBoost ...........................................................................................................33
4.2.2.2. Le principe du Boosting : .................................................................................34
4.2.3. Random Subspaces (RSM) : ...................................................................................34
4.2.3.1. Le principe de Random Subspaces :.................................................................35
4.2.4. Forêts aléatoires : ....................................................................................................35
4.2.4.1. Le principe des Forêts aléatoires : ....................................................................36
5. Travaux connexe : ................................................................................................................36
6. Contribution..........................................................................................................................39
7. Conclusion............................................................................................................................39
CHAPITRE4 : IMPLEMENTATION ET RESULTATS
1. Introduction ..........................................................................................................................40
2. Environnement et outils utilisés : .........................................................................................40
2.1.NetBeans IDE : ...............................................................................................................40
2.2. Weka (Waikato Environment for Knowledge Analysis):..............................................40
3. Description des bases de données utilisées .........................................................................41
3.1.1. Les descripteurs cliniques de la base.......................................................................41
3.2. La base de données Breast_Cancer :..............................................................................42
4. Le travaille effectué :............................................................................................................42
4.1. L’algorithme de vote majoritaire : .................................................................................42
4.1. L’algorithme de la méthode Fusion:..............................................................................43
Figure 4. 1:Structure de l’implémentation............................................................................43
5. Implémentation et résultats :.................................................................................................44
5.1. Etude comparative : .......................................................................................................50
5.1.1. J48 VS Bagging :.....................................................................................................50
5.1.2. J48 VS Boosting :....................................................................................................51
5.1.3. J48 VS Bagging VS Boosting :...............................................................................52
5.1.4. Bagging VS Boosting VS Forêts aléatoires: ...........................................................53
5.2. Fusion : ..........................................................................................................................55
6. Conclusion :..........................................................................................................................56
CONCLUSION GENERALE
BIBLIOGRAPHIECôte titre : MAI/0062 En ligne : https://drive.google.com/file/d/1V_Cwf7ISZqbboh1tBtbdGOpuWUrlyEIN/view?usp=shari [...] Format de la ressource électronique : Apprentissage automatique par construction d’ensemble de classifieurs [texte imprimé] / TALHI, Ouafa ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2015 . - 1 vol (58f.) ; 29 cm.
Catégories : Informatique
Thèses & Mémoires:InformatiqueMots-clés : Classification, Data Mining, Extraction de connaissance, Apprentissage
automatique, Ensemble de Classifieurs, Boosting, Bagging, forêts aléatoires.Index. décimale : 004 Informatique Résumé : Résumé :
Dans de nombreux domaines (vision par ordinateur, reconnaissance des formes,
etc.), la résolution de la plupart des problèmes se base sur le traitement de données
extraites à partir des données acquises dans le monde réel, et structurées sous forme de
vecteurs. La qualité du système de traitement dépend directement du bon choix du contenu
de ces vecteurs. Mais dans de nombreux cas, la résolution du problème devient presque
impossible à cause de la dimension trop importante de ces vecteurs. Par conséquent, il est
souvent utile, et parfois nécessaire, de réduire celle-ci à une taille plus compatible avec les
méthodes de résolution, même si cette réduction peut conduire à une légère perte
d'informations.
Parmi ces méthodes : la construction d'ensembles de classifieurs.
Une manière particulière de construire un ensemble de classifieurs consiste Ã
sélectionner individuellement les membres en se basant sur des critères prédéfinis.
Dans ce cadre, nous avons présenté les méthodes les plus utilisé de cette méthode
(Bagging, Boosting, forêtes aléatoires) et utiliser ces méthodes pour la création d’un
nouvelle classifieur.
Note de contenu : TABLE DES MATIERES :
INTRODUCTION GENERALE
CHAPITRE1:EXTRACTION DES CONNAISSANCES ET FOUILLE DE DONNES
2. Extraction des connaissances à partir des données:................................................................3
2.1. Définitions de l’ECD : .....................................................................................................4
2.1.1. Définition 1: ..............................................................................................................4
2.1.2. Définition 2 : .............................................................................................................4
2.2. Le processus d’ECD : ......................................................................................................4
2.2.1. Nettoyage et intégration de données : .......................................................................5
2.2.2 Prétraitement de données ...........................................................................................5
2.2.3. Fouille de données(Datamining)...............................................................................6
2.2.4. Evaluation et présentation .........................................................................................6
2.3. Les limites de l'ECD ........................................................................................................7
3. La Fouille de données :...........................................................................................................7
3.1. Définitions: ......................................................................................................................7
3.1.1. Définition 1: ..............................................................................................................7
3.1.2. Définition 2: ..............................................................................................................7
3.2. Processus de fouille de données : ...................................................................................8
3.3. Les tâches du Data Mining : ............................................................................................9
3.4. Les méthodes de datamining..........................................................................................11
A. Les méthodes classiques..............................................................................................11
B. Les méthodes sophistiquées.........................................................................................11
3.5. Les domaines d’application de fouille de données.......................................................12
4. Conclusion :..........................................................................................................................13
CHAPITRE2 : APPRENTISSAGE AUTOMATIQUE ET CLASSIFICATION
1. Introduction : ........................................................................................................................14
2. Intelligence artificielle et apprentissage automatique ..........................................................14
3. Apprentissage automatique : ................................................................................................14
3.1. Objectif des algorithmes d’apprentissage :....................................................................15
3.2. Les modes d’apprentissage automatique : .....................................................................15
3.2.1. Apprentissage supervisé..........................................................................................15
3.2.2. Apprentissage non-supervisé : ................................................................................16
3.2.3. L’apprentissage semi-supervisé: .............................................................................16
3.3. Les problèmes d’apprentissage :....................................................................................16
4. La Classification :.................................................................................................................17
4.1. Définition:......................................................................................................................17
4.2. Méthodes de la classification.........................................................................................17
4.2.1. La classification supervisée :...................................................................................17
4.2.1.1. La méthode des k plus proches voisins (KPPV) : ............................................18
4.2.1.2. Les Réseaux de neurones : ...................................................................................19
4.2.1.3. Les arbres de décision : .......................................................................................20
4.2.1.4. Les machines à vecteurs de supports :.................................................................23
4.5.2. La classification non supervisée :............................................................................24
4.5.2. 1. Les méthodes par partitionnement : ....................................................................24
4.5.2. 1.1.La méthode de K-means :................................................................................24
4.5.2. 1.2. La méthode de k-medoids :...............................................................................25
4.5.2.1.3. Inconvénients des algorithmes de partitionnement:..........................................26
4.5.2. 2. Les méthodes hiérarchiques: ...............................................................................26
4.5.2. 2.1.classification ascendante hiérarchique (CAH) :...............................................26
4.5.2. 2.2. Les méthodes de classification descendante hiérarchique (CHD) ..................27
4.5.2. 2.2.Inconvénients des algorithmes hiérarchiques :..................................................27
Conclusion :..............................................................................................................................28
CHAPITRE3 : LES METHODES D'ENSEMBLES
1. Introduction : ........................................................................................................................29
2. Définition d’un classifieur :..................................................................................................29
3. Les méthodes d’ensembles de classifieurs: ..........................................................................29
3.1. Intérêt des méthodes ensemblistes :...............................................................................30
3.2. Les types des méthodes d’ensembles.............................................................................30
3.2.1. Les méthodes d’ensembles hétérogènes :...............................................................30
3.2.2. Les méthodes d’ensembles homogènes : ...............................................................30
4. Construction d’un ensemble de Classifieurs : ......................................................................31
4.1. Fusion de décisions :......................................................................................................31
4.1.1. Le mécanisme de vote ............................................................................................31
4.1.1.1. Le vote majoritaire : .........................................................................................31
4.1.1.2. Le vote majoritaire pondéré..............................................................................31
4.1.1.3. Le vote avec seuil .............................................................................................32
4.2. Techniques de construction d’un ensemble de classifieurs ...........................................32
4.2.1. Le Bagging :............................................................................................................32
4.2.1.1. Le principe de Bagging : ..................................................................................33
4.2.2. Le Boosting : ...........................................................................................................33
4.2.2.1.AdaBoost ...........................................................................................................33
4.2.2.2. Le principe du Boosting : .................................................................................34
4.2.3. Random Subspaces (RSM) : ...................................................................................34
4.2.3.1. Le principe de Random Subspaces :.................................................................35
4.2.4. Forêts aléatoires : ....................................................................................................35
4.2.4.1. Le principe des Forêts aléatoires : ....................................................................36
5. Travaux connexe : ................................................................................................................36
6. Contribution..........................................................................................................................39
7. Conclusion............................................................................................................................39
CHAPITRE4 : IMPLEMENTATION ET RESULTATS
1. Introduction ..........................................................................................................................40
2. Environnement et outils utilisés : .........................................................................................40
2.1.NetBeans IDE : ...............................................................................................................40
2.2. Weka (Waikato Environment for Knowledge Analysis):..............................................40
3. Description des bases de données utilisées .........................................................................41
3.1.1. Les descripteurs cliniques de la base.......................................................................41
3.2. La base de données Breast_Cancer :..............................................................................42
4. Le travaille effectué :............................................................................................................42
4.1. L’algorithme de vote majoritaire : .................................................................................42
4.1. L’algorithme de la méthode Fusion:..............................................................................43
Figure 4. 1:Structure de l’implémentation............................................................................43
5. Implémentation et résultats :.................................................................................................44
5.1. Etude comparative : .......................................................................................................50
5.1.1. J48 VS Bagging :.....................................................................................................50
5.1.2. J48 VS Boosting :....................................................................................................51
5.1.3. J48 VS Bagging VS Boosting :...............................................................................52
5.1.4. Bagging VS Boosting VS Forêts aléatoires: ...........................................................53
5.2. Fusion : ..........................................................................................................................55
6. Conclusion :..........................................................................................................................56
CONCLUSION GENERALE
BIBLIOGRAPHIECôte titre : MAI/0062 En ligne : https://drive.google.com/file/d/1V_Cwf7ISZqbboh1tBtbdGOpuWUrlyEIN/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0062 MAI/0062 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Approche bioinspere pour l’extraction des connaissances dans les big data Type de document : texte imprimé Auteurs : ZENBOUT,Imene ; A Moussaoui, Directeur de thèse Editeur : Setif:UFA Année de publication : 2016 Importance : 1 vol (72f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Big data, data analytics, bioinformatique, ADN, metaheuristiues, NP-Hard,
problem, Assemblage des fragment d’ADNIndex. décimale : 004 Informatique Résumé : résumé
Les Big data sont devenues le maitre et le contrôleur des deux mondes réel et digitale, l’explosion dans les données amènent des bénéfices ainsi que des défis, parmi ces
défis c’est comment peut’ on extraire des connaissances d’après ces données?. le bioinformatiques et la fragmentation d’ADN sont considérés maintenant parmi les sources
principales de la génération des données et pour le besoin de l’extraction des connaissance de ces données, il faut de les formuler comme des problèmes NP-hard pour les
résoudre avec des metaheuristiques. Pour ces raisons nous avons proposé un algorithm
bio inspirés basé sur l’algorithme des penguins pour traiter l’exemple de l’assemblage
des fragments d’ADN.
Note de contenu : Contents
1 Big Data:Background 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Getting Started . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Toward big data . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 What is Big Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Big data characteristics . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.4 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.5 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.6 Variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Related Technologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Cloud Computing . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.2 Internet of Thing . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Hadoop/MapReduce . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Big data analytic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1 Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.3 Data Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.4 Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.5 Data Visualization . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Big data impact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7.1 Big data and Retail industry . . . . . . . . . . . . . . . . . . . . 18
1.7.2 Big data and Healthcare . . . . . . . . . . . . . . . . . . . . . . 18
1.7.3 Big data and Biology . . . . . . . . . . . . . . . . . . . . . . . 19
1.8 Big data Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8.1 Big Data Challenges . . . . . . . . . . . . . . . . . . . . . . . . 21
1.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Combinatorial Optimization Problem 24
2.1 Combinatorial Optimization . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1 Combinatorial Optimization Problem . . . . . . . . . . . . . . . 24
2.1.2 Problems Classification . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.3 Combinatorial optimization methods . . . . . . . . . . . . . . . 26
2.2 Metaheuristics and bioinspiration to resolve COP . . . . . . . . . . . . 28
2.2.1 Bioinspired Optimality Search algorithms . . . . . . . . . . . . . 29
3 Biological Knowledge Discovery:DNA fragment Assembly 35
3.1 DNA structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Overview on Genome Sequencing . . . . . . . . . . . . . . . . . . . . . 36
3.3 DNA Fragment Assembly . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Bioinspired approachs for DFA problem . . . . . . . . . . . . . . . . . 38
3.4.1 Genetic Algorithm in DFA problem . . . . . . . . . . . . . . . . 38
3.4.2 Swarm intelligence for DFA problem . . . . . . . . . . . . . . . 39
3.4.3 Cuckoo Search for DFA problem . . . . . . . . . . . . . . . . . . 39
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Contribution 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Proposed Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 DFA problem formulation . . . . . . . . . . . . . . . . . . . . . 40
4.2.2 Penguin search optimization algorithm for DFA . . . . . . . . . 41
4.2.3 Overlap Graph based on PeSOA for DNA fragment assembly
problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Conception . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Use-Cases Diagram . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.2 StateChart diagram . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.3 Classes Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4 Realisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.1 tools and methods . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4.3 Experimental Result . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Bibliography 65Côte titre : MAI/0097 En ligne : https://drive.google.com/file/d/1gmA18QtMFFN762RWASIi4A0XB5WgW99R/view?usp=shari [...] Format de la ressource électronique : Approche bioinspere pour l’extraction des connaissances dans les big data [texte imprimé] / ZENBOUT,Imene ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2016 . - 1 vol (72f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Big data, data analytics, bioinformatique, ADN, metaheuristiues, NP-Hard,
problem, Assemblage des fragment d’ADNIndex. décimale : 004 Informatique Résumé : résumé
Les Big data sont devenues le maitre et le contrôleur des deux mondes réel et digitale, l’explosion dans les données amènent des bénéfices ainsi que des défis, parmi ces
défis c’est comment peut’ on extraire des connaissances d’après ces données?. le bioinformatiques et la fragmentation d’ADN sont considérés maintenant parmi les sources
principales de la génération des données et pour le besoin de l’extraction des connaissance de ces données, il faut de les formuler comme des problèmes NP-hard pour les
résoudre avec des metaheuristiques. Pour ces raisons nous avons proposé un algorithm
bio inspirés basé sur l’algorithme des penguins pour traiter l’exemple de l’assemblage
des fragments d’ADN.
Note de contenu : Contents
1 Big Data:Background 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Getting Started . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Toward big data . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 What is Big Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Big data characteristics . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.4 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.5 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.6 Variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Related Technologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Cloud Computing . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.2 Internet of Thing . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Hadoop/MapReduce . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Big data analytic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1 Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.3 Data Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.4 Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.5 Data Visualization . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Big data impact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7.1 Big data and Retail industry . . . . . . . . . . . . . . . . . . . . 18
1.7.2 Big data and Healthcare . . . . . . . . . . . . . . . . . . . . . . 18
1.7.3 Big data and Biology . . . . . . . . . . . . . . . . . . . . . . . 19
1.8 Big data Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8.1 Big Data Challenges . . . . . . . . . . . . . . . . . . . . . . . . 21
1.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Combinatorial Optimization Problem 24
2.1 Combinatorial Optimization . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1 Combinatorial Optimization Problem . . . . . . . . . . . . . . . 24
2.1.2 Problems Classification . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.3 Combinatorial optimization methods . . . . . . . . . . . . . . . 26
2.2 Metaheuristics and bioinspiration to resolve COP . . . . . . . . . . . . 28
2.2.1 Bioinspired Optimality Search algorithms . . . . . . . . . . . . . 29
3 Biological Knowledge Discovery:DNA fragment Assembly 35
3.1 DNA structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Overview on Genome Sequencing . . . . . . . . . . . . . . . . . . . . . 36
3.3 DNA Fragment Assembly . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Bioinspired approachs for DFA problem . . . . . . . . . . . . . . . . . 38
3.4.1 Genetic Algorithm in DFA problem . . . . . . . . . . . . . . . . 38
3.4.2 Swarm intelligence for DFA problem . . . . . . . . . . . . . . . 39
3.4.3 Cuckoo Search for DFA problem . . . . . . . . . . . . . . . . . . 39
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Contribution 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Proposed Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 DFA problem formulation . . . . . . . . . . . . . . . . . . . . . 40
4.2.2 Penguin search optimization algorithm for DFA . . . . . . . . . 41
4.2.3 Overlap Graph based on PeSOA for DNA fragment assembly
problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Conception . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Use-Cases Diagram . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.2 StateChart diagram . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.3 Classes Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4 Realisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.1 tools and methods . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4.3 Experimental Result . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Bibliography 65Côte titre : MAI/0097 En ligne : https://drive.google.com/file/d/1gmA18QtMFFN762RWASIi4A0XB5WgW99R/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0097 MAI/0097 Mémoire Bibliothéque des sciences Français Disponible
DisponibleDeep Learning pour l'identification et classification des expressions faciales émotionnelles / Diboune, nadia
Titre : Deep Learning pour l'identification et classification des expressions faciales émotionnelles Type de document : texte imprimé Auteurs : Diboune, nadia ; A Moussaoui, Directeur de thèse Editeur : Setif:UFA Année de publication : 2017 Importance : 1 vol (71f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Ingénierie de Données
Technologies Web
deep learning
expressions faciales émotionnellesIndex. décimale : 004 Informatique Côte titre : MAI/0196 Deep Learning pour l'identification et classification des expressions faciales émotionnelles [texte imprimé] / Diboune, nadia ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2017 . - 1 vol (71f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Ingénierie de Données
Technologies Web
deep learning
expressions faciales émotionnellesIndex. décimale : 004 Informatique Côte titre : MAI/0196 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0196 MAI/0196 Mémoire Bibliothéque des sciences Français Disponible
DisponibleExtraction de connaissances dans les big data : Application aux données biomédicales / SEDJAL, Maroua Yousra
Titre : Extraction de connaissances dans les big data : Application aux données biomédicales Type de document : texte imprimé Auteurs : SEDJAL, Maroua Yousra ; A Moussaoui, Directeur de thèse Editeur : Setif:UFA Année de publication : 2015 Importance : 1 vol (61f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data, ECD, Bioinformatique, Alignement des séquences ADN. Index. décimale : 004 Informatique Résumé : Résumé
La bioinformatique est une discipline qui englobe l'ensemble des applications de l'informatique dans le domaine de la biologie, Elle représente un domaine de recherche très vaste qui a comme objectif adapter les outils informatiques afin de pouvoir stocker, analyser et visualiser les informations contenues dans les multiples sources de données biologiques tel que les séquences d'ADN , ARN et des protéines des êtres vivants.
Dans le domaine de la Data Science, le Big Data étant un ensemble de nouvelles technologies de fouille de données énorme, la bioinformatique lui offre une large quantité de données variée qui peut être exploité afin d'en extraire toutes les informations et connaissances utiles
Le but de notre travail est de développer une application qui aide a extraire des informations et des connaissances a partir des comparaisons des séquences d’ADN, en se basant sur un algorithme biologique tel que l'algorithme d'alignement global et multiple de Needleman et Wunsch, et qui peut être déployer afin de traiter de très grande quantité de données comme les Big Data.
Note de contenu : Table De Matières
Introduction générale
Chapitre 1 : Extraction des connaissances et fouilles de données
1 Introduction : .................................................................................................................................. 2
2 L’extraction des connaissances ....................................................................................................... 2
2.1 Définition : .............................................................................................................................. 2
2.2 Le processus ECD : ................................................................................................................. 3
2.2.1 La donnée : ...................................................................................................................... 3
2.2.2 L’information : ................................................................................................................ 3
2.2.3 La connaissance : ............................................................................................................. 3
2.3 Les phases du processus ECD : ............................................................................................... 4
2.3.1 Phase d’acquisition des données : ................................................................................... 4
2.3.2 Phase de fouille de données : ........................................................................................... 5
2.3.3 Phase de validation et de mise en forme : ....................................................................... 5
2.4 Les types de données exploitées dans l’ECD : ........................................................................ 6
2.4.1 Les données disponibles en permanence : ....................................................................... 6
2.4.2. Les données disponibles temporelles : .................................................................................. 6
2.5 Les types de connaissances dans l’ECD : ................................................................................ 7
3 L’apprentissage automatique ........................................................................................................... 7
3.1 Définition de l’apprentissage automatique : ............................................................................ 7
3.2 Algorithmes de l’apprentissage automatique : ........................................................................ 7
3.2.1 L'apprentissage supervisé : .............................................................................................. 7
3.2.2 L'apprentissage non-supervisé : ....................................................................................... 8
3.2.3 L'apprentissage par renforcement : .................................................................................. 8
4 La fouille de données (Data Mining) ............................................................................................... 9
4.1 Définition de la fouille de données : ........................................................................................ 9
4.2 Les facteurs d’émergence du Data Mining : ............................................................................ 9
4.2.1 Le volume des bases de données : ................................................................................... 9
4.2.2 Le rapport à la clientèle : ................................................................................................. 9
4.3 Les types de Data Mining : ..................................................................................................... 9
4.4 Les taches de Data Mining : .................................................................................................. 10
4.5 Les types de méthodes du Data Mining : ............................................................................. 11
4.5.1 Les méthodes descriptives (recherche de patterns) : ..................................................... 11
4.5.2 Les méthodes prédictives (modélisation) : .................................................................... 11
4.6 Les logiciels de fouille de données : ...................................................................................... 11
4.6.1 Les logiciels sur PC : .................................................................................................... 11
4.6.2 Logiciels commercialisés sur gros systèmes : ............................................................... 11
5 La classification ............................................................................................................................. 12
5.1 Définition : ............................................................................................................................ 12
5.2 Processus de classification : .................................................................................................. 12
5.2.1 La construction du modèle à partir de l’ensemble d’apprentissage : ............................. 12
5.2.2 L’utilisation du modèle : ............................................................................................... 12
5.3 Evaluation des méthodes de classification : .......................................................................... 12
5.4 Mesures de la qualité d’une méthode de classification : ....................................................... 13
5.5 Méthodes de Classification.................................................................................................... 13
5.5.1 Méthode K-NN (plus proche voisin) : ........................................................................... 13
5.5.2 Réseaux de neurones : ................................................................................................... 13
5.5.3 Classification Bayésienne : ............................................................................................ 14
5.5.4 Arbres de décision : ....................................................................................................... 15
6 La segmentation (Clustering) ....................................................................................................... 16
6.1 Définition : ............................................................................................................................ 16
6.2 Les algorithmes du Clustering : ............................................................................................ 17
6.2.1 Algorithmes de Partitionnement : .................................................................................. 17
6.2.2 Algorithmes hiérarchiques : .......................................................................................... 18
6.2.3 Algorithmes basés sur la densité : ................................................................................. 18
6.2.4 Algorithmes de grille : ................................................................................................... 18
6.2.5 Algorithmes à modèles : ................................................................................................ 18
6.3 Les mesures de qualité d’un Clustering : .............................................................................. 19
6.3.1 La similarité : ................................................................................................................. 19
6.3.2 La distance : ................................................................................................................... 19
6.4 Les domaines d’application du Clustering : .......................................................................... 19
7 Conclusion : .................................................................................................................................. 20
Chapitre 2 : Big Data
1 Introduction : ................................................................................................................................ 22
2 Historique : ................................................................................................................................... 22
3 Définition du Big Data : ................................................................................................................ 23
4 Quelque notion autour du Big Data : ............................................................................................. 23
5 Les caractéristiques du Big Data : ................................................................................................. 23
6 Framework de traitement des Big Data : ....................................................................................... 24
6.1 Tier I: plate-forme de Big Data Mining : .............................................................................. 25
6.2 Tier II : Sémantique des Big Data et connaissance des applications : .................................. 26
6.2.1 Partage de l'information et de la confidentialité des données : ...................................... 26
6.2.2 Connaissance des domaines d’application : .................................................................. 26
6.3 Tier III: Algorithmes de Big Data Mining ............................................................................ 27
6.3.1 Apprentissage et Fusion de modèles des différentes sources d'information : .............. 27
6.3.2 Fouille des données éparses, incertaines et incomplètes : ............................................ 27
6.3.3 Fouille des données complexes et dynamiques : .......................................................... 27
7 Les technologies du Big Data : .................................................................................................... 28
8 Les domaines d’application du Big Data : .................................................................................. 29
9 Les usages du Big Data : ............................................................................................................... 29
10 Le Big Data et les entrepôts de données : .................................................................................. 30
11 Conclusion : ............................................................................................................................... 31
Chapitre 3 : Bioinformatique
1 Introduction : ................................................................................................................................ 33
1.1 Définition de la Biologie : ..................................................................................................... 33
2 Définition de la Bioinformatique : ............................................................................................... 33
3 Les banques et bases de données biologiques : ............................................................................. 34
3.1 Les banques de séquences généralistes : ............................................................................... 34
3.1.1 Les banques de séquences nucléiques : ......................................................................... 34
3.1.2 Les banques de séquences protéiques :.......................................................................... 36
3.2 Les banques de séquences spécialisées : ............................................................................... 36
3.3 Diffusion et utilisation des banques de données : .................................................................. 37
4 Apports à la biologie : ................................................................................................................... 37
4.1 Les algorithmes génétiques : ................................................................................................. 38
4.2 L’analyse de la structure des protéines : ................................................................................ 38
4.3 Les mécanismes de repliement des protéines : .................................................................. 39
4.3.1 Les enjeux de repliement des protéines : ...................................................................... 39
4.3.2 Les approches d’analyse de la structure de protéines : .................................................. 39
4.4 Les algorithmes d'extraction de motif : ................................................................................ 40
4.5 L’analyse des séquences d'ADN : ......................................................................................... 40
4.5.1 Les Algorithmes et les programmes de comparaison de séquences .............................. 41
4.5.2 Les Algorithmes et les programmes d’alignement de séquences AD N : ................... 41
5 Conclusion : .................................................................................................................................. 44
Chapitre 4 : Réalisation
1 Introduction : ................................................................................................................................ 46
2 Travaux connexes : ........................................................................................................................ 46
3 Implémentation : ............................................................................................................................ 46
3.1 Plateforme et langages de programmation : .......................................................................... 46
3.2 La base de données : .............................................................................................................. 47
3.3 L’algorithme choisi : ............................................................................................................. 47
4 Le déroulement du système : ......................................................................................................... 48
4.1 Le premier exemple : ............................................................................................................. 48
4.2 Le deuxième exemple : .......................................................................................................... 52
4.3 Le troisième exemple : .......................................................................................................... 55
5 Conclusion :……………………………………………………........................ ……………..58
Conclusion générale
Perspectives
BibliographieCôte titre : MAI/0048 En ligne : https://drive.google.com/file/d/1GUfkd8q3CwDPHVwJCd18N_oG8U7VSz1j/view?usp=shari [...] Format de la ressource électronique : Extraction de connaissances dans les big data : Application aux données biomédicales [texte imprimé] / SEDJAL, Maroua Yousra ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2015 . - 1 vol (61f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data, ECD, Bioinformatique, Alignement des séquences ADN. Index. décimale : 004 Informatique Résumé : Résumé
La bioinformatique est une discipline qui englobe l'ensemble des applications de l'informatique dans le domaine de la biologie, Elle représente un domaine de recherche très vaste qui a comme objectif adapter les outils informatiques afin de pouvoir stocker, analyser et visualiser les informations contenues dans les multiples sources de données biologiques tel que les séquences d'ADN , ARN et des protéines des êtres vivants.
Dans le domaine de la Data Science, le Big Data étant un ensemble de nouvelles technologies de fouille de données énorme, la bioinformatique lui offre une large quantité de données variée qui peut être exploité afin d'en extraire toutes les informations et connaissances utiles
Le but de notre travail est de développer une application qui aide a extraire des informations et des connaissances a partir des comparaisons des séquences d’ADN, en se basant sur un algorithme biologique tel que l'algorithme d'alignement global et multiple de Needleman et Wunsch, et qui peut être déployer afin de traiter de très grande quantité de données comme les Big Data.
Note de contenu : Table De Matières
Introduction générale
Chapitre 1 : Extraction des connaissances et fouilles de données
1 Introduction : .................................................................................................................................. 2
2 L’extraction des connaissances ....................................................................................................... 2
2.1 Définition : .............................................................................................................................. 2
2.2 Le processus ECD : ................................................................................................................. 3
2.2.1 La donnée : ...................................................................................................................... 3
2.2.2 L’information : ................................................................................................................ 3
2.2.3 La connaissance : ............................................................................................................. 3
2.3 Les phases du processus ECD : ............................................................................................... 4
2.3.1 Phase d’acquisition des données : ................................................................................... 4
2.3.2 Phase de fouille de données : ........................................................................................... 5
2.3.3 Phase de validation et de mise en forme : ....................................................................... 5
2.4 Les types de données exploitées dans l’ECD : ........................................................................ 6
2.4.1 Les données disponibles en permanence : ....................................................................... 6
2.4.2. Les données disponibles temporelles : .................................................................................. 6
2.5 Les types de connaissances dans l’ECD : ................................................................................ 7
3 L’apprentissage automatique ........................................................................................................... 7
3.1 Définition de l’apprentissage automatique : ............................................................................ 7
3.2 Algorithmes de l’apprentissage automatique : ........................................................................ 7
3.2.1 L'apprentissage supervisé : .............................................................................................. 7
3.2.2 L'apprentissage non-supervisé : ....................................................................................... 8
3.2.3 L'apprentissage par renforcement : .................................................................................. 8
4 La fouille de données (Data Mining) ............................................................................................... 9
4.1 Définition de la fouille de données : ........................................................................................ 9
4.2 Les facteurs d’émergence du Data Mining : ............................................................................ 9
4.2.1 Le volume des bases de données : ................................................................................... 9
4.2.2 Le rapport à la clientèle : ................................................................................................. 9
4.3 Les types de Data Mining : ..................................................................................................... 9
4.4 Les taches de Data Mining : .................................................................................................. 10
4.5 Les types de méthodes du Data Mining : ............................................................................. 11
4.5.1 Les méthodes descriptives (recherche de patterns) : ..................................................... 11
4.5.2 Les méthodes prédictives (modélisation) : .................................................................... 11
4.6 Les logiciels de fouille de données : ...................................................................................... 11
4.6.1 Les logiciels sur PC : .................................................................................................... 11
4.6.2 Logiciels commercialisés sur gros systèmes : ............................................................... 11
5 La classification ............................................................................................................................. 12
5.1 Définition : ............................................................................................................................ 12
5.2 Processus de classification : .................................................................................................. 12
5.2.1 La construction du modèle à partir de l’ensemble d’apprentissage : ............................. 12
5.2.2 L’utilisation du modèle : ............................................................................................... 12
5.3 Evaluation des méthodes de classification : .......................................................................... 12
5.4 Mesures de la qualité d’une méthode de classification : ....................................................... 13
5.5 Méthodes de Classification.................................................................................................... 13
5.5.1 Méthode K-NN (plus proche voisin) : ........................................................................... 13
5.5.2 Réseaux de neurones : ................................................................................................... 13
5.5.3 Classification Bayésienne : ............................................................................................ 14
5.5.4 Arbres de décision : ....................................................................................................... 15
6 La segmentation (Clustering) ....................................................................................................... 16
6.1 Définition : ............................................................................................................................ 16
6.2 Les algorithmes du Clustering : ............................................................................................ 17
6.2.1 Algorithmes de Partitionnement : .................................................................................. 17
6.2.2 Algorithmes hiérarchiques : .......................................................................................... 18
6.2.3 Algorithmes basés sur la densité : ................................................................................. 18
6.2.4 Algorithmes de grille : ................................................................................................... 18
6.2.5 Algorithmes à modèles : ................................................................................................ 18
6.3 Les mesures de qualité d’un Clustering : .............................................................................. 19
6.3.1 La similarité : ................................................................................................................. 19
6.3.2 La distance : ................................................................................................................... 19
6.4 Les domaines d’application du Clustering : .......................................................................... 19
7 Conclusion : .................................................................................................................................. 20
Chapitre 2 : Big Data
1 Introduction : ................................................................................................................................ 22
2 Historique : ................................................................................................................................... 22
3 Définition du Big Data : ................................................................................................................ 23
4 Quelque notion autour du Big Data : ............................................................................................. 23
5 Les caractéristiques du Big Data : ................................................................................................. 23
6 Framework de traitement des Big Data : ....................................................................................... 24
6.1 Tier I: plate-forme de Big Data Mining : .............................................................................. 25
6.2 Tier II : Sémantique des Big Data et connaissance des applications : .................................. 26
6.2.1 Partage de l'information et de la confidentialité des données : ...................................... 26
6.2.2 Connaissance des domaines d’application : .................................................................. 26
6.3 Tier III: Algorithmes de Big Data Mining ............................................................................ 27
6.3.1 Apprentissage et Fusion de modèles des différentes sources d'information : .............. 27
6.3.2 Fouille des données éparses, incertaines et incomplètes : ............................................ 27
6.3.3 Fouille des données complexes et dynamiques : .......................................................... 27
7 Les technologies du Big Data : .................................................................................................... 28
8 Les domaines d’application du Big Data : .................................................................................. 29
9 Les usages du Big Data : ............................................................................................................... 29
10 Le Big Data et les entrepôts de données : .................................................................................. 30
11 Conclusion : ............................................................................................................................... 31
Chapitre 3 : Bioinformatique
1 Introduction : ................................................................................................................................ 33
1.1 Définition de la Biologie : ..................................................................................................... 33
2 Définition de la Bioinformatique : ............................................................................................... 33
3 Les banques et bases de données biologiques : ............................................................................. 34
3.1 Les banques de séquences généralistes : ............................................................................... 34
3.1.1 Les banques de séquences nucléiques : ......................................................................... 34
3.1.2 Les banques de séquences protéiques :.......................................................................... 36
3.2 Les banques de séquences spécialisées : ............................................................................... 36
3.3 Diffusion et utilisation des banques de données : .................................................................. 37
4 Apports à la biologie : ................................................................................................................... 37
4.1 Les algorithmes génétiques : ................................................................................................. 38
4.2 L’analyse de la structure des protéines : ................................................................................ 38
4.3 Les mécanismes de repliement des protéines : .................................................................. 39
4.3.1 Les enjeux de repliement des protéines : ...................................................................... 39
4.3.2 Les approches d’analyse de la structure de protéines : .................................................. 39
4.4 Les algorithmes d'extraction de motif : ................................................................................ 40
4.5 L’analyse des séquences d'ADN : ......................................................................................... 40
4.5.1 Les Algorithmes et les programmes de comparaison de séquences .............................. 41
4.5.2 Les Algorithmes et les programmes d’alignement de séquences AD N : ................... 41
5 Conclusion : .................................................................................................................................. 44
Chapitre 4 : Réalisation
1 Introduction : ................................................................................................................................ 46
2 Travaux connexes : ........................................................................................................................ 46
3 Implémentation : ............................................................................................................................ 46
3.1 Plateforme et langages de programmation : .......................................................................... 46
3.2 La base de données : .............................................................................................................. 47
3.3 L’algorithme choisi : ............................................................................................................. 47
4 Le déroulement du système : ......................................................................................................... 48
4.1 Le premier exemple : ............................................................................................................. 48
4.2 Le deuxième exemple : .......................................................................................................... 52
4.3 Le troisième exemple : .......................................................................................................... 55
5 Conclusion :……………………………………………………........................ ……………..58
Conclusion générale
Perspectives
BibliographieCôte titre : MAI/0048 En ligne : https://drive.google.com/file/d/1GUfkd8q3CwDPHVwJCd18N_oG8U7VSz1j/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0048 MAI/0048 Mémoire Bibliothéque des sciences Français Disponible
DisponiblePermalinkPermalinkSystème interactif pour le contrôle gestuel des applications multimédia / ISSAAD, Fouzia
PermalinkSystème multi-agents pour la segmentation d'image IRM cérébrale « Application sur la sclérose en plaques » / Sahraoui,wafa
PermalinkSystème de recommandation par filtrage collaboratif / Bouaoun, kaouther
Permalink