Catalogue en ligne

University Sétif 1 FERHAT ABBAS Faculty of Sciences

Nouvelle recherche

Détail de l'auteur

Auteur A Moussaoui

Documents disponibles écrits par cet auteur

Ajouter le résultat dans votre panier Affiner la recherche

Apprentissage automatique dans les réseaux sociaux / Kebbab,naouel

Public

ISBD

Titre : Apprentissage automatique dans les réseaux sociaux
Type de document : texte imprimé
Auteurs : Kebbab,naouel ; A Moussaoui, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2016
Importance : 1 vol (52f.)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Réseaux
Systèmes Distribués
apprentissage automatique
réseaux sociaux
Index. décimale : 004 Informatique
Résumé : Résumé
Dans les grands réseaux, la détection de sous-ensembles de sommets plus densément
connectés que d’autres, appelés des communautés, est un problème que l’on retrouve dans
plusieurs disciplines : Biologie (réseaux d’interactions entre protéines), Informatique
(recherche d’informations sur le Web), mais aussi, Sociologie (groupes dans des réseaux
sociaux). Ces communautés jouent un rôle important dans l’organisation ou la structuration
des réseaux.
De fait, il s’agit de déterminer des classes dans un graphe. Ce problème est donc
fortement lié à celui du partitionnement, avec la spécificité suivante : suivant l’usage que
l’on veut faire de ces communautés, les classes peuvent (doivent) être disjointes ou non. En
Biologie, où l’on analyse les réseaux d’interactions protéine-protéine pour, entre autres,
prédire leurs fonctions, nombreuses sont celles qui ont plusieurs fonctions et dans ce cas il
est raisonnable de construire non pas une partition, mais un recouvrement, c’est à dire un
système de classes chevauchantes. Il en est de même dans les réseaux sociaux, où les
individus peuvent appartenir à plusieurs groupes.
Ainsi, les méthodes traditionnelles en Classification peuvent être utilisées ; en
particulier les méthodes de construction d’une partition des sommets du graphe qui
maximisent un certain critère. Parmi les nombreux critères qui évaluent la qualité d’une
partition, nous ne faisons ici référence qu’à la notion de modularité introduite par
Newman. Malheureusement, son optimisation sur l’ensemble de toutes les partitions des
sommets d’un graphe est un problème NP-difficile ; il en est évidemment de même pour
les recouvrements. Il faut donc utiliser des méthodes heuristiques, dès lors que les graphes
étudiés sont de grande taille. Dans ce mémoire, nous proposons deux méthodes
approchées, l’une pour les partitions, qui permet d’optimiser la modularité (VOS
Clustering) basée sur l'algorithme de Louvain, qui est actuellement le meilleur algorithme
en termes de complexité, d’efficacité pour calculer des communautés sur de très grands
graphes. L’autre pour les recouvrements, Elle est basée sur la première approche pour le
nombre de communautés défini pour détecter les communautés chevauchantes.
Cette approche originale basée sur les techniques de Data Mining pour l’extraction
des connaissances, est l’algorithme FCM (Fuzzy C-Means).
Une étude de performances, dans laquelle nos méthodes sont testés sur des différents
graphes réels atteste de leur pertinence.
Note de contenu : Table des matières
Remerciements
Résumé
Table des matières
Table de figures
Introduction Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..…. 1
1 Data Mining
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 3
1.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Entrepôts de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 4
1.4 Le Data Mining est né de . . . . . . . . . . . . . . . . . . . . . …. . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Data Mining et KDD (Knowledge Data Discovery) . . . .. . . . . . . . . . . . .. . . . . . …. 5
1.6 DM : les raisons du développement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5
1.7 Mise en œuvre d’un projet de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.8 Caractérisation des méthodes de DM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.8.1 DM : une nouvelle conception de la statistique et du rôle des modèles. . . . . . . . .6
1.8.2 Tâches du Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 7
1.8.2.1 Classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.8.2.2 Clustering(Segmentation) . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .8
1.8.2.3 Règles d’association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8.2.4 Recherche de séquences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
1.8.2.5 Détection de déviation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . … . . .9
1.9 Techniques et algorithmes de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9.1Classification supervisé. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 10
1.9.1.1 Les arbres de décision. . . . . . . . . . . .. . . . . . . . .. . . . . . . . . . . . . . .. . . . . .10
1.9.1.2 Les réseaux de neurones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 11
1.9.1.3 Classification bayésienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.9.1.4 Support Vecteurs Machine(SVM) . . . . . . . . .. .. .. .. . . . . .. .. . . . . . .. .. . . 13
1.9.1.5 k plus proches voisins. . . . .. .. . . . . . .. . . .. . . . . . .. . . . . .. . . .. . .. . . . . .. .13
1.9.2 Classification non-supervisé(Automatique). . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.1 Classification hiérarchique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.2 Classification par densité . . . . . . . . . . . .. . . . . . . . . … .. .. . . .. . . .. .. . . . .15
1.9.2.3 Classification par partition. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .. . . . .16
1.10 Conclusion. . . . . . . . .. . . . . .. . . . . . .. . . . . . . . . . .. . . . . . .. . . .. .. . . . . . . . .. . . 16
2 Détection De Communautés Dans Les Réseaux Sociaux
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Concepts. . . . . . . .. . .. . .. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Qu’est-ce qu’un réseau social. . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17
2.2.2 Communauté . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .. .. . . . . . 18
2.2.3 La détection de communautés. . . . .. . . . . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Exemples de réseaux sociaux . . . . . . . . . . . . . .. . . . . . . . . .. .. . . .. . . . . . . . . . . . . . 18
2.3.1 Club de karaté du Zachary. .. . .. .. . . . . . . .. .. .. . .. . . .. .. . . . . .. . . . . . .. . . ... . 18
2.3.2 Le graphe de Pages Web. . . . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . . 19
2.4 Analyse des réseaux sociaux. . . . . . . . .. . .. . . . . . . . . . . . . . . . . . .. . . . . . . . 19
2.5 Caractéristique d’un réseau social. . . . . . . . . . .. . . . .. . . . . .. .. ... . .. . . . . . . .20
2.5.1 L'Effet petit-monde. . . . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . .. . . . . . . . . . 20
2.5.2 Un coefficient de clustering (transitivité) local élevé. . . . . . . . . . … . . . .. . . . . .21
2.5.3 Clusterisation.. . . .. . . ... . . .. .. . . . . . . . . . . . . . .. . . . . .. . . . . .. . . . .. . . .. .. 21
2.6 Classification des approches de détection de communautés . . . . . .. .. . . . . . . … . 22
2.6.1 Les approches statiques sans recouvrement. . . . . .. . . . . . .. . . .. . . . . . . . . . .22
2.6.1.1 Les approches hiérarchiques .. . . . . . . . . . . . . .. . . . . . . .. . . . . . . . . . . . . .22
A. Approches hiérarchiques ascendantes (agglomératives)…. . . . . .. ... . . . . .22
B. Approches hiérarchiques descendantes (divisives)…….. . . . . . . . . . . . . . .24
2.6.1.2 Approches utilisant des marches aléatoires. . . . . . . . . . . .. . . . . . . . .. . . . .26
2.6.1.3 Approches spectrales . . . . .. .. . . . . . . . . . . . . . . . . . . .. . . . .. . . . . . . . . .27
2.6.2 Les approches statiques avec recouvrement. . . . . . . . . . . .. . . . . . . . . . . . . . . . 27
2.6.2.1 Approches basées sur des cliques. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . 27
2.6.2.2 Approches basées sur la propagation de labels. . . . . .. . . . . . . . .. . . . . . .. .28
2.6.2.3 Approches basées sur des graines. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . .29
2.6.2.4 Autres approches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30
2.6.3 Les approches dynamiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 31
2.6.3.1 Les approches par détections statiques successives. . . . . . . . . . . . . . . . . . .31
A Approches non recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3.2 Les approches par détections statiques informées successives. . . . . . . . . . 32
A Approches non recouvrantes. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Conclusion. .. . . . . . .. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. ..33
3 Contribution Et Algorithmes Etudiés
3.1 Introduction. .. . . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . 33
3.2 Détecter Communautés avec la Méthode VOS Clustering. .. … .. .. .. .. . . .. . .. ..33
3.3 Détecter les recouvrements avec la méthode de Fuzzy -K-means . . . . .. . . . . . . . 36
3.3.1 Avantages. . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . 37
3.3.2 Inconvénients. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . .38
3.4 Contribution. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1 Distances et métriques. .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1.1 Notion de distance .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. 38
3.4.1.2 Quelques types de distances… . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. . 38
3.4.1.3 Similarité… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . 41
3.5 Conclusion… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 42
4 Validation Des Résultats
4.1 Introduction… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2 Implémentation.. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2.1 Java.. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.2.2 NetBeans .. . . . . .. … . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3 Les Benchmarks de Test . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3.1 Benchmark du Club de Karaté Zachary. .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Benchmark du réseau social Southern Women.. . . . . . . . . . . . . . . . . . . . . . . . .44
4.4 Détection de communautés partitionnées et recouvrement. . . . . . . . . . . . . . . 44
4.4.1 Détection de communautés partitionnées.. . .. .. . . . . . . . . . .. . . . . . . . . . . . . .44
4.4.2 Détection et analyse de communautés recouvrantes. . . . . . . . . . . . . . . . . . . . . .48
4.5 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . ..51
Conclusion générale. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . .52
Bibliographie
Côte titre : MAI/0124
En ligne : https://drive.google.com/file/d/1F406BCC-asu3AvYZrfdiWgPzC0nG9kh1/view?usp=shari [...]
Format de la ressource électronique : pdf

Apprentissage automatique dans les réseaux sociaux [texte imprimé] / Kebbab,naouel ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2016 . - 1 vol (52f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Réseaux
Systèmes Distribués
apprentissage automatique
réseaux sociaux
Index. décimale : 004 Informatique
Résumé : Résumé
Dans les grands réseaux, la détection de sous-ensembles de sommets plus densément
connectés que d’autres, appelés des communautés, est un problème que l’on retrouve dans
plusieurs disciplines : Biologie (réseaux d’interactions entre protéines), Informatique
(recherche d’informations sur le Web), mais aussi, Sociologie (groupes dans des réseaux
sociaux). Ces communautés jouent un rôle important dans l’organisation ou la structuration
des réseaux.
De fait, il s’agit de déterminer des classes dans un graphe. Ce problème est donc
fortement lié à celui du partitionnement, avec la spécificité suivante : suivant l’usage que
l’on veut faire de ces communautés, les classes peuvent (doivent) être disjointes ou non. En
Biologie, où l’on analyse les réseaux d’interactions protéine-protéine pour, entre autres,
prédire leurs fonctions, nombreuses sont celles qui ont plusieurs fonctions et dans ce cas il
est raisonnable de construire non pas une partition, mais un recouvrement, c’est à dire un
système de classes chevauchantes. Il en est de même dans les réseaux sociaux, où les
individus peuvent appartenir à plusieurs groupes.
Ainsi, les méthodes traditionnelles en Classification peuvent être utilisées ; en
particulier les méthodes de construction d’une partition des sommets du graphe qui
maximisent un certain critère. Parmi les nombreux critères qui évaluent la qualité d’une
partition, nous ne faisons ici référence qu’à la notion de modularité introduite par
Newman. Malheureusement, son optimisation sur l’ensemble de toutes les partitions des
sommets d’un graphe est un problème NP-difficile ; il en est évidemment de même pour
les recouvrements. Il faut donc utiliser des méthodes heuristiques, dès lors que les graphes
étudiés sont de grande taille. Dans ce mémoire, nous proposons deux méthodes
approchées, l’une pour les partitions, qui permet d’optimiser la modularité (VOS
Clustering) basée sur l'algorithme de Louvain, qui est actuellement le meilleur algorithme
en termes de complexité, d’efficacité pour calculer des communautés sur de très grands
graphes. L’autre pour les recouvrements, Elle est basée sur la première approche pour le
nombre de communautés défini pour détecter les communautés chevauchantes.
Cette approche originale basée sur les techniques de Data Mining pour l’extraction
des connaissances, est l’algorithme FCM (Fuzzy C-Means).
Une étude de performances, dans laquelle nos méthodes sont testés sur des différents
graphes réels atteste de leur pertinence.
Note de contenu : Table des matières
Remerciements
Résumé
Table des matières
Table de figures
Introduction Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..…. 1
1 Data Mining
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 3
1.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Entrepôts de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 4
1.4 Le Data Mining est né de . . . . . . . . . . . . . . . . . . . . . …. . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Data Mining et KDD (Knowledge Data Discovery) . . . .. . . . . . . . . . . . .. . . . . . …. 5
1.6 DM : les raisons du développement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5
1.7 Mise en œuvre d’un projet de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.8 Caractérisation des méthodes de DM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.8.1 DM : une nouvelle conception de la statistique et du rôle des modèles. . . . . . . . .6
1.8.2 Tâches du Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 7
1.8.2.1 Classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.8.2.2 Clustering(Segmentation) . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .8
1.8.2.3 Règles d’association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8.2.4 Recherche de séquences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
1.8.2.5 Détection de déviation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . … . . .9
1.9 Techniques et algorithmes de DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9.1Classification supervisé. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 10
1.9.1.1 Les arbres de décision. . . . . . . . . . . .. . . . . . . . .. . . . . . . . . . . . . . .. . . . . .10
1.9.1.2 Les réseaux de neurones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 11
1.9.1.3 Classification bayésienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.9.1.4 Support Vecteurs Machine(SVM) . . . . . . . . .. .. .. .. . . . . .. .. . . . . . .. .. . . 13
1.9.1.5 k plus proches voisins. . . . .. .. . . . . . .. . . .. . . . . . .. . . . . .. . . .. . .. . . . . .. .13
1.9.2 Classification non-supervisé(Automatique). . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.1 Classification hiérarchique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14
1.9.2.2 Classification par densité . . . . . . . . . . . .. . . . . . . . . … .. .. . . .. . . .. .. . . . .15
1.9.2.3 Classification par partition. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .. . . . .16
1.10 Conclusion. . . . . . . . .. . . . . .. . . . . . .. . . . . . . . . . .. . . . . . .. . . .. .. . . . . . . . .. . . 16
2 Détection De Communautés Dans Les Réseaux Sociaux
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Concepts. . . . . . . .. . .. . .. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Qu’est-ce qu’un réseau social. . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17
2.2.2 Communauté . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .. .. . . . . . 18
2.2.3 La détection de communautés. . . . .. . . . . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Exemples de réseaux sociaux . . . . . . . . . . . . . .. . . . . . . . . .. .. . . .. . . . . . . . . . . . . . 18
2.3.1 Club de karaté du Zachary. .. . .. .. . . . . . . .. .. .. . .. . . .. .. . . . . .. . . . . . .. . . ... . 18
2.3.2 Le graphe de Pages Web. . . . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . . 19
2.4 Analyse des réseaux sociaux. . . . . . . . .. . .. . . . . . . . . . . . . . . . . . .. . . . . . . . 19
2.5 Caractéristique d’un réseau social. . . . . . . . . . .. . . . .. . . . . .. .. ... . .. . . . . . . .20
2.5.1 L'Effet petit-monde. . . . . . . . . . . . . . . . .. . . . . .. . . . . . . .. . . . . . . .. . . . . . . . . . 20
2.5.2 Un coefficient de clustering (transitivité) local élevé. . . . . . . . . . … . . . .. . . . . .21
2.5.3 Clusterisation.. . . .. . . ... . . .. .. . . . . . . . . . . . . . .. . . . . .. . . . . .. . . . .. . . .. .. 21
2.6 Classification des approches de détection de communautés . . . . . .. .. . . . . . . … . 22
2.6.1 Les approches statiques sans recouvrement. . . . . .. . . . . . .. . . .. . . . . . . . . . .22
2.6.1.1 Les approches hiérarchiques .. . . . . . . . . . . . . .. . . . . . . .. . . . . . . . . . . . . .22
A. Approches hiérarchiques ascendantes (agglomératives)…. . . . . .. ... . . . . .22
B. Approches hiérarchiques descendantes (divisives)…….. . . . . . . . . . . . . . .24
2.6.1.2 Approches utilisant des marches aléatoires. . . . . . . . . . . .. . . . . . . . .. . . . .26
2.6.1.3 Approches spectrales . . . . .. .. . . . . . . . . . . . . . . . . . . .. . . . .. . . . . . . . . .27
2.6.2 Les approches statiques avec recouvrement. . . . . . . . . . . .. . . . . . . . . . . . . . . . 27
2.6.2.1 Approches basées sur des cliques. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . 27
2.6.2.2 Approches basées sur la propagation de labels. . . . . .. . . . . . . . .. . . . . . .. .28
2.6.2.3 Approches basées sur des graines. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . .29
2.6.2.4 Autres approches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30
2.6.3 Les approches dynamiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 31
2.6.3.1 Les approches par détections statiques successives. . . . . . . . . . . . . . . . . . .31
A Approches non recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3.2 Les approches par détections statiques informées successives. . . . . . . . . . 32
A Approches non recouvrantes. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
B Approches recouvrantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Conclusion. .. . . . . . .. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. ..33
3 Contribution Et Algorithmes Etudiés
3.1 Introduction. .. . . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . 33
3.2 Détecter Communautés avec la Méthode VOS Clustering. .. … .. .. .. .. . . .. . .. ..33
3.3 Détecter les recouvrements avec la méthode de Fuzzy -K-means . . . . .. . . . . . . . 36
3.3.1 Avantages. . . . . . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . 37
3.3.2 Inconvénients. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . .38
3.4 Contribution. . . . … .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1 Distances et métriques. .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . .38
3.4.1.1 Notion de distance .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. 38
3.4.1.2 Quelques types de distances… . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . .. . 38
3.4.1.3 Similarité… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . 41
3.5 Conclusion… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 42
4 Validation Des Résultats
4.1 Introduction… .. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2 Implémentation.. .. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . 43
4.2.1 Java.. . .. .. . . . . .. … . . .. .. . . . .. .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.2.2 NetBeans .. . . . . .. … . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3 Les Benchmarks de Test . . .. .. . . . .. . . .. . . .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . .43
4.3.1 Benchmark du Club de Karaté Zachary. .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Benchmark du réseau social Southern Women.. . . . . . . . . . . . . . . . . . . . . . . . .44
4.4 Détection de communautés partitionnées et recouvrement. . . . . . . . . . . . . . . 44
4.4.1 Détection de communautés partitionnées.. . .. .. . . . . . . . . . .. . . . . . . . . . . . . .44
4.4.2 Détection et analyse de communautés recouvrantes. . . . . . . . . . . . . . . . . . . . . .48
4.5 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . ..51
Conclusion générale. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . .52
Bibliographie
Côte titre : MAI/0124
En ligne : https://drive.google.com/file/d/1F406BCC-asu3AvYZrfdiWgPzC0nG9kh1/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0124 MAI/0124 Mémoire Bibliothèque des sciences Français Disponible
Disponible

Apprentissage automatique par construction d’ensemble de classifieurs / TALHI, Ouafa

Public

ISBD

Titre : Apprentissage automatique par construction d’ensemble de classifieurs
Type de document : texte imprimé
Auteurs : TALHI, Ouafa ; A Moussaoui, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2015
Importance : 1 vol (58f.)
Format : 29 cm
Catégories : Informatique
Thèses & Mémoires:Informatique

Mots-clés : Classification, Data Mining, Extraction de connaissance, Apprentissage
automatique, Ensemble de Classifieurs, Boosting, Bagging, forêts aléatoires.
Index. décimale : 004 Informatique
Résumé : Résumé :
Dans de nombreux domaines (vision par ordinateur, reconnaissance des formes,
etc.), la résolution de la plupart des problèmes se base sur le traitement de données
extraites à partir des données acquises dans le monde réel, et structurées sous forme de
vecteurs. La qualité du système de traitement dépend directement du bon choix du contenu
de ces vecteurs. Mais dans de nombreux cas, la résolution du problème devient presque
impossible à cause de la dimension trop importante de ces vecteurs. Par conséquent, il est
souvent utile, et parfois nécessaire, de réduire celle-ci à une taille plus compatible avec les
méthodes de résolution, même si cette réduction peut conduire à une légère perte
d'informations.
Parmi ces méthodes : la construction d'ensembles de classifieurs.
Une manière particulière de construire un ensemble de classifieurs consiste à
sélectionner individuellement les membres en se basant sur des critères prédéfinis.
Dans ce cadre, nous avons présenté les méthodes les plus utilisé de cette méthode
(Bagging, Boosting, forêtes aléatoires) et utiliser ces méthodes pour la création d’un
nouvelle classifieur.

Note de contenu : TABLE DES MATIERES :
INTRODUCTION GENERALE
CHAPITRE1:EXTRACTION DES CONNAISSANCES ET FOUILLE DE DONNES
2. Extraction des connaissances à partir des données:................................................................3
2.1. Définitions de l’ECD : .....................................................................................................4
2.1.1. Définition 1: ..............................................................................................................4
2.1.2. Définition 2 : .............................................................................................................4
2.2. Le processus d’ECD : ......................................................................................................4
2.2.1. Nettoyage et intégration de données : .......................................................................5
2.2.2 Prétraitement de données ...........................................................................................5
2.2.3. Fouille de données(Datamining)...............................................................................6
2.2.4. Evaluation et présentation .........................................................................................6
2.3. Les limites de l'ECD ........................................................................................................7
3. La Fouille de données :...........................................................................................................7
3.1. Définitions: ......................................................................................................................7
3.1.1. Définition 1: ..............................................................................................................7
3.1.2. Définition 2: ..............................................................................................................7
3.2. Processus de fouille de données : ...................................................................................8
3.3. Les tâches du Data Mining : ............................................................................................9
3.4. Les méthodes de datamining..........................................................................................11
A. Les méthodes classiques..............................................................................................11
B. Les méthodes sophistiquées.........................................................................................11
3.5. Les domaines d’application de fouille de données.......................................................12
4. Conclusion :..........................................................................................................................13
CHAPITRE2 : APPRENTISSAGE AUTOMATIQUE ET CLASSIFICATION
1. Introduction : ........................................................................................................................14
2. Intelligence artificielle et apprentissage automatique ..........................................................14
3. Apprentissage automatique : ................................................................................................14
3.1. Objectif des algorithmes d’apprentissage :....................................................................15
3.2. Les modes d’apprentissage automatique : .....................................................................15
3.2.1. Apprentissage supervisé..........................................................................................15
3.2.2. Apprentissage non-supervisé : ................................................................................16
3.2.3. L’apprentissage semi-supervisé: .............................................................................16
3.3. Les problèmes d’apprentissage :....................................................................................16
4. La Classification :.................................................................................................................17
4.1. Définition:......................................................................................................................17
4.2. Méthodes de la classification.........................................................................................17
4.2.1. La classification supervisée :...................................................................................17
4.2.1.1. La méthode des k plus proches voisins (KPPV) : ............................................18
4.2.1.2. Les Réseaux de neurones : ...................................................................................19
4.2.1.3. Les arbres de décision : .......................................................................................20
4.2.1.4. Les machines à vecteurs de supports :.................................................................23
4.5.2. La classification non supervisée :............................................................................24
4.5.2. 1. Les méthodes par partitionnement : ....................................................................24
4.5.2. 1.1.La méthode de K-means :................................................................................24
4.5.2. 1.2. La méthode de k-medoids :...............................................................................25
4.5.2.1.3. Inconvénients des algorithmes de partitionnement:..........................................26
4.5.2. 2. Les méthodes hiérarchiques: ...............................................................................26
4.5.2. 2.1.classification ascendante hiérarchique (CAH) :...............................................26
4.5.2. 2.2. Les méthodes de classification descendante hiérarchique (CHD) ..................27
4.5.2. 2.2.Inconvénients des algorithmes hiérarchiques :..................................................27
Conclusion :..............................................................................................................................28
CHAPITRE3 : LES METHODES D'ENSEMBLES
1. Introduction : ........................................................................................................................29
2. Définition d’un classifieur :..................................................................................................29
3. Les méthodes d’ensembles de classifieurs: ..........................................................................29
3.1. Intérêt des méthodes ensemblistes :...............................................................................30
3.2. Les types des méthodes d’ensembles.............................................................................30
3.2.1. Les méthodes d’ensembles hétérogènes :...............................................................30
3.2.2. Les méthodes d’ensembles homogènes : ...............................................................30
4. Construction d’un ensemble de Classifieurs : ......................................................................31
4.1. Fusion de décisions :......................................................................................................31
4.1.1. Le mécanisme de vote ............................................................................................31
4.1.1.1. Le vote majoritaire : .........................................................................................31
4.1.1.2. Le vote majoritaire pondéré..............................................................................31
4.1.1.3. Le vote avec seuil .............................................................................................32
4.2. Techniques de construction d’un ensemble de classifieurs ...........................................32
4.2.1. Le Bagging :............................................................................................................32
4.2.1.1. Le principe de Bagging : ..................................................................................33
4.2.2. Le Boosting : ...........................................................................................................33
4.2.2.1.AdaBoost ...........................................................................................................33
4.2.2.2. Le principe du Boosting : .................................................................................34
4.2.3. Random Subspaces (RSM) : ...................................................................................34
4.2.3.1. Le principe de Random Subspaces :.................................................................35
4.2.4. Forêts aléatoires : ....................................................................................................35
4.2.4.1. Le principe des Forêts aléatoires : ....................................................................36
5. Travaux connexe : ................................................................................................................36
6. Contribution..........................................................................................................................39
7. Conclusion............................................................................................................................39
CHAPITRE4 : IMPLEMENTATION ET RESULTATS
1. Introduction ..........................................................................................................................40
2. Environnement et outils utilisés : .........................................................................................40
2.1.NetBeans IDE : ...............................................................................................................40
2.2. Weka (Waikato Environment for Knowledge Analysis):..............................................40
3. Description des bases de données utilisées .........................................................................41
3.1.1. Les descripteurs cliniques de la base.......................................................................41
3.2. La base de données Breast_Cancer :..............................................................................42
4. Le travaille effectué :............................................................................................................42
4.1. L’algorithme de vote majoritaire : .................................................................................42
4.1. L’algorithme de la méthode Fusion:..............................................................................43
Figure 4. 1:Structure de l’implémentation............................................................................43
5. Implémentation et résultats :.................................................................................................44
5.1. Etude comparative : .......................................................................................................50
5.1.1. J48 VS Bagging :.....................................................................................................50
5.1.2. J48 VS Boosting :....................................................................................................51
5.1.3. J48 VS Bagging VS Boosting :...............................................................................52
5.1.4. Bagging VS Boosting VS Forêts aléatoires: ...........................................................53
5.2. Fusion : ..........................................................................................................................55
6. Conclusion :..........................................................................................................................56
CONCLUSION GENERALE
BIBLIOGRAPHIE
Côte titre : MAI/0062
En ligne : https://drive.google.com/file/d/1V_Cwf7ISZqbboh1tBtbdGOpuWUrlyEIN/view?usp=shari [...]
Format de la ressource électronique : pdf

Apprentissage automatique par construction d’ensemble de classifieurs [texte imprimé] / TALHI, Ouafa ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2015 . - 1 vol (58f.) ; 29 cm.
Catégories : Informatique
Thèses & Mémoires:Informatique

Mots-clés : Classification, Data Mining, Extraction de connaissance, Apprentissage
automatique, Ensemble de Classifieurs, Boosting, Bagging, forêts aléatoires.
Index. décimale : 004 Informatique
Résumé : Résumé :
Dans de nombreux domaines (vision par ordinateur, reconnaissance des formes,
etc.), la résolution de la plupart des problèmes se base sur le traitement de données
extraites à partir des données acquises dans le monde réel, et structurées sous forme de
vecteurs. La qualité du système de traitement dépend directement du bon choix du contenu
de ces vecteurs. Mais dans de nombreux cas, la résolution du problème devient presque
impossible à cause de la dimension trop importante de ces vecteurs. Par conséquent, il est
souvent utile, et parfois nécessaire, de réduire celle-ci à une taille plus compatible avec les
méthodes de résolution, même si cette réduction peut conduire à une légère perte
d'informations.
Parmi ces méthodes : la construction d'ensembles de classifieurs.
Une manière particulière de construire un ensemble de classifieurs consiste à
sélectionner individuellement les membres en se basant sur des critères prédéfinis.
Dans ce cadre, nous avons présenté les méthodes les plus utilisé de cette méthode
(Bagging, Boosting, forêtes aléatoires) et utiliser ces méthodes pour la création d’un
nouvelle classifieur.

Note de contenu : TABLE DES MATIERES :
INTRODUCTION GENERALE
CHAPITRE1:EXTRACTION DES CONNAISSANCES ET FOUILLE DE DONNES
2. Extraction des connaissances à partir des données:................................................................3
2.1. Définitions de l’ECD : .....................................................................................................4
2.1.1. Définition 1: ..............................................................................................................4
2.1.2. Définition 2 : .............................................................................................................4
2.2. Le processus d’ECD : ......................................................................................................4
2.2.1. Nettoyage et intégration de données : .......................................................................5
2.2.2 Prétraitement de données ...........................................................................................5
2.2.3. Fouille de données(Datamining)...............................................................................6
2.2.4. Evaluation et présentation .........................................................................................6
2.3. Les limites de l'ECD ........................................................................................................7
3. La Fouille de données :...........................................................................................................7
3.1. Définitions: ......................................................................................................................7
3.1.1. Définition 1: ..............................................................................................................7
3.1.2. Définition 2: ..............................................................................................................7
3.2. Processus de fouille de données : ...................................................................................8
3.3. Les tâches du Data Mining : ............................................................................................9
3.4. Les méthodes de datamining..........................................................................................11
A. Les méthodes classiques..............................................................................................11
B. Les méthodes sophistiquées.........................................................................................11
3.5. Les domaines d’application de fouille de données.......................................................12
4. Conclusion :..........................................................................................................................13
CHAPITRE2 : APPRENTISSAGE AUTOMATIQUE ET CLASSIFICATION
1. Introduction : ........................................................................................................................14
2. Intelligence artificielle et apprentissage automatique ..........................................................14
3. Apprentissage automatique : ................................................................................................14
3.1. Objectif des algorithmes d’apprentissage :....................................................................15
3.2. Les modes d’apprentissage automatique : .....................................................................15
3.2.1. Apprentissage supervisé..........................................................................................15
3.2.2. Apprentissage non-supervisé : ................................................................................16
3.2.3. L’apprentissage semi-supervisé: .............................................................................16
3.3. Les problèmes d’apprentissage :....................................................................................16
4. La Classification :.................................................................................................................17
4.1. Définition:......................................................................................................................17
4.2. Méthodes de la classification.........................................................................................17
4.2.1. La classification supervisée :...................................................................................17
4.2.1.1. La méthode des k plus proches voisins (KPPV) : ............................................18
4.2.1.2. Les Réseaux de neurones : ...................................................................................19
4.2.1.3. Les arbres de décision : .......................................................................................20
4.2.1.4. Les machines à vecteurs de supports :.................................................................23
4.5.2. La classification non supervisée :............................................................................24
4.5.2. 1. Les méthodes par partitionnement : ....................................................................24
4.5.2. 1.1.La méthode de K-means :................................................................................24
4.5.2. 1.2. La méthode de k-medoids :...............................................................................25
4.5.2.1.3. Inconvénients des algorithmes de partitionnement:..........................................26
4.5.2. 2. Les méthodes hiérarchiques: ...............................................................................26
4.5.2. 2.1.classification ascendante hiérarchique (CAH) :...............................................26
4.5.2. 2.2. Les méthodes de classification descendante hiérarchique (CHD) ..................27
4.5.2. 2.2.Inconvénients des algorithmes hiérarchiques :..................................................27
Conclusion :..............................................................................................................................28
CHAPITRE3 : LES METHODES D'ENSEMBLES
1. Introduction : ........................................................................................................................29
2. Définition d’un classifieur :..................................................................................................29
3. Les méthodes d’ensembles de classifieurs: ..........................................................................29
3.1. Intérêt des méthodes ensemblistes :...............................................................................30
3.2. Les types des méthodes d’ensembles.............................................................................30
3.2.1. Les méthodes d’ensembles hétérogènes :...............................................................30
3.2.2. Les méthodes d’ensembles homogènes : ...............................................................30
4. Construction d’un ensemble de Classifieurs : ......................................................................31
4.1. Fusion de décisions :......................................................................................................31
4.1.1. Le mécanisme de vote ............................................................................................31
4.1.1.1. Le vote majoritaire : .........................................................................................31
4.1.1.2. Le vote majoritaire pondéré..............................................................................31
4.1.1.3. Le vote avec seuil .............................................................................................32
4.2. Techniques de construction d’un ensemble de classifieurs ...........................................32
4.2.1. Le Bagging :............................................................................................................32
4.2.1.1. Le principe de Bagging : ..................................................................................33
4.2.2. Le Boosting : ...........................................................................................................33
4.2.2.1.AdaBoost ...........................................................................................................33
4.2.2.2. Le principe du Boosting : .................................................................................34
4.2.3. Random Subspaces (RSM) : ...................................................................................34
4.2.3.1. Le principe de Random Subspaces :.................................................................35
4.2.4. Forêts aléatoires : ....................................................................................................35
4.2.4.1. Le principe des Forêts aléatoires : ....................................................................36
5. Travaux connexe : ................................................................................................................36
6. Contribution..........................................................................................................................39
7. Conclusion............................................................................................................................39
CHAPITRE4 : IMPLEMENTATION ET RESULTATS
1. Introduction ..........................................................................................................................40
2. Environnement et outils utilisés : .........................................................................................40
2.1.NetBeans IDE : ...............................................................................................................40
2.2. Weka (Waikato Environment for Knowledge Analysis):..............................................40
3. Description des bases de données utilisées .........................................................................41
3.1.1. Les descripteurs cliniques de la base.......................................................................41
3.2. La base de données Breast_Cancer :..............................................................................42
4. Le travaille effectué :............................................................................................................42
4.1. L’algorithme de vote majoritaire : .................................................................................42
4.1. L’algorithme de la méthode Fusion:..............................................................................43
Figure 4. 1:Structure de l’implémentation............................................................................43
5. Implémentation et résultats :.................................................................................................44
5.1. Etude comparative : .......................................................................................................50
5.1.1. J48 VS Bagging :.....................................................................................................50
5.1.2. J48 VS Boosting :....................................................................................................51
5.1.3. J48 VS Bagging VS Boosting :...............................................................................52
5.1.4. Bagging VS Boosting VS Forêts aléatoires: ...........................................................53
5.2. Fusion : ..........................................................................................................................55
6. Conclusion :..........................................................................................................................56
CONCLUSION GENERALE
BIBLIOGRAPHIE
Côte titre : MAI/0062
En ligne : https://drive.google.com/file/d/1V_Cwf7ISZqbboh1tBtbdGOpuWUrlyEIN/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0062 MAI/0062 Mémoire Bibliothèque des sciences Français Disponible
Disponible

Approche bioinspere pour l’extraction des connaissances dans les big data / ZENBOUT,Imene

Public

ISBD

Titre : Approche bioinspere pour l’extraction des connaissances dans les big data
Type de document : texte imprimé
Auteurs : ZENBOUT,Imene ; A Moussaoui, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2016
Importance : 1 vol (72f.)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big data, data analytics, bioinformatique, ADN, metaheuristiues, NP-Hard,
problem, Assemblage des fragment d’ADN
Index. décimale : 004 Informatique
Résumé : résumé
Les Big data sont devenues le maitre et le contrôleur des deux mondes réel et digitale, l’explosion dans les données amènent des bénéfices ainsi que des défis, parmi ces
défis c’est comment peut’ on extraire des connaissances d’après ces données?. le bioinformatiques et la fragmentation d’ADN sont considérés maintenant parmi les sources
principales de la génération des données et pour le besoin de l’extraction des connaissance de ces données, il faut de les formuler comme des problèmes NP-hard pour les
résoudre avec des metaheuristiques. Pour ces raisons nous avons proposé un algorithm
bio inspirés basé sur l’algorithme des penguins pour traiter l’exemple de l’assemblage
des fragments d’ADN.

Note de contenu : Contents
1 Big Data:Background 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Getting Started . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Toward big data . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 What is Big Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Big data characteristics . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.4 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.5 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.6 Variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Related Technologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Cloud Computing . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.2 Internet of Thing . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Hadoop/MapReduce . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Big data analytic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1 Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.3 Data Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.4 Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.5 Data Visualization . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Big data impact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7.1 Big data and Retail industry . . . . . . . . . . . . . . . . . . . . 18
1.7.2 Big data and Healthcare . . . . . . . . . . . . . . . . . . . . . . 18
1.7.3 Big data and Biology . . . . . . . . . . . . . . . . . . . . . . . 19
1.8 Big data Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8.1 Big Data Challenges . . . . . . . . . . . . . . . . . . . . . . . . 21
1.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Combinatorial Optimization Problem 24
2.1 Combinatorial Optimization . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1 Combinatorial Optimization Problem . . . . . . . . . . . . . . . 24
2.1.2 Problems Classification . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.3 Combinatorial optimization methods . . . . . . . . . . . . . . . 26
2.2 Metaheuristics and bioinspiration to resolve COP . . . . . . . . . . . . 28
2.2.1 Bioinspired Optimality Search algorithms . . . . . . . . . . . . . 29
3 Biological Knowledge Discovery:DNA fragment Assembly 35
3.1 DNA structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Overview on Genome Sequencing . . . . . . . . . . . . . . . . . . . . . 36
3.3 DNA Fragment Assembly . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Bioinspired approachs for DFA problem . . . . . . . . . . . . . . . . . 38
3.4.1 Genetic Algorithm in DFA problem . . . . . . . . . . . . . . . . 38
3.4.2 Swarm intelligence for DFA problem . . . . . . . . . . . . . . . 39
3.4.3 Cuckoo Search for DFA problem . . . . . . . . . . . . . . . . . . 39
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Contribution 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Proposed Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 DFA problem formulation . . . . . . . . . . . . . . . . . . . . . 40
4.2.2 Penguin search optimization algorithm for DFA . . . . . . . . . 41
4.2.3 Overlap Graph based on PeSOA for DNA fragment assembly
problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Conception . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Use-Cases Diagram . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.2 StateChart diagram . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.3 Classes Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4 Realisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.1 tools and methods . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4.3 Experimental Result . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Bibliography 65
Côte titre : MAI/0097
En ligne : https://drive.google.com/file/d/1gmA18QtMFFN762RWASIi4A0XB5WgW99R/view?usp=shari [...]
Format de la ressource électronique : pdf

Approche bioinspere pour l’extraction des connaissances dans les big data [texte imprimé] / ZENBOUT,Imene ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2016 . - 1 vol (72f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big data, data analytics, bioinformatique, ADN, metaheuristiues, NP-Hard,
problem, Assemblage des fragment d’ADN
Index. décimale : 004 Informatique
Résumé : résumé
Les Big data sont devenues le maitre et le contrôleur des deux mondes réel et digitale, l’explosion dans les données amènent des bénéfices ainsi que des défis, parmi ces
défis c’est comment peut’ on extraire des connaissances d’après ces données?. le bioinformatiques et la fragmentation d’ADN sont considérés maintenant parmi les sources
principales de la génération des données et pour le besoin de l’extraction des connaissance de ces données, il faut de les formuler comme des problèmes NP-hard pour les
résoudre avec des metaheuristiques. Pour ces raisons nous avons proposé un algorithm
bio inspirés basé sur l’algorithme des penguins pour traiter l’exemple de l’assemblage
des fragments d’ADN.

Note de contenu : Contents
1 Big Data:Background 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Getting Started . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Toward big data . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 What is Big Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Big data characteristics . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.4 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.5 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.6 Variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Related Technologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Cloud Computing . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.2 Internet of Thing . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Hadoop/MapReduce . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Big data analytic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1 Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.3 Data Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.4 Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.5 Data Visualization . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Big data impact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7.1 Big data and Retail industry . . . . . . . . . . . . . . . . . . . . 18
1.7.2 Big data and Healthcare . . . . . . . . . . . . . . . . . . . . . . 18
1.7.3 Big data and Biology . . . . . . . . . . . . . . . . . . . . . . . 19
1.8 Big data Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8.1 Big Data Challenges . . . . . . . . . . . . . . . . . . . . . . . . 21
1.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Combinatorial Optimization Problem 24
2.1 Combinatorial Optimization . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1 Combinatorial Optimization Problem . . . . . . . . . . . . . . . 24
2.1.2 Problems Classification . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.3 Combinatorial optimization methods . . . . . . . . . . . . . . . 26
2.2 Metaheuristics and bioinspiration to resolve COP . . . . . . . . . . . . 28
2.2.1 Bioinspired Optimality Search algorithms . . . . . . . . . . . . . 29
3 Biological Knowledge Discovery:DNA fragment Assembly 35
3.1 DNA structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Overview on Genome Sequencing . . . . . . . . . . . . . . . . . . . . . 36
3.3 DNA Fragment Assembly . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Bioinspired approachs for DFA problem . . . . . . . . . . . . . . . . . 38
3.4.1 Genetic Algorithm in DFA problem . . . . . . . . . . . . . . . . 38
3.4.2 Swarm intelligence for DFA problem . . . . . . . . . . . . . . . 39
3.4.3 Cuckoo Search for DFA problem . . . . . . . . . . . . . . . . . . 39
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Contribution 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Proposed Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 DFA problem formulation . . . . . . . . . . . . . . . . . . . . . 40
4.2.2 Penguin search optimization algorithm for DFA . . . . . . . . . 41
4.2.3 Overlap Graph based on PeSOA for DNA fragment assembly
problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Conception . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Use-Cases Diagram . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.2 StateChart diagram . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.3 Classes Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4 Realisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.1 tools and methods . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4.3 Experimental Result . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Bibliography 65
Côte titre : MAI/0097
En ligne : https://drive.google.com/file/d/1gmA18QtMFFN762RWASIi4A0XB5WgW99R/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0097 MAI/0097 Mémoire Bibliothèque des sciences Français Disponible
Disponible

Deep Learning pour l'identification et classification des expressions faciales émotionnelles / Diboune, nadia

Public

ISBD

Titre : Deep Learning pour l'identification et classification des expressions faciales émotionnelles
Type de document : texte imprimé
Auteurs : Diboune, nadia ; A Moussaoui, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2017
Importance : 1 vol (71f.)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Ingénierie de Données
Technologies Web
deep learning
expressions faciales émotionnelles
Index. décimale : 004 Informatique
Côte titre : MAI/0196

Deep Learning pour l'identification et classification des expressions faciales émotionnelles [texte imprimé] / Diboune, nadia ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2017 . - 1 vol (71f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Ingénierie de Données
Technologies Web
deep learning
expressions faciales émotionnelles
Index. décimale : 004 Informatique
Côte titre : MAI/0196

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0196 MAI/0196 Mémoire Bibliothèque des sciences Français Disponible
Disponible

Extraction de connaissances dans les big data : Application aux données biomédicales / SEDJAL, Maroua Yousra

Public

ISBD

Titre : Extraction de connaissances dans les big data : Application aux données biomédicales
Type de document : texte imprimé
Auteurs : SEDJAL, Maroua Yousra ; A Moussaoui, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2015
Importance : 1 vol (61f.)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big Data, ECD, Bioinformatique, Alignement des séquences ADN.
Index. décimale : 004 Informatique
Résumé : Résumé
La bioinformatique est une discipline qui englobe l'ensemble des applications de l'informatique dans le domaine de la biologie, Elle représente un domaine de recherche très vaste qui a comme objectif adapter les outils informatiques afin de pouvoir stocker, analyser et visualiser les informations contenues dans les multiples sources de données biologiques tel que les séquences d'ADN , ARN et des protéines des êtres vivants.
Dans le domaine de la Data Science, le Big Data étant un ensemble de nouvelles technologies de fouille de données énorme, la bioinformatique lui offre une large quantité de données variée qui peut être exploité afin d'en extraire toutes les informations et connaissances utiles
Le but de notre travail est de développer une application qui aide a extraire des informations et des connaissances a partir des comparaisons des séquences d’ADN, en se basant sur un algorithme biologique tel que l'algorithme d'alignement global et multiple de Needleman et Wunsch, et qui peut être déployer afin de traiter de très grande quantité de données comme les Big Data.

Note de contenu : Table De Matières
Introduction générale
Chapitre 1 : Extraction des connaissances et fouilles de données
1 Introduction : .................................................................................................................................. 2
2 L’extraction des connaissances ....................................................................................................... 2
2.1 Définition : .............................................................................................................................. 2
2.2 Le processus ECD : ................................................................................................................. 3
2.2.1 La donnée : ...................................................................................................................... 3
2.2.2 L’information : ................................................................................................................ 3
2.2.3 La connaissance : ............................................................................................................. 3
2.3 Les phases du processus ECD : ............................................................................................... 4
2.3.1 Phase d’acquisition des données : ................................................................................... 4
2.3.2 Phase de fouille de données : ........................................................................................... 5
2.3.3 Phase de validation et de mise en forme : ....................................................................... 5
2.4 Les types de données exploitées dans l’ECD : ........................................................................ 6
2.4.1 Les données disponibles en permanence : ....................................................................... 6
2.4.2. Les données disponibles temporelles : .................................................................................. 6
2.5 Les types de connaissances dans l’ECD : ................................................................................ 7
3 L’apprentissage automatique ........................................................................................................... 7
3.1 Définition de l’apprentissage automatique : ............................................................................ 7
3.2 Algorithmes de l’apprentissage automatique : ........................................................................ 7
3.2.1 L'apprentissage supervisé : .............................................................................................. 7
3.2.2 L'apprentissage non-supervisé : ....................................................................................... 8
3.2.3 L'apprentissage par renforcement : .................................................................................. 8
4 La fouille de données (Data Mining) ............................................................................................... 9
4.1 Définition de la fouille de données : ........................................................................................ 9
4.2 Les facteurs d’émergence du Data Mining : ............................................................................ 9
4.2.1 Le volume des bases de données : ................................................................................... 9
4.2.2 Le rapport à la clientèle : ................................................................................................. 9
4.3 Les types de Data Mining : ..................................................................................................... 9
4.4 Les taches de Data Mining : .................................................................................................. 10
4.5 Les types de méthodes du Data Mining : ............................................................................. 11
4.5.1 Les méthodes descriptives (recherche de patterns) : ..................................................... 11
4.5.2 Les méthodes prédictives (modélisation) : .................................................................... 11
4.6 Les logiciels de fouille de données : ...................................................................................... 11
4.6.1 Les logiciels sur PC : .................................................................................................... 11
4.6.2 Logiciels commercialisés sur gros systèmes : ............................................................... 11
5 La classification ............................................................................................................................. 12
5.1 Définition : ............................................................................................................................ 12
5.2 Processus de classification : .................................................................................................. 12
5.2.1 La construction du modèle à partir de l’ensemble d’apprentissage : ............................. 12
5.2.2 L’utilisation du modèle : ............................................................................................... 12
5.3 Evaluation des méthodes de classification : .......................................................................... 12
5.4 Mesures de la qualité d’une méthode de classification : ....................................................... 13
5.5 Méthodes de Classification.................................................................................................... 13
5.5.1 Méthode K-NN (plus proche voisin) : ........................................................................... 13
5.5.2 Réseaux de neurones : ................................................................................................... 13
5.5.3 Classification Bayésienne : ............................................................................................ 14
5.5.4 Arbres de décision : ....................................................................................................... 15
6 La segmentation (Clustering) ....................................................................................................... 16
6.1 Définition : ............................................................................................................................ 16
6.2 Les algorithmes du Clustering : ............................................................................................ 17
6.2.1 Algorithmes de Partitionnement : .................................................................................. 17
6.2.2 Algorithmes hiérarchiques : .......................................................................................... 18
6.2.3 Algorithmes basés sur la densité : ................................................................................. 18
6.2.4 Algorithmes de grille : ................................................................................................... 18
6.2.5 Algorithmes à modèles : ................................................................................................ 18
6.3 Les mesures de qualité d’un Clustering : .............................................................................. 19
6.3.1 La similarité : ................................................................................................................. 19
6.3.2 La distance : ................................................................................................................... 19
6.4 Les domaines d’application du Clustering : .......................................................................... 19
7 Conclusion : .................................................................................................................................. 20
Chapitre 2 : Big Data
1 Introduction : ................................................................................................................................ 22
2 Historique : ................................................................................................................................... 22
3 Définition du Big Data : ................................................................................................................ 23
4 Quelque notion autour du Big Data : ............................................................................................. 23
5 Les caractéristiques du Big Data : ................................................................................................. 23
6 Framework de traitement des Big Data : ....................................................................................... 24
6.1 Tier I: plate-forme de Big Data Mining : .............................................................................. 25
6.2 Tier II : Sémantique des Big Data et connaissance des applications : .................................. 26
6.2.1 Partage de l'information et de la confidentialité des données : ...................................... 26
6.2.2 Connaissance des domaines d’application : .................................................................. 26
6.3 Tier III: Algorithmes de Big Data Mining ............................................................................ 27
6.3.1 Apprentissage et Fusion de modèles des différentes sources d'information : .............. 27
6.3.2 Fouille des données éparses, incertaines et incomplètes : ............................................ 27
6.3.3 Fouille des données complexes et dynamiques : .......................................................... 27
7 Les technologies du Big Data : .................................................................................................... 28
8 Les domaines d’application du Big Data : .................................................................................. 29
9 Les usages du Big Data : ............................................................................................................... 29
10 Le Big Data et les entrepôts de données : .................................................................................. 30
11 Conclusion : ............................................................................................................................... 31
Chapitre 3 : Bioinformatique
1 Introduction : ................................................................................................................................ 33
1.1 Définition de la Biologie : ..................................................................................................... 33
2 Définition de la Bioinformatique : ............................................................................................... 33
3 Les banques et bases de données biologiques : ............................................................................. 34
3.1 Les banques de séquences généralistes : ............................................................................... 34
3.1.1 Les banques de séquences nucléiques : ......................................................................... 34
3.1.2 Les banques de séquences protéiques :.......................................................................... 36
3.2 Les banques de séquences spécialisées : ............................................................................... 36
3.3 Diffusion et utilisation des banques de données : .................................................................. 37
4 Apports à la biologie : ................................................................................................................... 37
4.1 Les algorithmes génétiques : ................................................................................................. 38
4.2 L’analyse de la structure des protéines : ................................................................................ 38
4.3 Les mécanismes de repliement des protéines : .................................................................. 39
4.3.1 Les enjeux de repliement des protéines : ...................................................................... 39
4.3.2 Les approches d’analyse de la structure de protéines : .................................................. 39
4.4 Les algorithmes d'extraction de motif : ................................................................................ 40
4.5 L’analyse des séquences d'ADN : ......................................................................................... 40
4.5.1 Les Algorithmes et les programmes de comparaison de séquences .............................. 41
4.5.2 Les Algorithmes et les programmes d’alignement de séquences AD N : ................... 41
5 Conclusion : .................................................................................................................................. 44
Chapitre 4 : Réalisation
1 Introduction : ................................................................................................................................ 46
2 Travaux connexes : ........................................................................................................................ 46
3 Implémentation : ............................................................................................................................ 46
3.1 Plateforme et langages de programmation : .......................................................................... 46
3.2 La base de données : .............................................................................................................. 47
3.3 L’algorithme choisi : ............................................................................................................. 47
4 Le déroulement du système : ......................................................................................................... 48
4.1 Le premier exemple : ............................................................................................................. 48
4.2 Le deuxième exemple : .......................................................................................................... 52
4.3 Le troisième exemple : .......................................................................................................... 55
5 Conclusion :……………………………………………………........................ ……………..58
Conclusion générale
Perspectives
Bibliographie
Côte titre : MAI/0048
En ligne : https://drive.google.com/file/d/1GUfkd8q3CwDPHVwJCd18N_oG8U7VSz1j/view?usp=shari [...]
Format de la ressource électronique : pdf

Extraction de connaissances dans les big data : Application aux données biomédicales [texte imprimé] / SEDJAL, Maroua Yousra ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2015 . - 1 vol (61f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big Data, ECD, Bioinformatique, Alignement des séquences ADN.
Index. décimale : 004 Informatique
Résumé : Résumé
La bioinformatique est une discipline qui englobe l'ensemble des applications de l'informatique dans le domaine de la biologie, Elle représente un domaine de recherche très vaste qui a comme objectif adapter les outils informatiques afin de pouvoir stocker, analyser et visualiser les informations contenues dans les multiples sources de données biologiques tel que les séquences d'ADN , ARN et des protéines des êtres vivants.
Dans le domaine de la Data Science, le Big Data étant un ensemble de nouvelles technologies de fouille de données énorme, la bioinformatique lui offre une large quantité de données variée qui peut être exploité afin d'en extraire toutes les informations et connaissances utiles
Le but de notre travail est de développer une application qui aide a extraire des informations et des connaissances a partir des comparaisons des séquences d’ADN, en se basant sur un algorithme biologique tel que l'algorithme d'alignement global et multiple de Needleman et Wunsch, et qui peut être déployer afin de traiter de très grande quantité de données comme les Big Data.

Note de contenu : Table De Matières
Introduction générale
Chapitre 1 : Extraction des connaissances et fouilles de données
1 Introduction : .................................................................................................................................. 2
2 L’extraction des connaissances ....................................................................................................... 2
2.1 Définition : .............................................................................................................................. 2
2.2 Le processus ECD : ................................................................................................................. 3
2.2.1 La donnée : ...................................................................................................................... 3
2.2.2 L’information : ................................................................................................................ 3
2.2.3 La connaissance : ............................................................................................................. 3
2.3 Les phases du processus ECD : ............................................................................................... 4
2.3.1 Phase d’acquisition des données : ................................................................................... 4
2.3.2 Phase de fouille de données : ........................................................................................... 5
2.3.3 Phase de validation et de mise en forme : ....................................................................... 5
2.4 Les types de données exploitées dans l’ECD : ........................................................................ 6
2.4.1 Les données disponibles en permanence : ....................................................................... 6
2.4.2. Les données disponibles temporelles : .................................................................................. 6
2.5 Les types de connaissances dans l’ECD : ................................................................................ 7
3 L’apprentissage automatique ........................................................................................................... 7
3.1 Définition de l’apprentissage automatique : ............................................................................ 7
3.2 Algorithmes de l’apprentissage automatique : ........................................................................ 7
3.2.1 L'apprentissage supervisé : .............................................................................................. 7
3.2.2 L'apprentissage non-supervisé : ....................................................................................... 8
3.2.3 L'apprentissage par renforcement : .................................................................................. 8
4 La fouille de données (Data Mining) ............................................................................................... 9
4.1 Définition de la fouille de données : ........................................................................................ 9
4.2 Les facteurs d’émergence du Data Mining : ............................................................................ 9
4.2.1 Le volume des bases de données : ................................................................................... 9
4.2.2 Le rapport à la clientèle : ................................................................................................. 9
4.3 Les types de Data Mining : ..................................................................................................... 9
4.4 Les taches de Data Mining : .................................................................................................. 10
4.5 Les types de méthodes du Data Mining : ............................................................................. 11
4.5.1 Les méthodes descriptives (recherche de patterns) : ..................................................... 11
4.5.2 Les méthodes prédictives (modélisation) : .................................................................... 11
4.6 Les logiciels de fouille de données : ...................................................................................... 11
4.6.1 Les logiciels sur PC : .................................................................................................... 11
4.6.2 Logiciels commercialisés sur gros systèmes : ............................................................... 11
5 La classification ............................................................................................................................. 12
5.1 Définition : ............................................................................................................................ 12
5.2 Processus de classification : .................................................................................................. 12
5.2.1 La construction du modèle à partir de l’ensemble d’apprentissage : ............................. 12
5.2.2 L’utilisation du modèle : ............................................................................................... 12
5.3 Evaluation des méthodes de classification : .......................................................................... 12
5.4 Mesures de la qualité d’une méthode de classification : ....................................................... 13
5.5 Méthodes de Classification.................................................................................................... 13
5.5.1 Méthode K-NN (plus proche voisin) : ........................................................................... 13
5.5.2 Réseaux de neurones : ................................................................................................... 13
5.5.3 Classification Bayésienne : ............................................................................................ 14
5.5.4 Arbres de décision : ....................................................................................................... 15
6 La segmentation (Clustering) ....................................................................................................... 16
6.1 Définition : ............................................................................................................................ 16
6.2 Les algorithmes du Clustering : ............................................................................................ 17
6.2.1 Algorithmes de Partitionnement : .................................................................................. 17
6.2.2 Algorithmes hiérarchiques : .......................................................................................... 18
6.2.3 Algorithmes basés sur la densité : ................................................................................. 18
6.2.4 Algorithmes de grille : ................................................................................................... 18
6.2.5 Algorithmes à modèles : ................................................................................................ 18
6.3 Les mesures de qualité d’un Clustering : .............................................................................. 19
6.3.1 La similarité : ................................................................................................................. 19
6.3.2 La distance : ................................................................................................................... 19
6.4 Les domaines d’application du Clustering : .......................................................................... 19
7 Conclusion : .................................................................................................................................. 20
Chapitre 2 : Big Data
1 Introduction : ................................................................................................................................ 22
2 Historique : ................................................................................................................................... 22
3 Définition du Big Data : ................................................................................................................ 23
4 Quelque notion autour du Big Data : ............................................................................................. 23
5 Les caractéristiques du Big Data : ................................................................................................. 23
6 Framework de traitement des Big Data : ....................................................................................... 24
6.1 Tier I: plate-forme de Big Data Mining : .............................................................................. 25
6.2 Tier II : Sémantique des Big Data et connaissance des applications : .................................. 26
6.2.1 Partage de l'information et de la confidentialité des données : ...................................... 26
6.2.2 Connaissance des domaines d’application : .................................................................. 26
6.3 Tier III: Algorithmes de Big Data Mining ............................................................................ 27
6.3.1 Apprentissage et Fusion de modèles des différentes sources d'information : .............. 27
6.3.2 Fouille des données éparses, incertaines et incomplètes : ............................................ 27
6.3.3 Fouille des données complexes et dynamiques : .......................................................... 27
7 Les technologies du Big Data : .................................................................................................... 28
8 Les domaines d’application du Big Data : .................................................................................. 29
9 Les usages du Big Data : ............................................................................................................... 29
10 Le Big Data et les entrepôts de données : .................................................................................. 30
11 Conclusion : ............................................................................................................................... 31
Chapitre 3 : Bioinformatique
1 Introduction : ................................................................................................................................ 33
1.1 Définition de la Biologie : ..................................................................................................... 33
2 Définition de la Bioinformatique : ............................................................................................... 33
3 Les banques et bases de données biologiques : ............................................................................. 34
3.1 Les banques de séquences généralistes : ............................................................................... 34
3.1.1 Les banques de séquences nucléiques : ......................................................................... 34
3.1.2 Les banques de séquences protéiques :.......................................................................... 36
3.2 Les banques de séquences spécialisées : ............................................................................... 36
3.3 Diffusion et utilisation des banques de données : .................................................................. 37
4 Apports à la biologie : ................................................................................................................... 37
4.1 Les algorithmes génétiques : ................................................................................................. 38
4.2 L’analyse de la structure des protéines : ................................................................................ 38
4.3 Les mécanismes de repliement des protéines : .................................................................. 39
4.3.1 Les enjeux de repliement des protéines : ...................................................................... 39
4.3.2 Les approches d’analyse de la structure de protéines : .................................................. 39
4.4 Les algorithmes d'extraction de motif : ................................................................................ 40
4.5 L’analyse des séquences d'ADN : ......................................................................................... 40
4.5.1 Les Algorithmes et les programmes de comparaison de séquences .............................. 41
4.5.2 Les Algorithmes et les programmes d’alignement de séquences AD N : ................... 41
5 Conclusion : .................................................................................................................................. 44
Chapitre 4 : Réalisation
1 Introduction : ................................................................................................................................ 46
2 Travaux connexes : ........................................................................................................................ 46
3 Implémentation : ............................................................................................................................ 46
3.1 Plateforme et langages de programmation : .......................................................................... 46
3.2 La base de données : .............................................................................................................. 47
3.3 L’algorithme choisi : ............................................................................................................. 47
4 Le déroulement du système : ......................................................................................................... 48
4.1 Le premier exemple : ............................................................................................................. 48
4.2 Le deuxième exemple : .......................................................................................................... 52
4.3 Le troisième exemple : .......................................................................................................... 55
5 Conclusion :……………………………………………………........................ ……………..58
Conclusion générale
Perspectives
Bibliographie
Côte titre : MAI/0048
En ligne : https://drive.google.com/file/d/1GUfkd8q3CwDPHVwJCd18N_oG8U7VSz1j/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0048 MAI/0048 Mémoire Bibliothèque des sciences Français Disponible
Disponible

Extraction de connaissances par inférence : Application au diagnostic médical / BOURICHE, Imane

Permalink
Machine Learning pour la reconnaissance d’expressions faciales émotionnelles / BELABIOD,Ahlem

Permalink
Système interactif pour le contrôle gestuel des applications multimédia / ISSAAD, Fouzia

Permalink
Système multi-agents pour la segmentation d'image IRM cérébrale « Application sur la sclérose en plaques » / Sahraoui,wafa

Permalink
Système de recommandation par filtrage collaboratif / Bouaoun, kaouther

Permalink