University Sétif 1 FERHAT ABBAS Faculty of Sciences
Résultat de la recherche
1 résultat(s) recherche sur le mot-clé 'Big Data, ECD, Bioinformatique, Alignement des séquences ADN.'
Ajouter le résultat dans votre panier Affiner la recherche Générer le flux rss de la recherche
Partager le résultat de cette recherche
Extraction de connaissances dans les big data : Application aux données biomédicales / SEDJAL, Maroua Yousra
Titre : Extraction de connaissances dans les big data : Application aux données biomédicales Type de document : texte imprimé Auteurs : SEDJAL, Maroua Yousra ; A Moussaoui, Directeur de thèse Editeur : Setif:UFA Année de publication : 2015 Importance : 1 vol (61f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data, ECD, Bioinformatique, Alignement des séquences ADN. Index. décimale : 004 Informatique Résumé : Résumé
La bioinformatique est une discipline qui englobe l'ensemble des applications de l'informatique dans le domaine de la biologie, Elle représente un domaine de recherche très vaste qui a comme objectif adapter les outils informatiques afin de pouvoir stocker, analyser et visualiser les informations contenues dans les multiples sources de données biologiques tel que les séquences d'ADN , ARN et des protéines des êtres vivants.
Dans le domaine de la Data Science, le Big Data étant un ensemble de nouvelles technologies de fouille de données énorme, la bioinformatique lui offre une large quantité de données variée qui peut être exploité afin d'en extraire toutes les informations et connaissances utiles
Le but de notre travail est de développer une application qui aide a extraire des informations et des connaissances a partir des comparaisons des séquences d’ADN, en se basant sur un algorithme biologique tel que l'algorithme d'alignement global et multiple de Needleman et Wunsch, et qui peut être déployer afin de traiter de très grande quantité de données comme les Big Data.
Note de contenu : Table De Matières
Introduction générale
Chapitre 1 : Extraction des connaissances et fouilles de données
1 Introduction : .................................................................................................................................. 2
2 L’extraction des connaissances ....................................................................................................... 2
2.1 Définition : .............................................................................................................................. 2
2.2 Le processus ECD : ................................................................................................................. 3
2.2.1 La donnée : ...................................................................................................................... 3
2.2.2 L’information : ................................................................................................................ 3
2.2.3 La connaissance : ............................................................................................................. 3
2.3 Les phases du processus ECD : ............................................................................................... 4
2.3.1 Phase d’acquisition des données : ................................................................................... 4
2.3.2 Phase de fouille de données : ........................................................................................... 5
2.3.3 Phase de validation et de mise en forme : ....................................................................... 5
2.4 Les types de données exploitées dans l’ECD : ........................................................................ 6
2.4.1 Les données disponibles en permanence : ....................................................................... 6
2.4.2. Les données disponibles temporelles : .................................................................................. 6
2.5 Les types de connaissances dans l’ECD : ................................................................................ 7
3 L’apprentissage automatique ........................................................................................................... 7
3.1 Définition de l’apprentissage automatique : ............................................................................ 7
3.2 Algorithmes de l’apprentissage automatique : ........................................................................ 7
3.2.1 L'apprentissage supervisé : .............................................................................................. 7
3.2.2 L'apprentissage non-supervisé : ....................................................................................... 8
3.2.3 L'apprentissage par renforcement : .................................................................................. 8
4 La fouille de données (Data Mining) ............................................................................................... 9
4.1 Définition de la fouille de données : ........................................................................................ 9
4.2 Les facteurs d’émergence du Data Mining : ............................................................................ 9
4.2.1 Le volume des bases de données : ................................................................................... 9
4.2.2 Le rapport à la clientèle : ................................................................................................. 9
4.3 Les types de Data Mining : ..................................................................................................... 9
4.4 Les taches de Data Mining : .................................................................................................. 10
4.5 Les types de méthodes du Data Mining : ............................................................................. 11
4.5.1 Les méthodes descriptives (recherche de patterns) : ..................................................... 11
4.5.2 Les méthodes prédictives (modélisation) : .................................................................... 11
4.6 Les logiciels de fouille de données : ...................................................................................... 11
4.6.1 Les logiciels sur PC : .................................................................................................... 11
4.6.2 Logiciels commercialisés sur gros systèmes : ............................................................... 11
5 La classification ............................................................................................................................. 12
5.1 Définition : ............................................................................................................................ 12
5.2 Processus de classification : .................................................................................................. 12
5.2.1 La construction du modèle à partir de l’ensemble d’apprentissage : ............................. 12
5.2.2 L’utilisation du modèle : ............................................................................................... 12
5.3 Evaluation des méthodes de classification : .......................................................................... 12
5.4 Mesures de la qualité d’une méthode de classification : ....................................................... 13
5.5 Méthodes de Classification.................................................................................................... 13
5.5.1 Méthode K-NN (plus proche voisin) : ........................................................................... 13
5.5.2 Réseaux de neurones : ................................................................................................... 13
5.5.3 Classification Bayésienne : ............................................................................................ 14
5.5.4 Arbres de décision : ....................................................................................................... 15
6 La segmentation (Clustering) ....................................................................................................... 16
6.1 Définition : ............................................................................................................................ 16
6.2 Les algorithmes du Clustering : ............................................................................................ 17
6.2.1 Algorithmes de Partitionnement : .................................................................................. 17
6.2.2 Algorithmes hiérarchiques : .......................................................................................... 18
6.2.3 Algorithmes basés sur la densité : ................................................................................. 18
6.2.4 Algorithmes de grille : ................................................................................................... 18
6.2.5 Algorithmes à modèles : ................................................................................................ 18
6.3 Les mesures de qualité d’un Clustering : .............................................................................. 19
6.3.1 La similarité : ................................................................................................................. 19
6.3.2 La distance : ................................................................................................................... 19
6.4 Les domaines d’application du Clustering : .......................................................................... 19
7 Conclusion : .................................................................................................................................. 20
Chapitre 2 : Big Data
1 Introduction : ................................................................................................................................ 22
2 Historique : ................................................................................................................................... 22
3 Définition du Big Data : ................................................................................................................ 23
4 Quelque notion autour du Big Data : ............................................................................................. 23
5 Les caractéristiques du Big Data : ................................................................................................. 23
6 Framework de traitement des Big Data : ....................................................................................... 24
6.1 Tier I: plate-forme de Big Data Mining : .............................................................................. 25
6.2 Tier II : Sémantique des Big Data et connaissance des applications : .................................. 26
6.2.1 Partage de l'information et de la confidentialité des données : ...................................... 26
6.2.2 Connaissance des domaines d’application : .................................................................. 26
6.3 Tier III: Algorithmes de Big Data Mining ............................................................................ 27
6.3.1 Apprentissage et Fusion de modèles des différentes sources d'information : .............. 27
6.3.2 Fouille des données éparses, incertaines et incomplètes : ............................................ 27
6.3.3 Fouille des données complexes et dynamiques : .......................................................... 27
7 Les technologies du Big Data : .................................................................................................... 28
8 Les domaines d’application du Big Data : .................................................................................. 29
9 Les usages du Big Data : ............................................................................................................... 29
10 Le Big Data et les entrepôts de données : .................................................................................. 30
11 Conclusion : ............................................................................................................................... 31
Chapitre 3 : Bioinformatique
1 Introduction : ................................................................................................................................ 33
1.1 Définition de la Biologie : ..................................................................................................... 33
2 Définition de la Bioinformatique : ............................................................................................... 33
3 Les banques et bases de données biologiques : ............................................................................. 34
3.1 Les banques de séquences généralistes : ............................................................................... 34
3.1.1 Les banques de séquences nucléiques : ......................................................................... 34
3.1.2 Les banques de séquences protéiques :.......................................................................... 36
3.2 Les banques de séquences spécialisées : ............................................................................... 36
3.3 Diffusion et utilisation des banques de données : .................................................................. 37
4 Apports à la biologie : ................................................................................................................... 37
4.1 Les algorithmes génétiques : ................................................................................................. 38
4.2 L’analyse de la structure des protéines : ................................................................................ 38
4.3 Les mécanismes de repliement des protéines : .................................................................. 39
4.3.1 Les enjeux de repliement des protéines : ...................................................................... 39
4.3.2 Les approches d’analyse de la structure de protéines : .................................................. 39
4.4 Les algorithmes d'extraction de motif : ................................................................................ 40
4.5 L’analyse des séquences d'ADN : ......................................................................................... 40
4.5.1 Les Algorithmes et les programmes de comparaison de séquences .............................. 41
4.5.2 Les Algorithmes et les programmes d’alignement de séquences AD N : ................... 41
5 Conclusion : .................................................................................................................................. 44
Chapitre 4 : Réalisation
1 Introduction : ................................................................................................................................ 46
2 Travaux connexes : ........................................................................................................................ 46
3 Implémentation : ............................................................................................................................ 46
3.1 Plateforme et langages de programmation : .......................................................................... 46
3.2 La base de données : .............................................................................................................. 47
3.3 L’algorithme choisi : ............................................................................................................. 47
4 Le déroulement du système : ......................................................................................................... 48
4.1 Le premier exemple : ............................................................................................................. 48
4.2 Le deuxième exemple : .......................................................................................................... 52
4.3 Le troisième exemple : .......................................................................................................... 55
5 Conclusion :……………………………………………………........................ ……………..58
Conclusion générale
Perspectives
BibliographieCôte titre : MAI/0048 En ligne : https://drive.google.com/file/d/1GUfkd8q3CwDPHVwJCd18N_oG8U7VSz1j/view?usp=shari [...] Format de la ressource électronique : Extraction de connaissances dans les big data : Application aux données biomédicales [texte imprimé] / SEDJAL, Maroua Yousra ; A Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2015 . - 1 vol (61f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data, ECD, Bioinformatique, Alignement des séquences ADN. Index. décimale : 004 Informatique Résumé : Résumé
La bioinformatique est une discipline qui englobe l'ensemble des applications de l'informatique dans le domaine de la biologie, Elle représente un domaine de recherche très vaste qui a comme objectif adapter les outils informatiques afin de pouvoir stocker, analyser et visualiser les informations contenues dans les multiples sources de données biologiques tel que les séquences d'ADN , ARN et des protéines des êtres vivants.
Dans le domaine de la Data Science, le Big Data étant un ensemble de nouvelles technologies de fouille de données énorme, la bioinformatique lui offre une large quantité de données variée qui peut être exploité afin d'en extraire toutes les informations et connaissances utiles
Le but de notre travail est de développer une application qui aide a extraire des informations et des connaissances a partir des comparaisons des séquences d’ADN, en se basant sur un algorithme biologique tel que l'algorithme d'alignement global et multiple de Needleman et Wunsch, et qui peut être déployer afin de traiter de très grande quantité de données comme les Big Data.
Note de contenu : Table De Matières
Introduction générale
Chapitre 1 : Extraction des connaissances et fouilles de données
1 Introduction : .................................................................................................................................. 2
2 L’extraction des connaissances ....................................................................................................... 2
2.1 Définition : .............................................................................................................................. 2
2.2 Le processus ECD : ................................................................................................................. 3
2.2.1 La donnée : ...................................................................................................................... 3
2.2.2 L’information : ................................................................................................................ 3
2.2.3 La connaissance : ............................................................................................................. 3
2.3 Les phases du processus ECD : ............................................................................................... 4
2.3.1 Phase d’acquisition des données : ................................................................................... 4
2.3.2 Phase de fouille de données : ........................................................................................... 5
2.3.3 Phase de validation et de mise en forme : ....................................................................... 5
2.4 Les types de données exploitées dans l’ECD : ........................................................................ 6
2.4.1 Les données disponibles en permanence : ....................................................................... 6
2.4.2. Les données disponibles temporelles : .................................................................................. 6
2.5 Les types de connaissances dans l’ECD : ................................................................................ 7
3 L’apprentissage automatique ........................................................................................................... 7
3.1 Définition de l’apprentissage automatique : ............................................................................ 7
3.2 Algorithmes de l’apprentissage automatique : ........................................................................ 7
3.2.1 L'apprentissage supervisé : .............................................................................................. 7
3.2.2 L'apprentissage non-supervisé : ....................................................................................... 8
3.2.3 L'apprentissage par renforcement : .................................................................................. 8
4 La fouille de données (Data Mining) ............................................................................................... 9
4.1 Définition de la fouille de données : ........................................................................................ 9
4.2 Les facteurs d’émergence du Data Mining : ............................................................................ 9
4.2.1 Le volume des bases de données : ................................................................................... 9
4.2.2 Le rapport à la clientèle : ................................................................................................. 9
4.3 Les types de Data Mining : ..................................................................................................... 9
4.4 Les taches de Data Mining : .................................................................................................. 10
4.5 Les types de méthodes du Data Mining : ............................................................................. 11
4.5.1 Les méthodes descriptives (recherche de patterns) : ..................................................... 11
4.5.2 Les méthodes prédictives (modélisation) : .................................................................... 11
4.6 Les logiciels de fouille de données : ...................................................................................... 11
4.6.1 Les logiciels sur PC : .................................................................................................... 11
4.6.2 Logiciels commercialisés sur gros systèmes : ............................................................... 11
5 La classification ............................................................................................................................. 12
5.1 Définition : ............................................................................................................................ 12
5.2 Processus de classification : .................................................................................................. 12
5.2.1 La construction du modèle à partir de l’ensemble d’apprentissage : ............................. 12
5.2.2 L’utilisation du modèle : ............................................................................................... 12
5.3 Evaluation des méthodes de classification : .......................................................................... 12
5.4 Mesures de la qualité d’une méthode de classification : ....................................................... 13
5.5 Méthodes de Classification.................................................................................................... 13
5.5.1 Méthode K-NN (plus proche voisin) : ........................................................................... 13
5.5.2 Réseaux de neurones : ................................................................................................... 13
5.5.3 Classification Bayésienne : ............................................................................................ 14
5.5.4 Arbres de décision : ....................................................................................................... 15
6 La segmentation (Clustering) ....................................................................................................... 16
6.1 Définition : ............................................................................................................................ 16
6.2 Les algorithmes du Clustering : ............................................................................................ 17
6.2.1 Algorithmes de Partitionnement : .................................................................................. 17
6.2.2 Algorithmes hiérarchiques : .......................................................................................... 18
6.2.3 Algorithmes basés sur la densité : ................................................................................. 18
6.2.4 Algorithmes de grille : ................................................................................................... 18
6.2.5 Algorithmes à modèles : ................................................................................................ 18
6.3 Les mesures de qualité d’un Clustering : .............................................................................. 19
6.3.1 La similarité : ................................................................................................................. 19
6.3.2 La distance : ................................................................................................................... 19
6.4 Les domaines d’application du Clustering : .......................................................................... 19
7 Conclusion : .................................................................................................................................. 20
Chapitre 2 : Big Data
1 Introduction : ................................................................................................................................ 22
2 Historique : ................................................................................................................................... 22
3 Définition du Big Data : ................................................................................................................ 23
4 Quelque notion autour du Big Data : ............................................................................................. 23
5 Les caractéristiques du Big Data : ................................................................................................. 23
6 Framework de traitement des Big Data : ....................................................................................... 24
6.1 Tier I: plate-forme de Big Data Mining : .............................................................................. 25
6.2 Tier II : Sémantique des Big Data et connaissance des applications : .................................. 26
6.2.1 Partage de l'information et de la confidentialité des données : ...................................... 26
6.2.2 Connaissance des domaines d’application : .................................................................. 26
6.3 Tier III: Algorithmes de Big Data Mining ............................................................................ 27
6.3.1 Apprentissage et Fusion de modèles des différentes sources d'information : .............. 27
6.3.2 Fouille des données éparses, incertaines et incomplètes : ............................................ 27
6.3.3 Fouille des données complexes et dynamiques : .......................................................... 27
7 Les technologies du Big Data : .................................................................................................... 28
8 Les domaines d’application du Big Data : .................................................................................. 29
9 Les usages du Big Data : ............................................................................................................... 29
10 Le Big Data et les entrepôts de données : .................................................................................. 30
11 Conclusion : ............................................................................................................................... 31
Chapitre 3 : Bioinformatique
1 Introduction : ................................................................................................................................ 33
1.1 Définition de la Biologie : ..................................................................................................... 33
2 Définition de la Bioinformatique : ............................................................................................... 33
3 Les banques et bases de données biologiques : ............................................................................. 34
3.1 Les banques de séquences généralistes : ............................................................................... 34
3.1.1 Les banques de séquences nucléiques : ......................................................................... 34
3.1.2 Les banques de séquences protéiques :.......................................................................... 36
3.2 Les banques de séquences spécialisées : ............................................................................... 36
3.3 Diffusion et utilisation des banques de données : .................................................................. 37
4 Apports à la biologie : ................................................................................................................... 37
4.1 Les algorithmes génétiques : ................................................................................................. 38
4.2 L’analyse de la structure des protéines : ................................................................................ 38
4.3 Les mécanismes de repliement des protéines : .................................................................. 39
4.3.1 Les enjeux de repliement des protéines : ...................................................................... 39
4.3.2 Les approches d’analyse de la structure de protéines : .................................................. 39
4.4 Les algorithmes d'extraction de motif : ................................................................................ 40
4.5 L’analyse des séquences d'ADN : ......................................................................................... 40
4.5.1 Les Algorithmes et les programmes de comparaison de séquences .............................. 41
4.5.2 Les Algorithmes et les programmes d’alignement de séquences AD N : ................... 41
5 Conclusion : .................................................................................................................................. 44
Chapitre 4 : Réalisation
1 Introduction : ................................................................................................................................ 46
2 Travaux connexes : ........................................................................................................................ 46
3 Implémentation : ............................................................................................................................ 46
3.1 Plateforme et langages de programmation : .......................................................................... 46
3.2 La base de données : .............................................................................................................. 47
3.3 L’algorithme choisi : ............................................................................................................. 47
4 Le déroulement du système : ......................................................................................................... 48
4.1 Le premier exemple : ............................................................................................................. 48
4.2 Le deuxième exemple : .......................................................................................................... 52
4.3 Le troisième exemple : .......................................................................................................... 55
5 Conclusion :……………………………………………………........................ ……………..58
Conclusion générale
Perspectives
BibliographieCôte titre : MAI/0048 En ligne : https://drive.google.com/file/d/1GUfkd8q3CwDPHVwJCd18N_oG8U7VSz1j/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0048 MAI/0048 Mémoire Bibliothéque des sciences Français Disponible
Disponible