University Sétif 1 FERHAT ABBAS Faculty of Sciences
Résultat de la recherche
1 résultat(s) recherche sur le mot-clé 'Machine Learning Deep Learning Autoencoders Cancer RPPA TCGA'
Ajouter le résultat dans votre panier Affiner la recherche Générer le flux rss de la recherche
Partager le résultat de cette recherche
Titre : Deep model for the diagnosis of critical diseases Type de document : texte imprimé Auteurs : Lekdim ,Iméne, Auteur ; Mediani ,chahrazed, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (70 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Deep Learning
Autoencoders
Cancer
RPPA
TCGAIndex. décimale : 004 - Informatique Résumé : Genomics and proteinomoc activities are the fundamental controllers of the
living processes of any organism. They carry out most of the work, perform
most life functions, and make up the majority of cellular structures. Their
abnormal behaviors are believed to be the driving factors of many genetic diseases.
Therefore, understanding these activities have become an important mission of largescale
genomics researchers.However, these filed of study has some limitations such as
the sensitivity, the high dimensional and the huge scale of data. That’s why it is a
challenging application area of deep learning. But the DL is most effective in situations
where one would like to make sense of large, complex data sets.
In this thesis, the deep learning method Autoencoders has been used in an attempt to
solve a classification problem, witch is cancer detection, using two distenct annotated
datasets the microRNA dataset and the revers phase proteins array.
The obtained results were very promising, and prove that our integrative deep model
was superior in classification and prediction of Cancer Type as well as the PFI score
with high accuracy.
Note de contenu : Sommaire
List of Tables viii
List of Figures ix
Introduction 1
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Aim of the work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Structure of the work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1 Biological Background 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Bioinformatic and Human Genome Project . . . . . . . . . . . . . . . . 5
1.3 Molecular biology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Cells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Nucleic acids . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.3 Protien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3.1 Protien expression . . . . . . . . . . . . . . . . . . . . 11
1.3.3.2 Reverse Phase Protein Array . . . . . . . . . . . . . . 12
1.3.4 Molecular genetics . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.4.1 Gene and Genome . . . . . . . . . . . . . . . . . . . . 14
1.3.4.2 Gene expression . . . . . . . . . . . . . . . . . . . . . 15
1.3.4.3 miRNA . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Captur the Biological data . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1 Microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Next Generation Sequencing . . . . . . . . . . . . . . . . . . . . 19
v
CONTENTS
1.4.3 NGS versus Microarray technology . . . . . . . . . . . . . . . . 20
1.5 Personalized Medicine and Cancer . . . . . . . . . . . . . . . . . . . . . 21
1.5.1 Cancer as a genetic disease . . . . . . . . . . . . . . . . . . . . . 21
1.5.2 Personalized medicine . . . . . . . . . . . . . . . . . . . . . . . 22
1.5.3 Personalized treatment of cancer . . . . . . . . . . . . . . . . . 23
1.5.4 Omic data integration . . . . . . . . . . . . . . . . . . . . . . . 23
1.6 Bioinformatics And Cancer . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Theorical Background 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 Machine Learning process . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Machine Learning Categories . . . . . . . . . . . . . . . . . . . 29
2.2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . 30
2.2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . 31
2.2.2.3 Reinforcement Learning . . . . . . . . . . . . . . . . . 32
2.2.3 Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 33
2.2.3.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . 33
2.2.3.2 Decision Tree . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.3.3 K-Nearest Neighbors (KNN) . . . . . . . . . . . . . . . 34
2.2.3.4 Random Forests . . . . . . . . . . . . . . . . . . . . . 34
2.2.3.5 Support Vector Machines (SVM) . . . . . . . . . . . . 34
2.2.3.6 Artificial Neural Networks . . . . . . . . . . . . . . . . 35
2.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1 Deep Learning Architecture . . . . . . . . . . . . . . . . . . . . 43
2.3.1.1 Convolutional Neural Networks (CNN) . . . . . . . . . 43
2.3.1.2 Autoencoders . . . . . . . . . . . . . . . . . . . . . . . 44
2.3.1.3 Deep Belief Networks . . . . . . . . . . . . . . . . . . . 45
2.3.1.4 Generative Adversarial Networks (GANs) . . . . . . . 46
2.3.1.5 Recurrent Neural Networks (RNN) . . . . . . . . . . . 47
2.3.1.6 Recursive Neural Networks . . . . . . . . . . . . . . . 47
2.3.1.7 Restricted Boltzmann Machines (RBM) . . . . . . . . 48
vi
CONTENTS
2.3.2 Deep Learning Applications . . . . . . . . . . . . . . . . . . . . 48
2.3.2.1 Speech Recognition . . . . . . . . . . . . . . . . . . . . 48
2.3.2.2 Natural Language Processing . . . . . . . . . . . . . . 49
2.3.2.3 Recommender Systems . . . . . . . . . . . . . . . . . . 49
2.3.2.4 Healthcare . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.3 Deep Learning In Bioinformatics . . . . . . . . . . . . . . . . . 51
2.3.3.1 Deep Learning And Cancer (Literature Review) . . . . 51
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3 Datasets And Implementation Frameworks 56
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Data collection (TCGA data) . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 Platforms and data types . . . . . . . . . . . . . . . . . . . . . 58
3.3 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.1 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1.1 Data Curation . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1.2 Imputation of missing values . . . . . . . . . . . . . . 63
3.4 Implementation Framework . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.1 Development environment . . . . . . . . . . . . . . . . . . . . . 64
3.4.1.1 Working environment . . . . . . . . . . . . . . . . . . 64
3.4.1.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4.2 Deep Learning Frameworks . . . . . . . . . . . . . . . . . . . . 65
3.4.2.1 TensofFlow . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4.2.2 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.3 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.4 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.5 Scikit-Learn . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.6 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5 Proposal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5.1 Deep Integrative AutoEncoder . . . . . . . . . . . . . . . . . . . 67
3.6 Experimental results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
vii
CONTENTS
Conclusion 76
Future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Appendices 78
3.8 Appendix A: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.9 Appendix B: Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . 81
Bibliography 82
viiiCôte titre : MAI/0329 En ligne : https://drive.google.com/file/d/1-evPujsmUl0eKPmEAa4DQtAzaaRci7PA/view?usp=shari [...] Format de la ressource électronique : Deep model for the diagnosis of critical diseases [texte imprimé] / Lekdim ,Iméne, Auteur ; Mediani ,chahrazed, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (70 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Deep Learning
Autoencoders
Cancer
RPPA
TCGAIndex. décimale : 004 - Informatique Résumé : Genomics and proteinomoc activities are the fundamental controllers of the
living processes of any organism. They carry out most of the work, perform
most life functions, and make up the majority of cellular structures. Their
abnormal behaviors are believed to be the driving factors of many genetic diseases.
Therefore, understanding these activities have become an important mission of largescale
genomics researchers.However, these filed of study has some limitations such as
the sensitivity, the high dimensional and the huge scale of data. That’s why it is a
challenging application area of deep learning. But the DL is most effective in situations
where one would like to make sense of large, complex data sets.
In this thesis, the deep learning method Autoencoders has been used in an attempt to
solve a classification problem, witch is cancer detection, using two distenct annotated
datasets the microRNA dataset and the revers phase proteins array.
The obtained results were very promising, and prove that our integrative deep model
was superior in classification and prediction of Cancer Type as well as the PFI score
with high accuracy.
Note de contenu : Sommaire
List of Tables viii
List of Figures ix
Introduction 1
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Aim of the work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Structure of the work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1 Biological Background 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Bioinformatic and Human Genome Project . . . . . . . . . . . . . . . . 5
1.3 Molecular biology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Cells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Nucleic acids . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.3 Protien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3.1 Protien expression . . . . . . . . . . . . . . . . . . . . 11
1.3.3.2 Reverse Phase Protein Array . . . . . . . . . . . . . . 12
1.3.4 Molecular genetics . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.4.1 Gene and Genome . . . . . . . . . . . . . . . . . . . . 14
1.3.4.2 Gene expression . . . . . . . . . . . . . . . . . . . . . 15
1.3.4.3 miRNA . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Captur the Biological data . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1 Microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Next Generation Sequencing . . . . . . . . . . . . . . . . . . . . 19
v
CONTENTS
1.4.3 NGS versus Microarray technology . . . . . . . . . . . . . . . . 20
1.5 Personalized Medicine and Cancer . . . . . . . . . . . . . . . . . . . . . 21
1.5.1 Cancer as a genetic disease . . . . . . . . . . . . . . . . . . . . . 21
1.5.2 Personalized medicine . . . . . . . . . . . . . . . . . . . . . . . 22
1.5.3 Personalized treatment of cancer . . . . . . . . . . . . . . . . . 23
1.5.4 Omic data integration . . . . . . . . . . . . . . . . . . . . . . . 23
1.6 Bioinformatics And Cancer . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Theorical Background 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 Machine Learning process . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Machine Learning Categories . . . . . . . . . . . . . . . . . . . 29
2.2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . 30
2.2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . 31
2.2.2.3 Reinforcement Learning . . . . . . . . . . . . . . . . . 32
2.2.3 Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 33
2.2.3.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . 33
2.2.3.2 Decision Tree . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.3.3 K-Nearest Neighbors (KNN) . . . . . . . . . . . . . . . 34
2.2.3.4 Random Forests . . . . . . . . . . . . . . . . . . . . . 34
2.2.3.5 Support Vector Machines (SVM) . . . . . . . . . . . . 34
2.2.3.6 Artificial Neural Networks . . . . . . . . . . . . . . . . 35
2.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1 Deep Learning Architecture . . . . . . . . . . . . . . . . . . . . 43
2.3.1.1 Convolutional Neural Networks (CNN) . . . . . . . . . 43
2.3.1.2 Autoencoders . . . . . . . . . . . . . . . . . . . . . . . 44
2.3.1.3 Deep Belief Networks . . . . . . . . . . . . . . . . . . . 45
2.3.1.4 Generative Adversarial Networks (GANs) . . . . . . . 46
2.3.1.5 Recurrent Neural Networks (RNN) . . . . . . . . . . . 47
2.3.1.6 Recursive Neural Networks . . . . . . . . . . . . . . . 47
2.3.1.7 Restricted Boltzmann Machines (RBM) . . . . . . . . 48
vi
CONTENTS
2.3.2 Deep Learning Applications . . . . . . . . . . . . . . . . . . . . 48
2.3.2.1 Speech Recognition . . . . . . . . . . . . . . . . . . . . 48
2.3.2.2 Natural Language Processing . . . . . . . . . . . . . . 49
2.3.2.3 Recommender Systems . . . . . . . . . . . . . . . . . . 49
2.3.2.4 Healthcare . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.3 Deep Learning In Bioinformatics . . . . . . . . . . . . . . . . . 51
2.3.3.1 Deep Learning And Cancer (Literature Review) . . . . 51
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3 Datasets And Implementation Frameworks 56
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Data collection (TCGA data) . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 Platforms and data types . . . . . . . . . . . . . . . . . . . . . 58
3.3 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.1 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1.1 Data Curation . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1.2 Imputation of missing values . . . . . . . . . . . . . . 63
3.4 Implementation Framework . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.1 Development environment . . . . . . . . . . . . . . . . . . . . . 64
3.4.1.1 Working environment . . . . . . . . . . . . . . . . . . 64
3.4.1.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4.2 Deep Learning Frameworks . . . . . . . . . . . . . . . . . . . . 65
3.4.2.1 TensofFlow . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4.2.2 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.3 Pandas . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.4 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.5 Scikit-Learn . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2.6 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5 Proposal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5.1 Deep Integrative AutoEncoder . . . . . . . . . . . . . . . . . . . 67
3.6 Experimental results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
vii
CONTENTS
Conclusion 76
Future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Appendices 78
3.8 Appendix A: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.9 Appendix B: Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . 81
Bibliography 82
viiiCôte titre : MAI/0329 En ligne : https://drive.google.com/file/d/1-evPujsmUl0eKPmEAa4DQtAzaaRci7PA/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0329 MAI/0329 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible