University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Yasmine Mansour |
Documents disponibles écrits par cet auteur



Titre : Deep Learning for Breast cancer classification based on DNA data analysis Type de document : texte imprimé Auteurs : Ahlem Bakziz, Auteur ; Rania Rebai ; Yasmine Mansour, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (69 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatics
Genomics
Deep learning
NGS data analysis,
Cancer classificationIndex. décimale : 004 - Informatique Résumé : challenge in terms of diagnosis and treatment. Next-Generation Sequencing
(NGS) has emerged as a powerful tool, offering profound insights into
the genetic landscape of various cancer types. This project aims to bridge the
gap between computer science and bioinformatics by developing an AI-based
application in Python to analyze NGS DNA data and classify cancer subtypes
with enhanced accuracy.
The objective of our research is coupling NGS DNA data analysis with artificial
intelligence (AI) techniques.this project underscores the potential of AI in
cancer genomics. The integration of advanced computational methods promises
to refine the classification of cancer subtypes based on NGS DNA data, thus
enhancing clinical relevance and accuracy.
The methodology involves the development of a user-friendly Python-based
application that harnesses AI algorithms to improve the accuracy and efficiency
of NGS DNA data interpretation, equipping them with essential skills for tackling
real-world challenges in cancer research.
Through this interdisciplinary endeavor, we aim to empower future researchers
to navigate the complex landscape of cancer biology with proficiency
and innovation. By harnessing the potential of AI and NGS technologies, we
endeavor to drive progress in cancer diagnosis, treatment, and patient care, ultimately
advancing the fight against this formidable disease.Note de contenu : Sommaire
Abbreviations xii
1 Bioinformatics and Cancer 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Background . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Molecules: DNA, RNA, miRNA . . . . . . . . . . . . 6
1.2.3 Gene Expression Analysis . . . . . . . . . . . . . . . 7
1.2.4 Next-Generation Sequencing . . . . . . . . . . . . . . 8
1.2.5 The genomic variations . . . . . . . . . . . . . . . . . 10
1.3 Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Cancer Stages . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Cancer Therapy . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Breast cancer . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Precision medicine . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Artificial Intelligence (AI) 16
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Application of AI in bioinformatics . . . . . . . . . . . . . . 16
2.2.1 Sequence analysis: Genomics, transcriptomics and proteomics:
. . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Medical and clinical applications: From Personalized
medicine to enhanced decision-making . . . . . . . . 18
2.3 AI applications in bioinformatics . . . . . . . . . . . . . . . . 18
2.3.1 Machine Learning (ML) . . . . . . . . . . . . . . . . 18
2.3.2 Deep Learning (DL) . . . . . . . . . . . . . . . . . . 19
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 State of the art 26
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 AI for omic data analysis . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Single Omic analysis . . . . . . . . . . . . . . . . . . 27
3.2.2 Multi-level Omic analysis . . . . . . . . . . . . . . . 27
3.2.3 Deep learning in multi-omics data . . . . . . . . . . . 27
3.2.4 Classification of cancer using DNA sequencing: Existing
AI models . . . . . . . . . . . . . . . . . . . . . . 28
3.2.5 Integration of DL models and statistical models . . . . 28
3.3 Read classifiers . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.1 Alignment-free read classifiers . . . . . . . . . . . . . 33
3.3.2 Alignment-based read classifiers . . . . . . . . . . . . 33
3.3.3 Assembly-based read classifiers . . . . . . . . . . . . 34
3.3.4 Read classifiers combining multiple other classifiers . 34
3.4 Breast cancer and machine/deep learning collaboration . . . . 34
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Contribution and Experimentation 39
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Scientific question . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Data collection and pre-processing . . . . . . . . . . . . . . . 42
4.4.1 Data collection . . . . . . . . . . . . . . . . . . . . . 42
4.4.2 Data preprocessing . . . . . . . . . . . . . . . . . . . 43
4.5 Classification model: steps of MLP model . . . . . . . . . . . 43
4.5.1 Forward Pass: . . . . . . . . . . . . . . . . . . . . . . 43
4.5.2 Backward Pass (during training): . . . . . . . . . . . . 45
4.5.3 Training Loop: . . . . . . . . . . . . . . . . . . . . . 45
4.5.4 Key Points: . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.5 Regarding the proposed model: . . . . . . . . . . . . 45
4.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.2 Loss Function . . . . . . . . . . . . . . . . . . . . . . 46
4.7 Results and discussion . . . . . . . . . . . . . . . . . . . . . 46
4.7.1 Initial Loss and Rapid Decrease: . . . . . . . . . . . 50
4.7.2 Plateauing Loss: . . . . . . . . . . . . . . . . . . . . 50
4.7.3 Comparison of Training and Testing Loss: . . . . . . 50
4.7.4 Model Performance and Capacity: . . . . . . . . . . . 51
4.7.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . 51
4.8 Development tools . . . . . . . . . . . . . . . . . . . . . . . 51
4.8.1 Environments . . . . . . . . . . . . . . . . . . . . . . 51
4.8.2 Programming language and libraries . . . . . . . . . . 52Côte titre : MAI/0879 Deep Learning for Breast cancer classification based on DNA data analysis [texte imprimé] / Ahlem Bakziz, Auteur ; Rania Rebai ; Yasmine Mansour, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (69 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatics
Genomics
Deep learning
NGS data analysis,
Cancer classificationIndex. décimale : 004 - Informatique Résumé : challenge in terms of diagnosis and treatment. Next-Generation Sequencing
(NGS) has emerged as a powerful tool, offering profound insights into
the genetic landscape of various cancer types. This project aims to bridge the
gap between computer science and bioinformatics by developing an AI-based
application in Python to analyze NGS DNA data and classify cancer subtypes
with enhanced accuracy.
The objective of our research is coupling NGS DNA data analysis with artificial
intelligence (AI) techniques.this project underscores the potential of AI in
cancer genomics. The integration of advanced computational methods promises
to refine the classification of cancer subtypes based on NGS DNA data, thus
enhancing clinical relevance and accuracy.
The methodology involves the development of a user-friendly Python-based
application that harnesses AI algorithms to improve the accuracy and efficiency
of NGS DNA data interpretation, equipping them with essential skills for tackling
real-world challenges in cancer research.
Through this interdisciplinary endeavor, we aim to empower future researchers
to navigate the complex landscape of cancer biology with proficiency
and innovation. By harnessing the potential of AI and NGS technologies, we
endeavor to drive progress in cancer diagnosis, treatment, and patient care, ultimately
advancing the fight against this formidable disease.Note de contenu : Sommaire
Abbreviations xii
1 Bioinformatics and Cancer 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Background . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Molecules: DNA, RNA, miRNA . . . . . . . . . . . . 6
1.2.3 Gene Expression Analysis . . . . . . . . . . . . . . . 7
1.2.4 Next-Generation Sequencing . . . . . . . . . . . . . . 8
1.2.5 The genomic variations . . . . . . . . . . . . . . . . . 10
1.3 Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Cancer Stages . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Cancer Therapy . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Breast cancer . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Precision medicine . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Artificial Intelligence (AI) 16
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Application of AI in bioinformatics . . . . . . . . . . . . . . 16
2.2.1 Sequence analysis: Genomics, transcriptomics and proteomics:
. . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Medical and clinical applications: From Personalized
medicine to enhanced decision-making . . . . . . . . 18
2.3 AI applications in bioinformatics . . . . . . . . . . . . . . . . 18
2.3.1 Machine Learning (ML) . . . . . . . . . . . . . . . . 18
2.3.2 Deep Learning (DL) . . . . . . . . . . . . . . . . . . 19
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 State of the art 26
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 AI for omic data analysis . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Single Omic analysis . . . . . . . . . . . . . . . . . . 27
3.2.2 Multi-level Omic analysis . . . . . . . . . . . . . . . 27
3.2.3 Deep learning in multi-omics data . . . . . . . . . . . 27
3.2.4 Classification of cancer using DNA sequencing: Existing
AI models . . . . . . . . . . . . . . . . . . . . . . 28
3.2.5 Integration of DL models and statistical models . . . . 28
3.3 Read classifiers . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.1 Alignment-free read classifiers . . . . . . . . . . . . . 33
3.3.2 Alignment-based read classifiers . . . . . . . . . . . . 33
3.3.3 Assembly-based read classifiers . . . . . . . . . . . . 34
3.3.4 Read classifiers combining multiple other classifiers . 34
3.4 Breast cancer and machine/deep learning collaboration . . . . 34
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Contribution and Experimentation 39
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Scientific question . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Data collection and pre-processing . . . . . . . . . . . . . . . 42
4.4.1 Data collection . . . . . . . . . . . . . . . . . . . . . 42
4.4.2 Data preprocessing . . . . . . . . . . . . . . . . . . . 43
4.5 Classification model: steps of MLP model . . . . . . . . . . . 43
4.5.1 Forward Pass: . . . . . . . . . . . . . . . . . . . . . . 43
4.5.2 Backward Pass (during training): . . . . . . . . . . . . 45
4.5.3 Training Loop: . . . . . . . . . . . . . . . . . . . . . 45
4.5.4 Key Points: . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.5 Regarding the proposed model: . . . . . . . . . . . . 45
4.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.2 Loss Function . . . . . . . . . . . . . . . . . . . . . . 46
4.7 Results and discussion . . . . . . . . . . . . . . . . . . . . . 46
4.7.1 Initial Loss and Rapid Decrease: . . . . . . . . . . . 50
4.7.2 Plateauing Loss: . . . . . . . . . . . . . . . . . . . . 50
4.7.3 Comparison of Training and Testing Loss: . . . . . . 50
4.7.4 Model Performance and Capacity: . . . . . . . . . . . 51
4.7.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . 51
4.8 Development tools . . . . . . . . . . . . . . . . . . . . . . . 51
4.8.1 Environments . . . . . . . . . . . . . . . . . . . . . . 51
4.8.2 Programming language and libraries . . . . . . . . . . 52Côte titre : MAI/0879 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0879 MAI/0879 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : A DNA data analysis pipeline for diabetes classification using machine learning Type de document : texte imprimé Auteurs : Merzaka Drif, Auteur ; Rahma Zebiri ; Yasmine Mansour, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (67 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatics
Genomics
Machine learning
Diabetes classification
DNA sequences analysis
Python-based pipeline.Index. décimale : 004 - Informatique Résumé :
Diabetes mellitus is a widespread chronic disease with significant health and economic consequences.
Early diagnosis and risk prediction are crucial for effective management.
With the use of Next-Generation Sequencing (NGS) technologies and advancements in Artificial
Intelligence (AI), it is now possible to diagnose and classify different types of diabetes
and target treatments more effectively while avoiding invasive procedures.
This thesis explores the potential of AI, particularly Machine Learning (ML), for diabetes
classification applied to a real-world DNA dataset of diabetic and non-diabetic individuals.
To unravel the complex relationships discovered in genetic data, the study combines stateof-
the-art machine learning methods with the NuSVC and XGBoost algorithms.
We present a comparative analysis pipeline specifically designed for this purpose. Furthermore,
the proposed models are compared with Naive Bayes and CNN-LSTM algorithms. We
evaluated the different models’ performance using metrics like Accuracy, Precision, Recall, and
F1-score to understand how well the models classified diabetes cases.
The performance of the proposed model is evaluated using various machine learning algorithms,
and the results indicate that the linear classifier NuSVC achieves the highest accuracy
and F1 score.Note de contenu :
Sommaire
Abbreviations X
1 Bioinformatics and artificial intelligence 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Genomics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Next Generation Sequencing (NGS) . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Application of NGS technologies . . . . . . . . . . . . . . . . . . . . 6
1.5 Bioinformatics pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Anatomy of Bioinformatics Pipelines . . . . . . . . . . . . . . . . . . 6
1.5.2 Development stages of bioinformatics pipelines and their challenges . . 7
1.6 K-mers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Artificial Intelligence (AI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.2 The application of AI in bioinformatics . . . . . . . . . . . . . . . . . 11
1.8 Machine learning (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.2 Types of ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.3 Machine learning in precision medicine . . . . . . . . . . . . . . . . . 18
1.9 Deep learning (DL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.1 Artificial Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.3 Multi-layer perceptron (MLP) . . . . . . . . . . . . . . . . . . . . . . 20
1.9.4 Convolutional Neural Network (CNN) . . . . . . . . . . . . . . . . . . 21
1.9.5 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . . 22
1.10 Role of cloud computing in data development and analysis . . . . . . . . . . . 24
1.11 The role of data in training good AI/ML models . . . . . . . . . . . . . . . . . 24
1.12 Data processing steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Recent research on diabetes classification 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Diagnostic Criteria for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.1 Prediabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.2 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.3 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.4 Gestational diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.5 Other types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Pancreas function and its contribution to diabetes . . . . . . . . . . . . . . . . 29
2.7 Insulin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8 NGS for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.1 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.8.2 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9 Key studies on diabetes classification . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.1 Single omic analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.2 AI for diabetes diagnosis and prediction . . . . . . . . . . . . . . . . . 32
2.9.3 DL methods for diabetes subtype classification . . . . . . . . . . . . . 34
2.9.4 State-of-the-Art classifiers . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Contribution and experimentation 38
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Scientific question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Datasets description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.1 XGBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.2 NuSVC (Nu-Support Vector Classification) . . . . . . . . . . . . . . . 41
3.4.3 Convolutional Neural Networks (CNN) . . . . . . . . . . . . . . . . . 42
3.4.4 Long Short-Term Memory Networks (LSTM) . . . . . . . . . . . . . . 44
3.5 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7 Development tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.1 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.2 Programming language and libraries . . . . . . . . . . . . . . . . . . . 58
3.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Côte titre : MAI/0909
A DNA data analysis pipeline for diabetes classification using machine learning [texte imprimé] / Merzaka Drif, Auteur ; Rahma Zebiri ; Yasmine Mansour, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (67 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatics
Genomics
Machine learning
Diabetes classification
DNA sequences analysis
Python-based pipeline.Index. décimale : 004 - Informatique Résumé :
Diabetes mellitus is a widespread chronic disease with significant health and economic consequences.
Early diagnosis and risk prediction are crucial for effective management.
With the use of Next-Generation Sequencing (NGS) technologies and advancements in Artificial
Intelligence (AI), it is now possible to diagnose and classify different types of diabetes
and target treatments more effectively while avoiding invasive procedures.
This thesis explores the potential of AI, particularly Machine Learning (ML), for diabetes
classification applied to a real-world DNA dataset of diabetic and non-diabetic individuals.
To unravel the complex relationships discovered in genetic data, the study combines stateof-
the-art machine learning methods with the NuSVC and XGBoost algorithms.
We present a comparative analysis pipeline specifically designed for this purpose. Furthermore,
the proposed models are compared with Naive Bayes and CNN-LSTM algorithms. We
evaluated the different models’ performance using metrics like Accuracy, Precision, Recall, and
F1-score to understand how well the models classified diabetes cases.
The performance of the proposed model is evaluated using various machine learning algorithms,
and the results indicate that the linear classifier NuSVC achieves the highest accuracy
and F1 score.Note de contenu :
Sommaire
Abbreviations X
1 Bioinformatics and artificial intelligence 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Genomics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Next Generation Sequencing (NGS) . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Application of NGS technologies . . . . . . . . . . . . . . . . . . . . 6
1.5 Bioinformatics pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Anatomy of Bioinformatics Pipelines . . . . . . . . . . . . . . . . . . 6
1.5.2 Development stages of bioinformatics pipelines and their challenges . . 7
1.6 K-mers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Artificial Intelligence (AI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.2 The application of AI in bioinformatics . . . . . . . . . . . . . . . . . 11
1.8 Machine learning (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.2 Types of ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.3 Machine learning in precision medicine . . . . . . . . . . . . . . . . . 18
1.9 Deep learning (DL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.1 Artificial Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.3 Multi-layer perceptron (MLP) . . . . . . . . . . . . . . . . . . . . . . 20
1.9.4 Convolutional Neural Network (CNN) . . . . . . . . . . . . . . . . . . 21
1.9.5 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . . 22
1.10 Role of cloud computing in data development and analysis . . . . . . . . . . . 24
1.11 The role of data in training good AI/ML models . . . . . . . . . . . . . . . . . 24
1.12 Data processing steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Recent research on diabetes classification 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Diagnostic Criteria for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.1 Prediabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.2 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.3 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.4 Gestational diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.5 Other types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Pancreas function and its contribution to diabetes . . . . . . . . . . . . . . . . 29
2.7 Insulin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8 NGS for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.1 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.8.2 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9 Key studies on diabetes classification . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.1 Single omic analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.2 AI for diabetes diagnosis and prediction . . . . . . . . . . . . . . . . . 32
2.9.3 DL methods for diabetes subtype classification . . . . . . . . . . . . . 34
2.9.4 State-of-the-Art classifiers . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Contribution and experimentation 38
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Scientific question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Datasets description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.1 XGBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.2 NuSVC (Nu-Support Vector Classification) . . . . . . . . . . . . . . . 41
3.4.3 Convolutional Neural Networks (CNN) . . . . . . . . . . . . . . . . . 42
3.4.4 Long Short-Term Memory Networks (LSTM) . . . . . . . . . . . . . . 44
3.5 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7 Development tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.1 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.2 Programming language and libraries . . . . . . . . . . . . . . . . . . . 58
3.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Côte titre : MAI/0909
Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0909 MAI/0909 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible