University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Merzaka Drif |
Documents disponibles écrits par cet auteur



Titre : A DNA data analysis pipeline for diabetes classification using machine learning Type de document : texte imprimé Auteurs : Merzaka Drif, Auteur ; Rahma Zebiri ; Yasmine Mansour, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (67 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatics
Genomics
Machine learning
Diabetes classification
DNA sequences analysis
Python-based pipeline.Index. décimale : 004 - Informatique Résumé :
Diabetes mellitus is a widespread chronic disease with significant health and economic consequences.
Early diagnosis and risk prediction are crucial for effective management.
With the use of Next-Generation Sequencing (NGS) technologies and advancements in Artificial
Intelligence (AI), it is now possible to diagnose and classify different types of diabetes
and target treatments more effectively while avoiding invasive procedures.
This thesis explores the potential of AI, particularly Machine Learning (ML), for diabetes
classification applied to a real-world DNA dataset of diabetic and non-diabetic individuals.
To unravel the complex relationships discovered in genetic data, the study combines stateof-
the-art machine learning methods with the NuSVC and XGBoost algorithms.
We present a comparative analysis pipeline specifically designed for this purpose. Furthermore,
the proposed models are compared with Naive Bayes and CNN-LSTM algorithms. We
evaluated the different models’ performance using metrics like Accuracy, Precision, Recall, and
F1-score to understand how well the models classified diabetes cases.
The performance of the proposed model is evaluated using various machine learning algorithms,
and the results indicate that the linear classifier NuSVC achieves the highest accuracy
and F1 score.Note de contenu :
Sommaire
Abbreviations X
1 Bioinformatics and artificial intelligence 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Genomics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Next Generation Sequencing (NGS) . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Application of NGS technologies . . . . . . . . . . . . . . . . . . . . 6
1.5 Bioinformatics pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Anatomy of Bioinformatics Pipelines . . . . . . . . . . . . . . . . . . 6
1.5.2 Development stages of bioinformatics pipelines and their challenges . . 7
1.6 K-mers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Artificial Intelligence (AI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.2 The application of AI in bioinformatics . . . . . . . . . . . . . . . . . 11
1.8 Machine learning (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.2 Types of ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.3 Machine learning in precision medicine . . . . . . . . . . . . . . . . . 18
1.9 Deep learning (DL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.1 Artificial Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.3 Multi-layer perceptron (MLP) . . . . . . . . . . . . . . . . . . . . . . 20
1.9.4 Convolutional Neural Network (CNN) . . . . . . . . . . . . . . . . . . 21
1.9.5 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . . 22
1.10 Role of cloud computing in data development and analysis . . . . . . . . . . . 24
1.11 The role of data in training good AI/ML models . . . . . . . . . . . . . . . . . 24
1.12 Data processing steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Recent research on diabetes classification 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Diagnostic Criteria for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.1 Prediabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.2 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.3 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.4 Gestational diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.5 Other types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Pancreas function and its contribution to diabetes . . . . . . . . . . . . . . . . 29
2.7 Insulin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8 NGS for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.1 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.8.2 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9 Key studies on diabetes classification . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.1 Single omic analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.2 AI for diabetes diagnosis and prediction . . . . . . . . . . . . . . . . . 32
2.9.3 DL methods for diabetes subtype classification . . . . . . . . . . . . . 34
2.9.4 State-of-the-Art classifiers . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Contribution and experimentation 38
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Scientific question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Datasets description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.1 XGBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.2 NuSVC (Nu-Support Vector Classification) . . . . . . . . . . . . . . . 41
3.4.3 Convolutional Neural Networks (CNN) . . . . . . . . . . . . . . . . . 42
3.4.4 Long Short-Term Memory Networks (LSTM) . . . . . . . . . . . . . . 44
3.5 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7 Development tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.1 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.2 Programming language and libraries . . . . . . . . . . . . . . . . . . . 58
3.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Côte titre : MAI/0909
A DNA data analysis pipeline for diabetes classification using machine learning [texte imprimé] / Merzaka Drif, Auteur ; Rahma Zebiri ; Yasmine Mansour, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (67 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatics
Genomics
Machine learning
Diabetes classification
DNA sequences analysis
Python-based pipeline.Index. décimale : 004 - Informatique Résumé :
Diabetes mellitus is a widespread chronic disease with significant health and economic consequences.
Early diagnosis and risk prediction are crucial for effective management.
With the use of Next-Generation Sequencing (NGS) technologies and advancements in Artificial
Intelligence (AI), it is now possible to diagnose and classify different types of diabetes
and target treatments more effectively while avoiding invasive procedures.
This thesis explores the potential of AI, particularly Machine Learning (ML), for diabetes
classification applied to a real-world DNA dataset of diabetic and non-diabetic individuals.
To unravel the complex relationships discovered in genetic data, the study combines stateof-
the-art machine learning methods with the NuSVC and XGBoost algorithms.
We present a comparative analysis pipeline specifically designed for this purpose. Furthermore,
the proposed models are compared with Naive Bayes and CNN-LSTM algorithms. We
evaluated the different models’ performance using metrics like Accuracy, Precision, Recall, and
F1-score to understand how well the models classified diabetes cases.
The performance of the proposed model is evaluated using various machine learning algorithms,
and the results indicate that the linear classifier NuSVC achieves the highest accuracy
and F1 score.Note de contenu :
Sommaire
Abbreviations X
1 Bioinformatics and artificial intelligence 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Genomics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Next Generation Sequencing (NGS) . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Application of NGS technologies . . . . . . . . . . . . . . . . . . . . 6
1.5 Bioinformatics pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Anatomy of Bioinformatics Pipelines . . . . . . . . . . . . . . . . . . 6
1.5.2 Development stages of bioinformatics pipelines and their challenges . . 7
1.6 K-mers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Artificial Intelligence (AI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7.2 The application of AI in bioinformatics . . . . . . . . . . . . . . . . . 11
1.8 Machine learning (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.2 Types of ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.3 Machine learning in precision medicine . . . . . . . . . . . . . . . . . 18
1.9 Deep learning (DL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.1 Artificial Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.3 Multi-layer perceptron (MLP) . . . . . . . . . . . . . . . . . . . . . . 20
1.9.4 Convolutional Neural Network (CNN) . . . . . . . . . . . . . . . . . . 21
1.9.5 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . . 22
1.10 Role of cloud computing in data development and analysis . . . . . . . . . . . 24
1.11 The role of data in training good AI/ML models . . . . . . . . . . . . . . . . . 24
1.12 Data processing steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Recent research on diabetes classification 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Diagnostic Criteria for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.1 Prediabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.2 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.3 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.4 Gestational diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.5 Other types of diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Pancreas function and its contribution to diabetes . . . . . . . . . . . . . . . . 29
2.7 Insulin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8 NGS for Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.1 Type 1 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.8.2 Type 2 diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9 Key studies on diabetes classification . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.1 Single omic analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.2 AI for diabetes diagnosis and prediction . . . . . . . . . . . . . . . . . 32
2.9.3 DL methods for diabetes subtype classification . . . . . . . . . . . . . 34
2.9.4 State-of-the-Art classifiers . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Contribution and experimentation 38
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Scientific question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Datasets description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.1 XGBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.2 NuSVC (Nu-Support Vector Classification) . . . . . . . . . . . . . . . 41
3.4.3 Convolutional Neural Networks (CNN) . . . . . . . . . . . . . . . . . 42
3.4.4 Long Short-Term Memory Networks (LSTM) . . . . . . . . . . . . . . 44
3.5 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7 Development tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.1 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.2 Programming language and libraries . . . . . . . . . . . . . . . . . . . 58
3.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Côte titre : MAI/0909
Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0909 MAI/0909 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible