University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Hamdi ,Skander |
Documents disponibles écrits par cet auteur
Ajouter le résultat dans votre panier Affiner la recherche
Titre : Deep Learning for Age, Gender and Race Identification based on Face Recognition Type de document : texte imprimé Auteurs : Hamdi ,Skander, Auteur ; Moussaoui ,Abdelouahab, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (71 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine learning
Convolutional neural n
Recognition
Feature extraction
Tensorflow
KerasIndex. décimale : 004 - Informatique Résumé : Ce mémoire de master présente un systéme basé sur une approche d’apprentissage
profond Réseau de Neurones Convolutif (CNN). L’objectif du travail est de prédire
automatiquement, l’age, le genre et la race à partir d’une image faciale d’une personne.
Notre approche à été testée est verifiée en utilisant la base de données
publique UTKFace qui contient plus de 20.000 images de différentes personnes.
Cette base de données est composée d’enfants, adolescents, adults pour la classe
d’age, mâle, femelle pour le genre et blanc, noir, asiatique, indien, autres pour la
race. On a fait une étude comparative entre différentes approches d’apprentissage
automatique et apprentissage profond et les résultats ont montrés que l’approche
profonde avec CNN a donné les meilleures résultats de teste.Note de contenu : Sommaire
Theoritical Background 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Machine learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1.1 Arthur Samuel . . . . . . . . . . . . . . . . . . . . . 4
1.2.1.2 Tom M. Mitchell . . . . . . . . . . . . . . . . . . . . 4
1.2.1.3 Alan Turing . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Machine learning categories . . . . . . . . . . . . . . . . . . . 4
1.2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . 5
1.2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . 6
1.2.2.3 Semi-supervised learning . . . . . . . . . . . . . . . 6
1.2.2.4 Reinforcement learning . . . . . . . . . . . . . . . . 6
1.2.3 Popular Machine learning algorithms . . . . . . . . . . . . . 7
1.2.3.1 k-Nearest Neighbors (kNN) . . . . . . . . . . . . . 7
1.2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . 8
1.2.3.3 Logistic Regression . . . . . . . . . . . . . . . . . . 9
1.2.3.4 Support Vector Machines . . . . . . . . . . . . . . . 10
1.2.3.5 Artificial Neural Networks . . . . . . . . . . . . . . 13
1.2.3.6 Random Forest . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . 21
1.2.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Definition and Concept . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 Deep learning architectures . . . . . . . . . . . . . . . . . . . 22
1.3.2.1 Deep Neural Networks (DNN) . . . . . . . . . . . 22
1.3.2.2 Convolutional Neural Networks . . . . . . . . . . . 23
Contents 3
1.3.2.3 Recurrent Neural Networks . . . . . . . . . . . . . 27
1.3.3 Neural Networks and overfitting . . . . . . . . . . . . . . . . 28
1.3.3.1 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.3.2 Batch Normalization . . . . . . . . . . . . . . . . . 28
1.3.4 Deep learning applications . . . . . . . . . . . . . . . . . . . 28
1.3.4.1 Image Recognition . . . . . . . . . . . . . . . . . . . 29
1.3.4.2 Audio Processing . . . . . . . . . . . . . . . . . . . 29
1.3.4.3 Natural Language Processing . . . . . . . . . . . . 30
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2 Literature Review 31
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Face Recognition and Feature Extraction . . . . . . . . . . . . . . . . 31
2.2.1 Human Face Feature Points . . . . . . . . . . . . . . . . . . . 31
2.2.2 Feature Extraction Methods . . . . . . . . . . . . . . . . . . . 32
2.2.2.1 Principal Component Analysis . . . . . . . . . . . . 33
2.2.2.2 Kernel Principal Component Analysis . . . . . . . 34
2.2.2.3 Linear Discriminate Analysis . . . . . . . . . . . . . 35
2.3 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Age Estimation and Classification . . . . . . . . . . . . . . . 36
2.3.2 Gender Classification . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.3 Ethnicity Classification . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 Methodology and Experiments 42
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2 Dataset and Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Development environment . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1.2 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1.3 Jupyter Notebook . . . . . . . . . . . . . . . . . . . 46
3.3.1.4 Scikit-Learn . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1.5 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . 46
Contents 4
3.3.1.6 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.1.7 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.2 Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.2.1 Google Colaboratory Cloud . . . . . . . . . . . . . 47
3.3.2.2 Kaggle Kernel Cloud . . . . . . . . . . . . . . . . . 48
3.4 Methodology and Experiments Results . . . . . . . . . . . . . . . . 48
3.4.1 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.2 Proposed Methods . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.2.1 Support Vector Machines (SVM) . . . . . . . . . . . 48
3.4.2.2 Random Forest . . . . . . . . . . . . . . . . . . . . . 49
3.4.2.3 Artificial Neural Network (Single Layer Perceptron
SLP) . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.2.4 Artificial Neural Network (Multi-Layer Perceptron
MLP) . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.2.5 Transfer Learning . . . . . . . . . . . . . . . . . . . 49
3.4.2.6 Convolutional Neural Network . . . . . . . . . . . 52
3.4.3 Experiments Results . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.3.1 Support Vector Machines (SVM) . . . . . . . . . . . 54
3.4.3.2 Random Forest . . . . . . . . . . . . . . . . . . . . . 54
3.4.3.3 Artificial Neural Network (Single Layer Perceptron
SLP) . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.3.4 Artificial Neural Network (Multi-Layer Perceptron
MLP) . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.4.3.5 Transfer Learning . . . . . . . . . . . . . . . . . . . 57
3.4.3.6 Convolutional Neural Network . . . . . . . . . . . 61
Discussion 68
Conclusion 70
Bibliography 71Côte titre : MAI/0287 En ligne : https://drive.google.com/file/d/1sc20Stq3cwCDecar4ArShHzSaNJKTe36/view?usp=shari [...] Format de la ressource électronique : Deep Learning for Age, Gender and Race Identification based on Face Recognition [texte imprimé] / Hamdi ,Skander, Auteur ; Moussaoui ,Abdelouahab, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (71 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine learning
Convolutional neural n
Recognition
Feature extraction
Tensorflow
KerasIndex. décimale : 004 - Informatique Résumé : Ce mémoire de master présente un systéme basé sur une approche d’apprentissage
profond Réseau de Neurones Convolutif (CNN). L’objectif du travail est de prédire
automatiquement, l’age, le genre et la race à partir d’une image faciale d’une personne.
Notre approche à été testée est verifiée en utilisant la base de données
publique UTKFace qui contient plus de 20.000 images de différentes personnes.
Cette base de données est composée d’enfants, adolescents, adults pour la classe
d’age, mâle, femelle pour le genre et blanc, noir, asiatique, indien, autres pour la
race. On a fait une étude comparative entre différentes approches d’apprentissage
automatique et apprentissage profond et les résultats ont montrés que l’approche
profonde avec CNN a donné les meilleures résultats de teste.Note de contenu : Sommaire
Theoritical Background 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Machine learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1.1 Arthur Samuel . . . . . . . . . . . . . . . . . . . . . 4
1.2.1.2 Tom M. Mitchell . . . . . . . . . . . . . . . . . . . . 4
1.2.1.3 Alan Turing . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Machine learning categories . . . . . . . . . . . . . . . . . . . 4
1.2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . 5
1.2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . 6
1.2.2.3 Semi-supervised learning . . . . . . . . . . . . . . . 6
1.2.2.4 Reinforcement learning . . . . . . . . . . . . . . . . 6
1.2.3 Popular Machine learning algorithms . . . . . . . . . . . . . 7
1.2.3.1 k-Nearest Neighbors (kNN) . . . . . . . . . . . . . 7
1.2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . 8
1.2.3.3 Logistic Regression . . . . . . . . . . . . . . . . . . 9
1.2.3.4 Support Vector Machines . . . . . . . . . . . . . . . 10
1.2.3.5 Artificial Neural Networks . . . . . . . . . . . . . . 13
1.2.3.6 Random Forest . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . 21
1.2.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Definition and Concept . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 Deep learning architectures . . . . . . . . . . . . . . . . . . . 22
1.3.2.1 Deep Neural Networks (DNN) . . . . . . . . . . . 22
1.3.2.2 Convolutional Neural Networks . . . . . . . . . . . 23
Contents 3
1.3.2.3 Recurrent Neural Networks . . . . . . . . . . . . . 27
1.3.3 Neural Networks and overfitting . . . . . . . . . . . . . . . . 28
1.3.3.1 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.3.2 Batch Normalization . . . . . . . . . . . . . . . . . 28
1.3.4 Deep learning applications . . . . . . . . . . . . . . . . . . . 28
1.3.4.1 Image Recognition . . . . . . . . . . . . . . . . . . . 29
1.3.4.2 Audio Processing . . . . . . . . . . . . . . . . . . . 29
1.3.4.3 Natural Language Processing . . . . . . . . . . . . 30
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2 Literature Review 31
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Face Recognition and Feature Extraction . . . . . . . . . . . . . . . . 31
2.2.1 Human Face Feature Points . . . . . . . . . . . . . . . . . . . 31
2.2.2 Feature Extraction Methods . . . . . . . . . . . . . . . . . . . 32
2.2.2.1 Principal Component Analysis . . . . . . . . . . . . 33
2.2.2.2 Kernel Principal Component Analysis . . . . . . . 34
2.2.2.3 Linear Discriminate Analysis . . . . . . . . . . . . . 35
2.3 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Age Estimation and Classification . . . . . . . . . . . . . . . 36
2.3.2 Gender Classification . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.3 Ethnicity Classification . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 Methodology and Experiments 42
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2 Dataset and Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Development environment . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1.2 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1.3 Jupyter Notebook . . . . . . . . . . . . . . . . . . . 46
3.3.1.4 Scikit-Learn . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1.5 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . 46
Contents 4
3.3.1.6 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.1.7 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.2 Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.2.1 Google Colaboratory Cloud . . . . . . . . . . . . . 47
3.3.2.2 Kaggle Kernel Cloud . . . . . . . . . . . . . . . . . 48
3.4 Methodology and Experiments Results . . . . . . . . . . . . . . . . 48
3.4.1 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.2 Proposed Methods . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.2.1 Support Vector Machines (SVM) . . . . . . . . . . . 48
3.4.2.2 Random Forest . . . . . . . . . . . . . . . . . . . . . 49
3.4.2.3 Artificial Neural Network (Single Layer Perceptron
SLP) . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.2.4 Artificial Neural Network (Multi-Layer Perceptron
MLP) . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.2.5 Transfer Learning . . . . . . . . . . . . . . . . . . . 49
3.4.2.6 Convolutional Neural Network . . . . . . . . . . . 52
3.4.3 Experiments Results . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.3.1 Support Vector Machines (SVM) . . . . . . . . . . . 54
3.4.3.2 Random Forest . . . . . . . . . . . . . . . . . . . . . 54
3.4.3.3 Artificial Neural Network (Single Layer Perceptron
SLP) . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.3.4 Artificial Neural Network (Multi-Layer Perceptron
MLP) . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.4.3.5 Transfer Learning . . . . . . . . . . . . . . . . . . . 57
3.4.3.6 Convolutional Neural Network . . . . . . . . . . . 61
Discussion 68
Conclusion 70
Bibliography 71Côte titre : MAI/0287 En ligne : https://drive.google.com/file/d/1sc20Stq3cwCDecar4ArShHzSaNJKTe36/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0287 MAI/0287 Mémoire Bibliothèque des sciences Français Disponible
Disponible
Titre : Deep Learning Models for Brain Cancer Segmentation and Prognostic Analysis Type de document : document électronique Auteurs : Hiba Djari ; Malak Lamara, Auteur ; Hamdi ,Skander, Directeur de thèse Editeur : Setif:UFA Année de publication : 2025 Importance : 1 vol (64 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 Informatique Résumé :
Deep Learning (DL) has introduced transformative potential in medical diagnostics, particularly in oncology,
where complex tumor structures present significant challenges for treatment planning. The accurate
segmentation of brain tumors from Magnetic Resonance Imaging (MRI) is a critical first step, and recent
advancements in DL have greatly enhanced the efficiency and reliability of this process. By integrating
these precise segmentation outputs with clinical and genetic data, prognostic analysis can be substantially
improved, paving the way for more accurate tumor prediction and robust clinical decision support.
This thesis aims to develop and evaluate a comprehensive pipeline for brain tumor analysis, from segmentation
to survival prediction. It focuses on comparing advanced DL architectures for segmenting brain
tumors and explores the adaptation of large-scale, general-purpose vision models for this specialized medical
task. The ultimate goal is to fuse imaging features with clinical and genetic data to accurately estimate
patient survival probability and stratify risk levels, thereby enhancing personalized treatment strategies.
This work offers a thorough exploration of both established and cutting-edge DL models for brain tumor
segmentation and prognosis. The first contribution is a comparative analysis of segmentation models, including
a standard U-Net, a DeepResUNet, and a VGG19-based U-Net, alongside foundational models like
a fine-tuned Segment Anything Model (SAM) and the specialized Medical Segment Anything Model (Med-
SAM). The results underscored the effectiveness of MedSAM, which demonstrated superior performance .
The second contribution introduces a prognostic analysis pipeline that leverages features extracted from the
segmentation masks. This pipeline proved highly effective, with the Support Vector Machine (SVM) model
showing notable success in accurately identifying high-risk patients, while the XGBoost model demonstrated
strong predictive power for classifying low-risk patients.
Overall, these contributions validate a powerful, integrated approach for brain cancer analysis. The
findings confirm that leveraging both CNN-based architectures and fine-tuned foundational models can yield
highly accurate tumor delineations. Furthermore, the successful integration of these segmentation results
into a prognostic pipeline demonstrates the critical role of automated image analysis in fostering personalized
and more effective clinical management of brain tumors.Note de contenu : Sommaire
1 Introduction 14
1.1 Research Context and Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Research Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Structure of thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Background 17
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Deep Learning Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Deep ResUNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 VGG19-UNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.5 SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.6 MedSAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Standard Classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Ensemble Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2 XGBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.3 CatBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.4 Majority voting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Literature review 26
3.1 Overview on Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Methodology 32
4.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Models Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.1 Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.2 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.3 Deep ResUNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.4 VGG19-UNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.5 SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.6 MedSAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Prognostic Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.1 Model and Dataset Initialization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.2 Tumor Segmentation and Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.3 Feature Vector Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.4 Prognostic Prediction and Thresholding . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.5 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.6 Feature Extraction from Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.7 Classifier Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.8 Confusion matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 General ConclusionCôte titre : MAI/0964 Deep Learning Models for Brain Cancer Segmentation and Prognostic Analysis [document électronique] / Hiba Djari ; Malak Lamara, Auteur ; Hamdi ,Skander, Directeur de thèse . - [S.l.] : Setif:UFA, 2025 . - 1 vol (64 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 Informatique Résumé :
Deep Learning (DL) has introduced transformative potential in medical diagnostics, particularly in oncology,
where complex tumor structures present significant challenges for treatment planning. The accurate
segmentation of brain tumors from Magnetic Resonance Imaging (MRI) is a critical first step, and recent
advancements in DL have greatly enhanced the efficiency and reliability of this process. By integrating
these precise segmentation outputs with clinical and genetic data, prognostic analysis can be substantially
improved, paving the way for more accurate tumor prediction and robust clinical decision support.
This thesis aims to develop and evaluate a comprehensive pipeline for brain tumor analysis, from segmentation
to survival prediction. It focuses on comparing advanced DL architectures for segmenting brain
tumors and explores the adaptation of large-scale, general-purpose vision models for this specialized medical
task. The ultimate goal is to fuse imaging features with clinical and genetic data to accurately estimate
patient survival probability and stratify risk levels, thereby enhancing personalized treatment strategies.
This work offers a thorough exploration of both established and cutting-edge DL models for brain tumor
segmentation and prognosis. The first contribution is a comparative analysis of segmentation models, including
a standard U-Net, a DeepResUNet, and a VGG19-based U-Net, alongside foundational models like
a fine-tuned Segment Anything Model (SAM) and the specialized Medical Segment Anything Model (Med-
SAM). The results underscored the effectiveness of MedSAM, which demonstrated superior performance .
The second contribution introduces a prognostic analysis pipeline that leverages features extracted from the
segmentation masks. This pipeline proved highly effective, with the Support Vector Machine (SVM) model
showing notable success in accurately identifying high-risk patients, while the XGBoost model demonstrated
strong predictive power for classifying low-risk patients.
Overall, these contributions validate a powerful, integrated approach for brain cancer analysis. The
findings confirm that leveraging both CNN-based architectures and fine-tuned foundational models can yield
highly accurate tumor delineations. Furthermore, the successful integration of these segmentation results
into a prognostic pipeline demonstrates the critical role of automated image analysis in fostering personalized
and more effective clinical management of brain tumors.Note de contenu : Sommaire
1 Introduction 14
1.1 Research Context and Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Research Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Structure of thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Background 17
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Deep Learning Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Deep ResUNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 VGG19-UNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.5 SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.6 MedSAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Standard Classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Ensemble Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2 XGBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.3 CatBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.4 Majority voting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Literature review 26
3.1 Overview on Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Methodology 32
4.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Models Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.1 Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.2 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.3 Deep ResUNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.4 VGG19-UNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.5 SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.6 MedSAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Prognostic Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.1 Model and Dataset Initialization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.2 Tumor Segmentation and Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.3 Feature Vector Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.4 Prognostic Prediction and Thresholding . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.5 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.6 Feature Extraction from Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.7 Classifier Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.8 Confusion matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 General ConclusionCôte titre : MAI/0964 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0964 MAI/0964 Mémoire Bibliothèque des sciences Anglais Disponible
DisponibleDeep Learning Models for Medical Image Segmentation: Approaches and Applications / Houssem Dhia Eddine Arras
Titre : Deep Learning Models for Medical Image Segmentation: Approaches and Applications Type de document : document électronique Auteurs : Houssem Dhia Eddine Arras ; Dhia Eddine Lahrache, Auteur ; Hamdi ,Skander, Directeur de thèse Editeur : Setif:UFA Année de publication : 2025 Importance : 1 vol (64 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Medical image segmentation
Stroke
Deep Learning
U-Net
UNet++
Attention U-Net
MRI
ATLAS 2.0
Convolutional Neural Networks
Dice
IoUIndex. décimale : 004 Informatique Résumé :
The increased availability of medical image data, particularly from modalities such as Magnetic Resonance Imaging (MRI), has opened up possibilities to develop smart systems to aid clinical diagnosis and treatment planning. However, the complexity and volume of such data render manual analysis cumbersome. This thesis addresses the problem of automatic stroke lesion segmentation in brain MRI images through deep learning techniques. A thorough experimental evaluation was conducted with three CNN architectures: U-Net, Attention U-Net, and UNet++. The networks were trained and evaluated on a sub-dataset of the ATLAS 2.0 dataset with annotated post-stroke MRI images. The performance of each model was evaluated by Dice coefficient and Intersection over Union (IoU) metrics. The result shows that the standard U-Net worked well for segmentation ( 74.76% ), and the Attention U-Net and UNet++ provided improvements in lesion boundary and location refinement. The findings show the effectiveness of CNN-based models in effectively segmenting stroke lesions from 2D medical images. This study adds value to the medical image analysis field by providing insight into the capabilities of deep learning models for stroke segmentation and acts as a baseline for further improvement using 3D architectures or transformer-based models.Note de contenu : Sommaire
List of Tables.............................................................................................................................. IX
1 Introduction to Medical Image Segmentation Using Deep Learning ................................ 3
1.1 Introduction ..................................................................................................................... 3
1.2 Overview of Medical Image Segmentation in Healthcare .............................................. 3
1.2.1 Definition of medical image segmentation ......................................................... 3
1.2.2 Applications in disease diagnosis, treatment planning, and monitoring ............. 4
1.2.3 Importance of Medical Image segmentation in disease detection and analysis .. 4
1.3 Importance of Deep Learning in Improving Segmentation Accuracy ............................ 5
1.3.1 Traditional segmentation methods ...................................................................... 5
1.3.2 Deep learning revolution ..................................................................................... 6
1.3.3 Automation and precision: How DL models improve stroke segmentation ....... 7
1.4 Problem Statement and Research Motivation ................................................................. 7
1.4.1 Problem Statement .............................................................................................. 7
1.4.2 Research Motivation ........................................................................................... 8
1.5 Objectives of the Study ................................................................................................... 8
1.6 Conclusion ....................................................................................................................... 9
2 Deep Learning Fundamentals and Advances in Segmentation Models ........................... 10
2.1 Introduction ................................................................................................................... 10
2.2 Introduction to Deep Learning ...................................................................................... 11
2.2.1 Definition and history of deep learning ............................................................ 11
2.2.2 Difference between deep learning, machine learning, and artificial intelligence .. 11
2.3 Neural Networks and Architectures .............................................................................. 12
2.3.1 Basics of artificial neural networks (ANN) ...................................................... 12
2.3.2 Convolutional Neural Networks (CNN) and their role in image processing .... 14
2.3.2.1 Key Features of CNNs ........................................................................ 14
2.3.2.2 Applications in Image Processing ....................................................... 15
2.4 Training Deep Learning Models ................................................................................... 15
2.4.1 Data Preparation and Augmentation Techniques .............................................. 15
2.4.1.1 Preprocessing of Medical Images ....................................................... 16
2.4.1.2 Data Augmentation ............................................................................. 16
2.4.1.3 Common Data Augmentation Techniques........................................... 17
2.4.1.4 Handling Imbalanced Datasets ............................................................ 17
2.4.2 Loss Functions Used in Segmentation .............................................................. 18
2.4.2.1 Standard Losses in Segmentation ....................................................... 18
2.4.2.2 Segmentation-Specific Loss Functions ............................................... 18
2.4.2.3 Handling Class Imbalance and Small Lesions .................................... 19
2.4.3 Optimization Algorithms ................................................................................... 20
2.4.3.1 Common Optimization Algorithms ..................................................... 20
2.4.3.2 Hyperparameters and Training Behavior ............................................ 21
2.4.3.3 Learning Rate Schedulers ................................................................... 22
2.4.4 Regularization Techniques ................................................................................ 22
2.4.4.1 Common Regularization Techniques .................................................. 22
2.4.4.2 Additional Techniques ......................................................................... 24
2.5 Evaluation Metrics for Segmentation ............................................................................ 24
2.5.1 Dice Similarity Coefficient (DSC) .................................................................... 24
2.5.2 Intersection over Union (IoU) ........................................................................... 25
2.5.3 Sensitivity, Specificity, and Accuracy ............................................................... 27
2.6 Advances in Deep Learning for Segmentation .............................................................. 28
2.6.1 Introduction to Foundation Models ................................................................... 28
2.6.2 Transfer Learning and Pretrained Models ......................................................... 29
2.6.3 Attention Mechanisms in Segmentation Models............................................... 29
2.7 Model Architectures for Segmentation.......................................................................... 30
2.7.1 U-Net ................................................................................................................. 30
2.7.2 U-Net++ ............................................................................................................ 31
2.7.3 Attention U-Net ................................................................................................. 33
2.8 Conclusion ..................................................................................................................... 34
3 Background and Related Work on Stroke ......................................................................... 35
3.1 Introduction ................................................................................................................... 35
3.2 Stroke Overview ............................................................................................................ 35
3.2.1 Definition .......................................................................................................... 35
3.2.2 Types ................................................................................................................. 36
3.2.3 Symptoms .......................................................................................................... 37
3.2.4 Diagnostic ......................................................................................................... 37
3.2.5 Treatment .......................................................................................................... 38
3.3 Medical Imaging Techniques for Stroke ....................................................................... 39
3.3.1 Computed Tomography (CT) ............................................................................ 39
3.3.2 Magnetic Resonance Imaging (MRI) ............................................................... 40
3.4 Importance of Stroke Lesion Segmentation and Deep Learning’s Role ....................... 40
3.4.1 Significance of Stroke Lesion Segmentation in Research and Medicine ......... 40
3.4.2 Deep Learning for Stroke Lesion Segmentation ............................................... 41
3.5 Related Work ................................................................................................................. 42
3.6 Conclusion ..................................................................................................................... 45
4 Experiment And Results ...................................................................................................... 46
4.1 Introduction ................................................................................................................... 46
4.2 Data description ............................................................................................................. 46
4.2.1 Image Characteristics ........................................................................................ 47
4.2.2 Key Metadata Features ...................................................................................... 47
4.2.3 Data Samples ..................................................................................................... 48
4.3 Data Preprocessing ........................................................................................................ 49
4.3.1 Extraction of 2D Slices ..................................................................................... 49
4.3.2 Filtering Slices .................................................................................................. 49
4.3.3 Normalization of Images ................................................................................... 49
4.3.4 Resizing ............................................................................................................. 50
4.3.5 Data Augmentation............................................................................................ 50
4.4 Methodology and Results .............................................................................................. 50
4.4.1 Stroke UNet-Architecture ................................................................................. 51
4.4.1.1 Overall Structure ................................................................................. 52
4.4.1.2 Convolutional Block ........................................................................... 52
4.4.1.3 Contracting Path (Encoder) ................................................................. 52
4.4.1.4 Expanding Path (Decoder) .................................................................. 53
4.4.1.5 Output Layer ....................................................................................... 53
4.4.1.6 Results ................................................................................................. 53
4.4.2 Attention UNet-Architecture ............................................................................. 54
4.4.2.1 Overall Structure ................................................................................. 55
4.4.2.3 Attention Block Objectives ................................................................. 55
4.4.2.4 Results ................................................................................................. 56
4.4.3 UNet++ Architecture ......................................................................................... 57
4.4.3.1 Objectives ............................................................................................ 57
4.4.3.2 Results ................................................................................................. 58
4.4.4 Results Discussion ............................................................................................ 58
4.4.5 Model Prediction Capability ............................................................................. 60
4.5 Comparision With Related Works ................................................................................ 62
4.6 Conclusion .................................................................................................................... 62
Bibliography ................................................................................................................................ 64Côte titre : MAI/0998 Deep Learning Models for Medical Image Segmentation: Approaches and Applications [document électronique] / Houssem Dhia Eddine Arras ; Dhia Eddine Lahrache, Auteur ; Hamdi ,Skander, Directeur de thèse . - [S.l.] : Setif:UFA, 2025 . - 1 vol (64 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Medical image segmentation
Stroke
Deep Learning
U-Net
UNet++
Attention U-Net
MRI
ATLAS 2.0
Convolutional Neural Networks
Dice
IoUIndex. décimale : 004 Informatique Résumé :
The increased availability of medical image data, particularly from modalities such as Magnetic Resonance Imaging (MRI), has opened up possibilities to develop smart systems to aid clinical diagnosis and treatment planning. However, the complexity and volume of such data render manual analysis cumbersome. This thesis addresses the problem of automatic stroke lesion segmentation in brain MRI images through deep learning techniques. A thorough experimental evaluation was conducted with three CNN architectures: U-Net, Attention U-Net, and UNet++. The networks were trained and evaluated on a sub-dataset of the ATLAS 2.0 dataset with annotated post-stroke MRI images. The performance of each model was evaluated by Dice coefficient and Intersection over Union (IoU) metrics. The result shows that the standard U-Net worked well for segmentation ( 74.76% ), and the Attention U-Net and UNet++ provided improvements in lesion boundary and location refinement. The findings show the effectiveness of CNN-based models in effectively segmenting stroke lesions from 2D medical images. This study adds value to the medical image analysis field by providing insight into the capabilities of deep learning models for stroke segmentation and acts as a baseline for further improvement using 3D architectures or transformer-based models.Note de contenu : Sommaire
List of Tables.............................................................................................................................. IX
1 Introduction to Medical Image Segmentation Using Deep Learning ................................ 3
1.1 Introduction ..................................................................................................................... 3
1.2 Overview of Medical Image Segmentation in Healthcare .............................................. 3
1.2.1 Definition of medical image segmentation ......................................................... 3
1.2.2 Applications in disease diagnosis, treatment planning, and monitoring ............. 4
1.2.3 Importance of Medical Image segmentation in disease detection and analysis .. 4
1.3 Importance of Deep Learning in Improving Segmentation Accuracy ............................ 5
1.3.1 Traditional segmentation methods ...................................................................... 5
1.3.2 Deep learning revolution ..................................................................................... 6
1.3.3 Automation and precision: How DL models improve stroke segmentation ....... 7
1.4 Problem Statement and Research Motivation ................................................................. 7
1.4.1 Problem Statement .............................................................................................. 7
1.4.2 Research Motivation ........................................................................................... 8
1.5 Objectives of the Study ................................................................................................... 8
1.6 Conclusion ....................................................................................................................... 9
2 Deep Learning Fundamentals and Advances in Segmentation Models ........................... 10
2.1 Introduction ................................................................................................................... 10
2.2 Introduction to Deep Learning ...................................................................................... 11
2.2.1 Definition and history of deep learning ............................................................ 11
2.2.2 Difference between deep learning, machine learning, and artificial intelligence .. 11
2.3 Neural Networks and Architectures .............................................................................. 12
2.3.1 Basics of artificial neural networks (ANN) ...................................................... 12
2.3.2 Convolutional Neural Networks (CNN) and their role in image processing .... 14
2.3.2.1 Key Features of CNNs ........................................................................ 14
2.3.2.2 Applications in Image Processing ....................................................... 15
2.4 Training Deep Learning Models ................................................................................... 15
2.4.1 Data Preparation and Augmentation Techniques .............................................. 15
2.4.1.1 Preprocessing of Medical Images ....................................................... 16
2.4.1.2 Data Augmentation ............................................................................. 16
2.4.1.3 Common Data Augmentation Techniques........................................... 17
2.4.1.4 Handling Imbalanced Datasets ............................................................ 17
2.4.2 Loss Functions Used in Segmentation .............................................................. 18
2.4.2.1 Standard Losses in Segmentation ....................................................... 18
2.4.2.2 Segmentation-Specific Loss Functions ............................................... 18
2.4.2.3 Handling Class Imbalance and Small Lesions .................................... 19
2.4.3 Optimization Algorithms ................................................................................... 20
2.4.3.1 Common Optimization Algorithms ..................................................... 20
2.4.3.2 Hyperparameters and Training Behavior ............................................ 21
2.4.3.3 Learning Rate Schedulers ................................................................... 22
2.4.4 Regularization Techniques ................................................................................ 22
2.4.4.1 Common Regularization Techniques .................................................. 22
2.4.4.2 Additional Techniques ......................................................................... 24
2.5 Evaluation Metrics for Segmentation ............................................................................ 24
2.5.1 Dice Similarity Coefficient (DSC) .................................................................... 24
2.5.2 Intersection over Union (IoU) ........................................................................... 25
2.5.3 Sensitivity, Specificity, and Accuracy ............................................................... 27
2.6 Advances in Deep Learning for Segmentation .............................................................. 28
2.6.1 Introduction to Foundation Models ................................................................... 28
2.6.2 Transfer Learning and Pretrained Models ......................................................... 29
2.6.3 Attention Mechanisms in Segmentation Models............................................... 29
2.7 Model Architectures for Segmentation.......................................................................... 30
2.7.1 U-Net ................................................................................................................. 30
2.7.2 U-Net++ ............................................................................................................ 31
2.7.3 Attention U-Net ................................................................................................. 33
2.8 Conclusion ..................................................................................................................... 34
3 Background and Related Work on Stroke ......................................................................... 35
3.1 Introduction ................................................................................................................... 35
3.2 Stroke Overview ............................................................................................................ 35
3.2.1 Definition .......................................................................................................... 35
3.2.2 Types ................................................................................................................. 36
3.2.3 Symptoms .......................................................................................................... 37
3.2.4 Diagnostic ......................................................................................................... 37
3.2.5 Treatment .......................................................................................................... 38
3.3 Medical Imaging Techniques for Stroke ....................................................................... 39
3.3.1 Computed Tomography (CT) ............................................................................ 39
3.3.2 Magnetic Resonance Imaging (MRI) ............................................................... 40
3.4 Importance of Stroke Lesion Segmentation and Deep Learning’s Role ....................... 40
3.4.1 Significance of Stroke Lesion Segmentation in Research and Medicine ......... 40
3.4.2 Deep Learning for Stroke Lesion Segmentation ............................................... 41
3.5 Related Work ................................................................................................................. 42
3.6 Conclusion ..................................................................................................................... 45
4 Experiment And Results ...................................................................................................... 46
4.1 Introduction ................................................................................................................... 46
4.2 Data description ............................................................................................................. 46
4.2.1 Image Characteristics ........................................................................................ 47
4.2.2 Key Metadata Features ...................................................................................... 47
4.2.3 Data Samples ..................................................................................................... 48
4.3 Data Preprocessing ........................................................................................................ 49
4.3.1 Extraction of 2D Slices ..................................................................................... 49
4.3.2 Filtering Slices .................................................................................................. 49
4.3.3 Normalization of Images ................................................................................... 49
4.3.4 Resizing ............................................................................................................. 50
4.3.5 Data Augmentation............................................................................................ 50
4.4 Methodology and Results .............................................................................................. 50
4.4.1 Stroke UNet-Architecture ................................................................................. 51
4.4.1.1 Overall Structure ................................................................................. 52
4.4.1.2 Convolutional Block ........................................................................... 52
4.4.1.3 Contracting Path (Encoder) ................................................................. 52
4.4.1.4 Expanding Path (Decoder) .................................................................. 53
4.4.1.5 Output Layer ....................................................................................... 53
4.4.1.6 Results ................................................................................................. 53
4.4.2 Attention UNet-Architecture ............................................................................. 54
4.4.2.1 Overall Structure ................................................................................. 55
4.4.2.3 Attention Block Objectives ................................................................. 55
4.4.2.4 Results ................................................................................................. 56
4.4.3 UNet++ Architecture ......................................................................................... 57
4.4.3.1 Objectives ............................................................................................ 57
4.4.3.2 Results ................................................................................................. 58
4.4.4 Results Discussion ............................................................................................ 58
4.4.5 Model Prediction Capability ............................................................................. 60
4.5 Comparision With Related Works ................................................................................ 62
4.6 Conclusion .................................................................................................................... 62
Bibliography ................................................................................................................................ 64Côte titre : MAI/0998 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0998 MAI/0998 Mémoire Bibliothèque des sciences Anglais Disponible
Disponible
Titre : Plant-Leaf Diseases Detection Based Deep Learning Approaches Type de document : texte imprimé Auteurs : Djaafer Gueddou, Auteur ; Hamdi ,Skander, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (80 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Résumé :
Detecting plant diseases is often challenging without expert knowledge. In this thesis,
we propose a new classification model based on deep learning to classify and identify
different plant leaf diseases with high accuracy, surpassing state-of-the-art approaches,
previous works, and expert diagnoses in pathology. Using only training images, convolutional
neural networks (CNNs) can automatically extract features for classification and achieve high
performance.
We utilized the Tomato dataset, which includes 11,000 healthy and unhealthy tomato leaf
images across nine disease categories. Our proposed models include a deep convolutional neural
network architecture and several fine-tuned pre-trained models. These pre-trained models are
ResNet50V2, Xception, InceptionV3, DenseNet201, EfficientNetV2M, InceptionResNetV2, and
ConvNeXtSmall.
Our proposed model achieved an accuracy exceeding 98% across all CNN and transformer
models. Specifically, the pre-trained models yielded an accuracy of up to 99.86%.
This study aims to enhance the detection of plant leaf diseases, thereby improving plant
health and contributing to better quality of human life.Note de contenu : Sommaire
1 Plant Leaf Diseases 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Plant Leaf Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Infectious and Non Infectious Plant diseases . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Infectious Plant Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1.1 Fungi and Fungal-like Organisms (FLOs) Diseases . . . . . . . . 3
1.3.1.2 Bacterial Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1.3 Nematodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1.4 Viral Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Non Infectious Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Brief History of AI 11
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Dartmouth Workshop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Dartmouth Workshop - AI Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 AI Fields and Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 AI Fields . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 AI Projects and Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 State of the Art 17
3.1 Machine Learning (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Classification & regression in Machine Learning . . . . . . . . . . . . . . . . 18
3.1.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Examples of Classification Algorithms . . . . . . . . . . . . . . . . . . 19
Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Examples of Regression Algorithms . . . . . . . . . . . . . . . . . . . 19
Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2 Data Processing in Machine Learning . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2.1 Key Steps in Data Processing . . . . . . . . . . . . . . . . . . . . . 20
Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2.2 Detailed Steps with Examples . . . . . . . . . . . . . . . . . . . . . 21
Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Data Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.2.3 Importance of Data Processing . . . . . . . . . . . . . . . . . . . . . 22
3.1.3 Overfitting & Underfitting in Machine Learning . . . . . . . . . . . . . . . . 22
3.1.3.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Symptoms of Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Causes of Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Solutions to Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.3.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Symptoms of Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . 23
Causes of Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Solutions to Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.4 Model Evaluation & Validation in Machine Learning . . . . . . . . . . . . . 24
3.1.4.1 Key Concepts in Model Evaluation Validation . . . . . . . . . . . 24
Train-Test Split . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Validation Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Hyperparameter Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.4.2 Example Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Train-Test Split . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Hyperparameter Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Supervised Learning in Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1.1 One-vs-All Classification . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.4 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.5 Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Unsupervised Learning in Machine Learning . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1.1 Popular Clustering Algorithms . . . . . . . . . . . . . . . . . . . . . 28
k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
DBSCAN (Density-Based Spatial Clustering of Applications with
Noise) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Gaussian Mixture Models (GMM) . . . . . . . . . . . . . . . . . . . . 28
3.3.2 Dimensionality Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.2.1 Popular Dimensionality Reduction Algorithms . . . . . . . . . . . 28
Principal Component Analysis (PCA) . . . . . . . . . . . . . . . . . . 28
t-Distributed Stochastic Neighbor Embedding (t-SNE) . . . . . . . . 28
Singular Value Decomposition (SVD) . . . . . . . . . . . . . . . . . . 29
3.3.3 Association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.3.1 Popular Association Algorithms . . . . . . . . . . . . . . . . . . . . 29
Apriori Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Eclat Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Deep Learning DL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1 Deep Learning in Brief . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1.1 History and Evolution of Deep Learning . . . . . . . . . . . . . . . 29
3.4.1.2 Deep Learning vs. Traditional Machine Learning . . . . . . . . . 30
3.4.1.3 Applications of Deep Learning . . . . . . . . . . . . . . . . . . . . . 30
3.4.2 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.2.1 Biological Neurons vs. Artificial Neurons . . . . . . . . . . . . . . 31
3.4.2.2 Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.2.3 Multilayer Perceptrons (MLP) . . . . . . . . . . . . . . . . . . . . . 31
3.4.2.4 Feedforward Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 32
........Côte titre : MAI/0895 Plant-Leaf Diseases Detection Based Deep Learning Approaches [texte imprimé] / Djaafer Gueddou, Auteur ; Hamdi ,Skander, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (80 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Résumé :
Detecting plant diseases is often challenging without expert knowledge. In this thesis,
we propose a new classification model based on deep learning to classify and identify
different plant leaf diseases with high accuracy, surpassing state-of-the-art approaches,
previous works, and expert diagnoses in pathology. Using only training images, convolutional
neural networks (CNNs) can automatically extract features for classification and achieve high
performance.
We utilized the Tomato dataset, which includes 11,000 healthy and unhealthy tomato leaf
images across nine disease categories. Our proposed models include a deep convolutional neural
network architecture and several fine-tuned pre-trained models. These pre-trained models are
ResNet50V2, Xception, InceptionV3, DenseNet201, EfficientNetV2M, InceptionResNetV2, and
ConvNeXtSmall.
Our proposed model achieved an accuracy exceeding 98% across all CNN and transformer
models. Specifically, the pre-trained models yielded an accuracy of up to 99.86%.
This study aims to enhance the detection of plant leaf diseases, thereby improving plant
health and contributing to better quality of human life.Note de contenu : Sommaire
1 Plant Leaf Diseases 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Plant Leaf Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Infectious and Non Infectious Plant diseases . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Infectious Plant Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1.1 Fungi and Fungal-like Organisms (FLOs) Diseases . . . . . . . . 3
1.3.1.2 Bacterial Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1.3 Nematodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1.4 Viral Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Non Infectious Diseases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Brief History of AI 11
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Dartmouth Workshop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Dartmouth Workshop - AI Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 AI Fields and Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 AI Fields . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 AI Projects and Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 State of the Art 17
3.1 Machine Learning (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Classification & regression in Machine Learning . . . . . . . . . . . . . . . . 18
3.1.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Examples of Classification Algorithms . . . . . . . . . . . . . . . . . . 19
Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Examples of Regression Algorithms . . . . . . . . . . . . . . . . . . . 19
Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2 Data Processing in Machine Learning . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2.1 Key Steps in Data Processing . . . . . . . . . . . . . . . . . . . . . 20
Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Data Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2.2 Detailed Steps with Examples . . . . . . . . . . . . . . . . . . . . . 21
Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Data Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.2.3 Importance of Data Processing . . . . . . . . . . . . . . . . . . . . . 22
3.1.3 Overfitting & Underfitting in Machine Learning . . . . . . . . . . . . . . . . 22
3.1.3.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Symptoms of Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Causes of Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Solutions to Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.3.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Symptoms of Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . 23
Causes of Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Solutions to Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.4 Model Evaluation & Validation in Machine Learning . . . . . . . . . . . . . 24
3.1.4.1 Key Concepts in Model Evaluation Validation . . . . . . . . . . . 24
Train-Test Split . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Validation Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Hyperparameter Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.4.2 Example Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Train-Test Split . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Hyperparameter Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Supervised Learning in Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1.1 One-vs-All Classification . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.4 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.5 Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Unsupervised Learning in Machine Learning . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1.1 Popular Clustering Algorithms . . . . . . . . . . . . . . . . . . . . . 28
k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
DBSCAN (Density-Based Spatial Clustering of Applications with
Noise) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Gaussian Mixture Models (GMM) . . . . . . . . . . . . . . . . . . . . 28
3.3.2 Dimensionality Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.2.1 Popular Dimensionality Reduction Algorithms . . . . . . . . . . . 28
Principal Component Analysis (PCA) . . . . . . . . . . . . . . . . . . 28
t-Distributed Stochastic Neighbor Embedding (t-SNE) . . . . . . . . 28
Singular Value Decomposition (SVD) . . . . . . . . . . . . . . . . . . 29
3.3.3 Association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.3.1 Popular Association Algorithms . . . . . . . . . . . . . . . . . . . . 29
Apriori Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Eclat Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Deep Learning DL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1 Deep Learning in Brief . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1.1 History and Evolution of Deep Learning . . . . . . . . . . . . . . . 29
3.4.1.2 Deep Learning vs. Traditional Machine Learning . . . . . . . . . 30
3.4.1.3 Applications of Deep Learning . . . . . . . . . . . . . . . . . . . . . 30
3.4.2 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.2.1 Biological Neurons vs. Artificial Neurons . . . . . . . . . . . . . . 31
3.4.2.2 Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.2.3 Multilayer Perceptrons (MLP) . . . . . . . . . . . . . . . . . . . . . 31
3.4.2.4 Feedforward Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 32
........Côte titre : MAI/0895 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0895 MAI/0895 Mémoire Bibliothèque des sciences Anglais Disponible
DisponibleSpeech Emotion Identification and Classification with Transformers and Whisper Architectures / Amira Bouhafs
Titre : Speech Emotion Identification and Classification with Transformers and Whisper Architectures Type de document : texte imprimé Auteurs : Amira Bouhafs, Auteur ; Sabrina Khemis ; Hamdi ,Skander, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (88 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Convolutional neural networks
Long Short Term Memory networks
Mel-frequency cepstral coefficients
Support vector machineIndex. décimale : 004 - Informatique Résumé :
This thesis uses advanced deep learning techniques to explore Speech Emotion Recognition
(SER), particularly focusing on Transformer and Whisper architectures. The study aims
to develop models capable of accurately identifying and classifying emotions from speech,
leveraging the power of deep learning frameworks.
The research begins with an overview of emotion theory and the challenges inherent
in emotion detection through speech. Various machine learning and deep learning
approaches are examined, with a particular emphasis on traditional methods such as
Decision Trees, SVM, and KNN, as well as more sophisticated neural network
architectures including CNN, LSTM, and hybrid models.
The Transformer model emerged as the most effective through extensive
experimentation, achieving an accuracy of 95%. This is closely followed by a CNN
BiLSTM model with Multi-Head Attention, which achieved an accuracy of 94.54%.
Additionally, the study integrates multimodal data, combining audio transcription with
audio features, leading to a significant performance boost. The highest accuracy, 97.42%,
was achieved by the Multimodal DziriBert + Transformer model on the Algerian
dataset.Note de contenu : Sommaire
Introduction xiii
1 Speech Emotion Recognition Overview 1
1.1 Emotion Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Basic and Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Basic Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Sensory modalities for emotion expression . . . . . . . . . . . . . . . . . . 3
1.3.1 Facial expressions . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Speech and Voice Modulation . . . . . . . . . . . . . . . . . . . . . 4
1.3.3 Physiological Signals . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 What is Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Types of Speech Recognition . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.1 Isolated Words . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.2 Connected Words . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.3 Continuous Speech . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1.4 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 What Applications is Speech Recognition used for . . . . . . . . . . 6
1.5 Speech Emotion Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Data Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.1 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.2 Acted Speech . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1.2 Elicited Speech . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Dataset Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 MFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . 12
1.6.1.1 Mel Spectogram . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Applications of SER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Theorical Concept and Related Work 16
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Types of Machine Learning : . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Classical Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 19
2.3.1 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . 19
2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.4 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Related Works Using Classical ML Models . . . . . . . . . . . . . . 21
2.4 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 Artificial Neural Networks (ANNs) . . . . . . . . . . . . . . . . . . 22
2.4.2 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 23
2.4.3 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . . 25
2.4.4 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . 26
2.4.5 Bidirectional Recurrent Neural Networks (BRNN) . . . . . . . . . . 27
2.4.6 Related Work Using DL Models . . . . . . . . . . . . . . . . . . . . 28
2.5 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.1 Background on Transformers . . . . . . . . . . . . . . . . . . . . . 29
2.5.2 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.1 Input Embeddings . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.2 Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.3 Decoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.3 Transformers’ Pre-trained Models . . . . . . . . . . . . . . . . . . . 32
2.5.3.1 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.2 AraBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.3 DziriBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.4 Application of Transformers in Speech Emotion Recognition . . . . 32
2.6 Whisper Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1 Introduction to Whisper . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.2 Architectural Design . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.3 Model Variants and Fine-Tuning . . . . . . . . . . . . . . . . . . . 34
2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Dataset and Implementation Tools 35
3.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Algerian dialect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.2 CREMA-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.3 SAVEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.4 RAVDESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.5 TESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Silence Removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Development Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.3 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.4 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.5 Librosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.6 Sickit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.7 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.8 ReduceLROnPlateau . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.9 ModelCheckpoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.10 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.11 Plotly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.12 Jupyter notebooks . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.13 Kaggle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.14 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.4 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.5 AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.6 Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 Experiments And Results 46
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.1 Machine Learning Models . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.2 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Machine Learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1 Decision Trees Classifier . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.2 SVM Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 KNN Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.4 Random Forest Classifier . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.5 Machine learning algorithms results . . . . . . . . . . . . . . . . . . 51
4.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.1 Deep Learning Training with Callbacks . . . . . . . . . . . . . . . . 52
4.3.2 SimpleRNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.3 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.4 CNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.5 CNN LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.6 CNN BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.7 CNN Multi-head Attention . . . . . . . . . . . . . . . . . . . . . . 60
4.3.8 CNN BiLSTM Multi-Head Attention . . . . . . . . . . . . . . . . . 62
4.3.9 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3.10 Multimodal Transformer . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.11 Comparative Performance Analysis of Models . . . . . . . . . . . . 71
4.3.12 Fine-Tuning Whisper Model . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4.1 Result comparisons based on Crema D . . . . . . . . . . . . . . . . 73
4.4.2 Result comparisons based on Algerian Dataset . . . . . . . . . . . 75
4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76Côte titre : MAI/0874 Speech Emotion Identification and Classification with Transformers and Whisper Architectures [texte imprimé] / Amira Bouhafs, Auteur ; Sabrina Khemis ; Hamdi ,Skander, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (88 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Convolutional neural networks
Long Short Term Memory networks
Mel-frequency cepstral coefficients
Support vector machineIndex. décimale : 004 - Informatique Résumé :
This thesis uses advanced deep learning techniques to explore Speech Emotion Recognition
(SER), particularly focusing on Transformer and Whisper architectures. The study aims
to develop models capable of accurately identifying and classifying emotions from speech,
leveraging the power of deep learning frameworks.
The research begins with an overview of emotion theory and the challenges inherent
in emotion detection through speech. Various machine learning and deep learning
approaches are examined, with a particular emphasis on traditional methods such as
Decision Trees, SVM, and KNN, as well as more sophisticated neural network
architectures including CNN, LSTM, and hybrid models.
The Transformer model emerged as the most effective through extensive
experimentation, achieving an accuracy of 95%. This is closely followed by a CNN
BiLSTM model with Multi-Head Attention, which achieved an accuracy of 94.54%.
Additionally, the study integrates multimodal data, combining audio transcription with
audio features, leading to a significant performance boost. The highest accuracy, 97.42%,
was achieved by the Multimodal DziriBert + Transformer model on the Algerian
dataset.Note de contenu : Sommaire
Introduction xiii
1 Speech Emotion Recognition Overview 1
1.1 Emotion Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Basic and Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Basic Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Sensory modalities for emotion expression . . . . . . . . . . . . . . . . . . 3
1.3.1 Facial expressions . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Speech and Voice Modulation . . . . . . . . . . . . . . . . . . . . . 4
1.3.3 Physiological Signals . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 What is Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Types of Speech Recognition . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.1 Isolated Words . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.2 Connected Words . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.3 Continuous Speech . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1.4 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 What Applications is Speech Recognition used for . . . . . . . . . . 6
1.5 Speech Emotion Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Data Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.1 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.2 Acted Speech . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1.2 Elicited Speech . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Dataset Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 MFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . 12
1.6.1.1 Mel Spectogram . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Applications of SER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Theorical Concept and Related Work 16
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Types of Machine Learning : . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Classical Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 19
2.3.1 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . 19
2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.4 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Related Works Using Classical ML Models . . . . . . . . . . . . . . 21
2.4 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 Artificial Neural Networks (ANNs) . . . . . . . . . . . . . . . . . . 22
2.4.2 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 23
2.4.3 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . . 25
2.4.4 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . 26
2.4.5 Bidirectional Recurrent Neural Networks (BRNN) . . . . . . . . . . 27
2.4.6 Related Work Using DL Models . . . . . . . . . . . . . . . . . . . . 28
2.5 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.1 Background on Transformers . . . . . . . . . . . . . . . . . . . . . 29
2.5.2 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.1 Input Embeddings . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.2 Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.3 Decoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.3 Transformers’ Pre-trained Models . . . . . . . . . . . . . . . . . . . 32
2.5.3.1 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.2 AraBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.3 DziriBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.4 Application of Transformers in Speech Emotion Recognition . . . . 32
2.6 Whisper Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1 Introduction to Whisper . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.2 Architectural Design . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.3 Model Variants and Fine-Tuning . . . . . . . . . . . . . . . . . . . 34
2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Dataset and Implementation Tools 35
3.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Algerian dialect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.2 CREMA-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.3 SAVEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.4 RAVDESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.5 TESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Silence Removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Development Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.3 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.4 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.5 Librosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.6 Sickit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.7 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.8 ReduceLROnPlateau . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.9 ModelCheckpoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.10 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.11 Plotly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.12 Jupyter notebooks . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.13 Kaggle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.14 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.4 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.5 AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.6 Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 Experiments And Results 46
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.1 Machine Learning Models . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.2 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Machine Learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1 Decision Trees Classifier . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.2 SVM Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 KNN Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.4 Random Forest Classifier . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.5 Machine learning algorithms results . . . . . . . . . . . . . . . . . . 51
4.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.1 Deep Learning Training with Callbacks . . . . . . . . . . . . . . . . 52
4.3.2 SimpleRNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.3 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.4 CNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.5 CNN LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.6 CNN BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.7 CNN Multi-head Attention . . . . . . . . . . . . . . . . . . . . . . 60
4.3.8 CNN BiLSTM Multi-Head Attention . . . . . . . . . . . . . . . . . 62
4.3.9 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3.10 Multimodal Transformer . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.11 Comparative Performance Analysis of Models . . . . . . . . . . . . 71
4.3.12 Fine-Tuning Whisper Model . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4.1 Result comparisons based on Crema D . . . . . . . . . . . . . . . . 73
4.4.2 Result comparisons based on Algerian Dataset . . . . . . . . . . . 75
4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76Côte titre : MAI/0874 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0874 MAI/0874 Mémoire Bibliothèque des sciences Anglais Disponible
Disponible

