University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Amira Bouhafs |
Documents disponibles écrits par cet auteur
data:image/s3,"s3://crabby-images/13af4/13af4ab1cc866045078d793a7d95154a4b603183" alt=""
data:image/s3,"s3://crabby-images/91109/91109da4efc8c5ac517819aaf7cfa58a3a87d0d0" alt=""
data:image/s3,"s3://crabby-images/5ffec/5ffec293e9509a53375160fdacaec76ef380c44b" alt="Tris disponibles"
Speech Emotion Identification and Classification with Transformers and Whisper Architectures / Amira Bouhafs
Titre : Speech Emotion Identification and Classification with Transformers and Whisper Architectures Type de document : texte imprimé Auteurs : Amira Bouhafs, Auteur ; Sabrina Khemis ; Hamdi ,Skander, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (88 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Convolutional neural networks
Long Short Term Memory networks
Mel-frequency cepstral coefficients
Support vector machineIndex. décimale : 004 - Informatique Résumé :
This thesis uses advanced deep learning techniques to explore Speech Emotion Recognition
(SER), particularly focusing on Transformer and Whisper architectures. The study aims
to develop models capable of accurately identifying and classifying emotions from speech,
leveraging the power of deep learning frameworks.
The research begins with an overview of emotion theory and the challenges inherent
in emotion detection through speech. Various machine learning and deep learning
approaches are examined, with a particular emphasis on traditional methods such as
Decision Trees, SVM, and KNN, as well as more sophisticated neural network
architectures including CNN, LSTM, and hybrid models.
The Transformer model emerged as the most effective through extensive
experimentation, achieving an accuracy of 95%. This is closely followed by a CNN
BiLSTM model with Multi-Head Attention, which achieved an accuracy of 94.54%.
Additionally, the study integrates multimodal data, combining audio transcription with
audio features, leading to a significant performance boost. The highest accuracy, 97.42%,
was achieved by the Multimodal DziriBert + Transformer model on the Algerian
dataset.Note de contenu : Sommaire
Introduction xiii
1 Speech Emotion Recognition Overview 1
1.1 Emotion Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Basic and Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Basic Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Sensory modalities for emotion expression . . . . . . . . . . . . . . . . . . 3
1.3.1 Facial expressions . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Speech and Voice Modulation . . . . . . . . . . . . . . . . . . . . . 4
1.3.3 Physiological Signals . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 What is Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Types of Speech Recognition . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.1 Isolated Words . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.2 Connected Words . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.3 Continuous Speech . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1.4 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 What Applications is Speech Recognition used for . . . . . . . . . . 6
1.5 Speech Emotion Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Data Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.1 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.2 Acted Speech . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1.2 Elicited Speech . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Dataset Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 MFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . 12
1.6.1.1 Mel Spectogram . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Applications of SER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Theorical Concept and Related Work 16
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Types of Machine Learning : . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Classical Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 19
2.3.1 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . 19
2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.4 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Related Works Using Classical ML Models . . . . . . . . . . . . . . 21
2.4 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 Artificial Neural Networks (ANNs) . . . . . . . . . . . . . . . . . . 22
2.4.2 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 23
2.4.3 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . . 25
2.4.4 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . 26
2.4.5 Bidirectional Recurrent Neural Networks (BRNN) . . . . . . . . . . 27
2.4.6 Related Work Using DL Models . . . . . . . . . . . . . . . . . . . . 28
2.5 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.1 Background on Transformers . . . . . . . . . . . . . . . . . . . . . 29
2.5.2 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.1 Input Embeddings . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.2 Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.3 Decoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.3 Transformers’ Pre-trained Models . . . . . . . . . . . . . . . . . . . 32
2.5.3.1 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.2 AraBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.3 DziriBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.4 Application of Transformers in Speech Emotion Recognition . . . . 32
2.6 Whisper Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1 Introduction to Whisper . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.2 Architectural Design . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.3 Model Variants and Fine-Tuning . . . . . . . . . . . . . . . . . . . 34
2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Dataset and Implementation Tools 35
3.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Algerian dialect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.2 CREMA-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.3 SAVEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.4 RAVDESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.5 TESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Silence Removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Development Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.3 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.4 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.5 Librosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.6 Sickit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.7 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.8 ReduceLROnPlateau . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.9 ModelCheckpoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.10 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.11 Plotly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.12 Jupyter notebooks . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.13 Kaggle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.14 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.4 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.5 AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.6 Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 Experiments And Results 46
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.1 Machine Learning Models . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.2 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Machine Learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1 Decision Trees Classifier . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.2 SVM Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 KNN Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.4 Random Forest Classifier . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.5 Machine learning algorithms results . . . . . . . . . . . . . . . . . . 51
4.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.1 Deep Learning Training with Callbacks . . . . . . . . . . . . . . . . 52
4.3.2 SimpleRNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.3 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.4 CNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.5 CNN LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.6 CNN BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.7 CNN Multi-head Attention . . . . . . . . . . . . . . . . . . . . . . 60
4.3.8 CNN BiLSTM Multi-Head Attention . . . . . . . . . . . . . . . . . 62
4.3.9 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3.10 Multimodal Transformer . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.11 Comparative Performance Analysis of Models . . . . . . . . . . . . 71
4.3.12 Fine-Tuning Whisper Model . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4.1 Result comparisons based on Crema D . . . . . . . . . . . . . . . . 73
4.4.2 Result comparisons based on Algerian Dataset . . . . . . . . . . . 75
4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76Côte titre : MAI/0874 Speech Emotion Identification and Classification with Transformers and Whisper Architectures [texte imprimé] / Amira Bouhafs, Auteur ; Sabrina Khemis ; Hamdi ,Skander, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (88 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Convolutional neural networks
Long Short Term Memory networks
Mel-frequency cepstral coefficients
Support vector machineIndex. décimale : 004 - Informatique Résumé :
This thesis uses advanced deep learning techniques to explore Speech Emotion Recognition
(SER), particularly focusing on Transformer and Whisper architectures. The study aims
to develop models capable of accurately identifying and classifying emotions from speech,
leveraging the power of deep learning frameworks.
The research begins with an overview of emotion theory and the challenges inherent
in emotion detection through speech. Various machine learning and deep learning
approaches are examined, with a particular emphasis on traditional methods such as
Decision Trees, SVM, and KNN, as well as more sophisticated neural network
architectures including CNN, LSTM, and hybrid models.
The Transformer model emerged as the most effective through extensive
experimentation, achieving an accuracy of 95%. This is closely followed by a CNN
BiLSTM model with Multi-Head Attention, which achieved an accuracy of 94.54%.
Additionally, the study integrates multimodal data, combining audio transcription with
audio features, leading to a significant performance boost. The highest accuracy, 97.42%,
was achieved by the Multimodal DziriBert + Transformer model on the Algerian
dataset.Note de contenu : Sommaire
Introduction xiii
1 Speech Emotion Recognition Overview 1
1.1 Emotion Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Basic and Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Basic Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Sensory modalities for emotion expression . . . . . . . . . . . . . . . . . . 3
1.3.1 Facial expressions . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Speech and Voice Modulation . . . . . . . . . . . . . . . . . . . . . 4
1.3.3 Physiological Signals . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 What is Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Types of Speech Recognition . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.1 Isolated Words . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.2 Connected Words . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1.3 Continuous Speech . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1.4 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 What Applications is Speech Recognition used for . . . . . . . . . . 6
1.5 Speech Emotion Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Data Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.1 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1.2 Acted Speech . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1.2 Elicited Speech . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Dataset Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 MFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . 12
1.6.1.1 Mel Spectogram . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Applications of SER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Theorical Concept and Related Work 16
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Types of Machine Learning : . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Classical Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 19
2.3.1 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . 19
2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.4 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Related Works Using Classical ML Models . . . . . . . . . . . . . . 21
2.4 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 Artificial Neural Networks (ANNs) . . . . . . . . . . . . . . . . . . 22
2.4.2 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 23
2.4.3 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . . 25
2.4.4 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . 26
2.4.5 Bidirectional Recurrent Neural Networks (BRNN) . . . . . . . . . . 27
2.4.6 Related Work Using DL Models . . . . . . . . . . . . . . . . . . . . 28
2.5 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.1 Background on Transformers . . . . . . . . . . . . . . . . . . . . . 29
2.5.2 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.1 Input Embeddings . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.2 Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.2.3 Decoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.3 Transformers’ Pre-trained Models . . . . . . . . . . . . . . . . . . . 32
2.5.3.1 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.2 AraBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3.3 DziriBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.4 Application of Transformers in Speech Emotion Recognition . . . . 32
2.6 Whisper Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1 Introduction to Whisper . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.2 Architectural Design . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.3 Model Variants and Fine-Tuning . . . . . . . . . . . . . . . . . . . 34
2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Dataset and Implementation Tools 35
3.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Algerian dialect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.2 CREMA-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.3 SAVEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.4 RAVDESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.5 TESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Silence Removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Development Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.3 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.4 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.5 Librosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.6 Sickit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.7 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.8 ReduceLROnPlateau . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.9 ModelCheckpoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.10 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.11 Plotly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.12 Jupyter notebooks . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.13 Kaggle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.14 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.4 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.5 AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.6 Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 Experiments And Results 46
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.1 Machine Learning Models . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.2 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Machine Learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1 Decision Trees Classifier . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.2 SVM Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 KNN Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.4 Random Forest Classifier . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.5 Machine learning algorithms results . . . . . . . . . . . . . . . . . . 51
4.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.1 Deep Learning Training with Callbacks . . . . . . . . . . . . . . . . 52
4.3.2 SimpleRNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.3 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.4 CNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.5 CNN LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.6 CNN BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.7 CNN Multi-head Attention . . . . . . . . . . . . . . . . . . . . . . 60
4.3.8 CNN BiLSTM Multi-Head Attention . . . . . . . . . . . . . . . . . 62
4.3.9 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3.10 Multimodal Transformer . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.11 Comparative Performance Analysis of Models . . . . . . . . . . . . 71
4.3.12 Fine-Tuning Whisper Model . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4.1 Result comparisons based on Crema D . . . . . . . . . . . . . . . . 73
4.4.2 Result comparisons based on Algerian Dataset . . . . . . . . . . . 75
4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76Côte titre : MAI/0874 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0874 MAI/0874 Mémoire Bibliothéque des sciences Anglais Disponible
DisponibleSpeech Emotion Identification and Classification with Transformers and Whisper Architectures / Sabrina Khemis
Titre : Speech Emotion Identification and Classification with Transformers and Whisper Architectures Type de document : texte imprimé Auteurs : Sabrina Khemis, Auteur ; Amira Bouhafs ; Abdelouahab Moussaoui, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (91 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Convolutional neural networks
Long Short Term Memory networks
Mel-frequency cepstral coefficientsIndex. décimale : 004 - Informatique Résumé :
This dissertation uses advanced deep learning techniques to explore Speech Emotion
Recognition (SER), particularly focusing on Transformer and Whisper architectures. The
study aims to develop models capable of accurately identifying and classifying emotions
from speech, leveraging the power of deep learning frameworks.
The research begins with an overview of emotion theory and the challenges inherent
in emotion detection through speech. Various machine learning and deep learning
approaches are examined, with a particular emphasis on traditional methods such as
Decision Trees, SVM, and KNN, as well as more sophisticated neural network architectures
including CNN, LSTM, and hybrid models.
The Transformer model emerged as the most effective through extensive experimentation,
achieving an accuracy of 95%. This is closely followed by a CNN BiLSTM model with
Multi-Head Attention, which achieved an accuracy of 94.54%. Additionally, the study
integrates multimodal data, combining audio transcription with audio features, leading
to a significant performance boost. The highest accuracy, 97.42%, was achieved by the
Multimodal DziriBert + Transformer model on the Algerian dataset.Note de contenu : Sommaire
List of Figures ix
List of Tables 1
1 Speech Emotion Recognition Overview 5
1.1 Emotion Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Basic and Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Basic Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Sensory modalities for emotion expression . . . . . . . . . . . . . . . . . . 7
1.3.1 Facial expressions . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Speech and Voice Modulation . . . . . . . . . . . . . . . . . . . . . 8
1.3.3 Physiological Signals . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 What is Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Types of Speech Recognition . . . . . . . . . . . . . . . . . . . . . 9
1.4.1.1 Isolated Words . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1.2 Connected Words . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1.3 Continuous Speech . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1.4 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 What Applications is Speech Recognition used for . . . . . . . . . . 10
1.5 Speech Emotion Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1 Data Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1.1 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1.2 Acted Speech . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.1.2 Elicited Speech . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Dataset Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1.1 MFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . 16
1.6.1.1 Mel Spectogram . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Applications of SER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Theoretical Concept and Related Work 20
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Types of Machine Learning : . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Classical Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 23
2.3.1 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . 23
2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.4 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . 25
2.3.5 Related Works Using Classical ML Models . . . . . . . . . . . . . . 25
2.4 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Artificial Neural Networks (ANNs) . . . . . . . . . . . . . . . . . . 26
2.4.2 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 27
2.4.3 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . . 29
2.4.4 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . 30
2.4.5 Bidirectional Recurrent Neural Networks (BRNN) . . . . . . . . . . 31
2.4.6 Related Work Using DL Models . . . . . . . . . . . . . . . . . . . . 32
2.5 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1 Background on Transformers . . . . . . . . . . . . . . . . . . . . . 33
2.5.2 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.1 Input Embeddings . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.2 Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.3 Decoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.3 Transformers’ Pre-trained Models . . . . . . . . . . . . . . . . . . . 36
2.5.3.1 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.3.2 AraBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.3.3 DziriBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.4 Application of Transformers in Speech Emotion Recognition . . . . 36
2.6 Whisper Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.1 Introduction to Whisper . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.2 Architectural Design . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.3 Model Variants and Fine-Tuning . . . . . . . . . . . . . . . . . . . 37
3 Dataset and Implementation Tools 39
3.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.1 Algerian dialect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.2 CREMA-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.3 SAVEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.4 RAVDESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.5 TESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Silence Removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Development Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.3 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.4 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.5 Librosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.6 Sickit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.7 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.8 ReduceLROnPlateau . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.9 ModelCheckpoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.10 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.11 Plotly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.12 Jupyter notebooks . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.13 Kaggle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.14 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6.4 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6.5 AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6.6 Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 Experiments And Results 50
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.1 Machine Learning Models . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.2 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Machine Learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 Decision Trees Classifier . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.2 SVM Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.3 KNN Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.4 Random Forest Classifier . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.5 Machine learning algorithms results . . . . . . . . . . . . . . . . . . 55
4.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.1 Deep Learning Training with Callbacks . . . . . . . . . . . . . . . . 56
4.3.2 SimpleRNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.3 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.4 CNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.5 CNN LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.6 CNN BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.7 CNN Multi-head Attention . . . . . . . . . . . . . . . . . . . . . . 64
4.3.8 CNN BiLSTM Multi-Head Attention . . . . . . . . . . . . . . . . . 66
4.3.9 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3.10 Multimodal Transformer . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.11 Comparative Performance Analysis of Models . . . . . . . . . . . . 74
4.3.12 Fine-Tuning Whisper Model . . . . . . . . . . . . . . . . . . . . . . 74
4.4 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4.1 Result comparisons based on Crema D . . . . . . . . . . . . . . . . 76
4.4.2 Result comparisons based on Algerian Dataset . . . . . . . . . . . 77
4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Bibliography 81
Côte titre : MAI/0878 Speech Emotion Identification and Classification with Transformers and Whisper Architectures [texte imprimé] / Sabrina Khemis, Auteur ; Amira Bouhafs ; Abdelouahab Moussaoui, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (91 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Machine Learning
Convolutional neural networks
Long Short Term Memory networks
Mel-frequency cepstral coefficientsIndex. décimale : 004 - Informatique Résumé :
This dissertation uses advanced deep learning techniques to explore Speech Emotion
Recognition (SER), particularly focusing on Transformer and Whisper architectures. The
study aims to develop models capable of accurately identifying and classifying emotions
from speech, leveraging the power of deep learning frameworks.
The research begins with an overview of emotion theory and the challenges inherent
in emotion detection through speech. Various machine learning and deep learning
approaches are examined, with a particular emphasis on traditional methods such as
Decision Trees, SVM, and KNN, as well as more sophisticated neural network architectures
including CNN, LSTM, and hybrid models.
The Transformer model emerged as the most effective through extensive experimentation,
achieving an accuracy of 95%. This is closely followed by a CNN BiLSTM model with
Multi-Head Attention, which achieved an accuracy of 94.54%. Additionally, the study
integrates multimodal data, combining audio transcription with audio features, leading
to a significant performance boost. The highest accuracy, 97.42%, was achieved by the
Multimodal DziriBert + Transformer model on the Algerian dataset.Note de contenu : Sommaire
List of Figures ix
List of Tables 1
1 Speech Emotion Recognition Overview 5
1.1 Emotion Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Basic and Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Basic Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Complex Emotions . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Sensory modalities for emotion expression . . . . . . . . . . . . . . . . . . 7
1.3.1 Facial expressions . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Speech and Voice Modulation . . . . . . . . . . . . . . . . . . . . . 8
1.3.3 Physiological Signals . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 What is Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Types of Speech Recognition . . . . . . . . . . . . . . . . . . . . . 9
1.4.1.1 Isolated Words . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1.2 Connected Words . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1.3 Continuous Speech . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1.4 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 What Applications is Speech Recognition used for . . . . . . . . . . 10
1.5 Speech Emotion Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1 Data Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1.1 Spontaneous Speech . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1.2 Acted Speech . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.1.2 Elicited Speech . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Dataset Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1.1 MFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . 16
1.6.1.1 Mel Spectogram . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Applications of SER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Theoretical Concept and Related Work 20
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Types of Machine Learning : . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Classical Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 23
2.3.1 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . 23
2.3.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.4 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . . . . 25
2.3.5 Related Works Using Classical ML Models . . . . . . . . . . . . . . 25
2.4 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Artificial Neural Networks (ANNs) . . . . . . . . . . . . . . . . . . 26
2.4.2 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 27
2.4.3 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . . 29
2.4.4 Long Short-Term Memory (LSTM) . . . . . . . . . . . . . . . . . . 30
2.4.5 Bidirectional Recurrent Neural Networks (BRNN) . . . . . . . . . . 31
2.4.6 Related Work Using DL Models . . . . . . . . . . . . . . . . . . . . 32
2.5 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1 Background on Transformers . . . . . . . . . . . . . . . . . . . . . 33
2.5.2 Transformer Architecture . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.1 Input Embeddings . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.2 Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.3 Decoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.3 Transformers’ Pre-trained Models . . . . . . . . . . . . . . . . . . . 36
2.5.3.1 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.3.2 AraBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.3.3 DziriBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.4 Application of Transformers in Speech Emotion Recognition . . . . 36
2.6 Whisper Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.1 Introduction to Whisper . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.2 Architectural Design . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.3 Model Variants and Fine-Tuning . . . . . . . . . . . . . . . . . . . 37
3 Dataset and Implementation Tools 39
3.1 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.1 Algerian dialect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.2 CREMA-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.3 SAVEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.4 RAVDESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.5 TESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Silence Removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Development Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.3 NumPy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.4 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.5 Librosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.6 Sickit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.7 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.8 ReduceLROnPlateau . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.9 ModelCheckpoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.10 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.11 Plotly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.12 Jupyter notebooks . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.13 Kaggle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.14 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6.4 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6.5 AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6.6 Confusion matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 Experiments And Results 50
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.1 Machine Learning Models . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.2 Conclusion : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Machine Learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 Decision Trees Classifier . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.2 SVM Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.3 KNN Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.4 Random Forest Classifier . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.5 Machine learning algorithms results . . . . . . . . . . . . . . . . . . 55
4.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.1 Deep Learning Training with Callbacks . . . . . . . . . . . . . . . . 56
4.3.2 SimpleRNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.3 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.4 CNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.5 CNN LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.6 CNN BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.7 CNN Multi-head Attention . . . . . . . . . . . . . . . . . . . . . . 64
4.3.8 CNN BiLSTM Multi-Head Attention . . . . . . . . . . . . . . . . . 66
4.3.9 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3.10 Multimodal Transformer . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.11 Comparative Performance Analysis of Models . . . . . . . . . . . . 74
4.3.12 Fine-Tuning Whisper Model . . . . . . . . . . . . . . . . . . . . . . 74
4.4 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4.1 Result comparisons based on Crema D . . . . . . . . . . . . . . . . 76
4.4.2 Result comparisons based on Algerian Dataset . . . . . . . . . . . 77
4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Bibliography 81
Côte titre : MAI/0878 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0878 MAI/0878 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible