University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Kaouther Daas |
Documents disponibles écrits par cet auteur
Ajouter le résultat dans votre panier Affiner la rechercheSubject: Enhancing Speech Quality In Algerian Dialect Through Deep Learning-Based Denoising Methods / Sonia Bouaissaoui
Titre : Subject: Enhancing Speech Quality In Algerian Dialect Through Deep Learning-Based Denoising Methods Type de document : document électronique Auteurs : Sonia Bouaissaoui ; Kaouther Daas, Auteur ; Hamdi ,Skander, Directeur de thèse Editeur : Setif:UFA Année de publication : 2025 Importance : 1 vol (86 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Speech Denoising
Algerian Dialect
Noisy Speech
Speech Enhancement
Deep LearningIndex. décimale : 004 Informatique Résumé :
This thesis addresses the problem of speech noise reduction, which is one of the main
challenges in the field of audio signal processing. Noisy speech signals can significantly
degrade the performance of many speech-based applications, such as speech recognition,
voice communication, and speech enhancement. In this context, this study explores
deep learning-based methods to improve the quality of Algerian dialect speech using
denoising techniques. A dataset of 1201 Algerian dialect audio recordings was used,
and three deep learning models were developed. These models were tested using four
types of noise. The results showed that the Denoising U-Net model outperformed
the others in terms of speech clarity and overall denoising performance, making it an
effective solution.Note de contenu : Sommaire
1 INTRODUCTION 2
1.1 Overview of Arabic Dialects . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Classical Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Modern Standard Arabic (MSA) . . . . . . . . . . . . . . . . . 3
1.1.3 Arabic Dialects . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4 Algerian Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Overview of Algerian Dialect . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 External influences . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Characteristics of Algerian Arabic . . . . . . . . . . . . . . . . 5
1.3 Speech and Audio Signal . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Importance of Algerian Dialect in Speech Processing . . . . . . . . . . 8
1.5 Challenges in Speech Processing for Algerian Dialect . . . . . . . . . . 8
1.6 Problem Statement and Motivation . . . . . . . . . . . . . . . . . . . . 9
1.7 Thesis Objectives and Research Questions . . . . . . . . . . . . . . . . 10
1.8 Thesis Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 THEORETICAL BACKGROUND 12
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Introduction to Speech Processing . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Speech and Language Variability . . . . . . . . . . . . . . . . . 13
2.3 Overview of Machine Learning . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Types of Machine learning . . . . . . . . . . . . . . . . . . . . . 14
2.4 Deep Learning Models for Speech Denoising . . . . . . . . . . . . . . . 15
2.4.1 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . 16
2.4.2 Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Overview on Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1 Characteristics of Audio . . . . . . . . . . . . . . . . . . . . . . 21
2.5.2 Overview on Audio Features . . . . . . . . . . . . . . . . . . . . 23
2.6 Overfitting and Normalization . . . . . . . . . . . . . . . . . . . . . . 27
2.6.1 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2 Batch Normalization (BN) . . . . . . . . . . . . . . . . . . . . 27
2.7 Overview On Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.1 Types of Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.7.2 Signal-to-Noise Ratio (SNR) . . . . . . . . . . . . . . . . . . . . 31
2.7.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 LITERATURE REVIEW 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Speech denoising in low resources languages . . . . . . . . . . . . . . . 34
3.3 Spoken Algerian Dialect Datasets . . . . . . . . . . . . . . . . . . . . . 35
3.4 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.1 General Approaches . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 Limatations and Gaps . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 EXPERIMENT AND IMPLEMENTATION 47
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.1 Duration Adjustment . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.2 Noise Addition . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.3 Mel Spectrogram Extraction . . . . . . . . . . . . . . . . . . . . 52
4.4.4 Audio Normalization . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4.5 Dataset Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5 Implementation frameworks and tools . . . . . . . . . . . . . . . . . . 54
4.6 Evaluation metrics for speech Denoising . . . . . . . . . . . . . . . . . 55
4.6.1 Signal-to-Noise Ratio (SNR) . . . . . . . . . . . . . . . . . . . . 55
4.6.2 Perceptual Evaluation of Speech Quality (PESQ) . . . . . . . . 55
4.6.3 Short-Time Objective Intelligibility (STOI) . . . . . . . . . . . 55
4.6.4 Peak Signal-to-Noise Ratio (PSNR) . . . . . . . . . . . . . . . 56
4.6.5 Mean Squared Error (MSE) . . . . . . . . . . . . . . . . . . . . 56
4.7 Experiments And Results . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.7.1 Convolutional AutoEncoder Model(CAE) : . . . . . . . . . . . . 57
4.7.2 GRU-CNN-AutoEncoder Model: . . . . . . . . . . . . . . . . . 62
4.7.3 Denoising U-Net Model: . . . . . . . . . . . . . . . . . . . . . . 67
4.8 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.9 External Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Côte titre : MAI/1028 Subject: Enhancing Speech Quality In Algerian Dialect Through Deep Learning-Based Denoising Methods [document électronique] / Sonia Bouaissaoui ; Kaouther Daas, Auteur ; Hamdi ,Skander, Directeur de thèse . - [S.l.] : Setif:UFA, 2025 . - 1 vol (86 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Speech Denoising
Algerian Dialect
Noisy Speech
Speech Enhancement
Deep LearningIndex. décimale : 004 Informatique Résumé :
This thesis addresses the problem of speech noise reduction, which is one of the main
challenges in the field of audio signal processing. Noisy speech signals can significantly
degrade the performance of many speech-based applications, such as speech recognition,
voice communication, and speech enhancement. In this context, this study explores
deep learning-based methods to improve the quality of Algerian dialect speech using
denoising techniques. A dataset of 1201 Algerian dialect audio recordings was used,
and three deep learning models were developed. These models were tested using four
types of noise. The results showed that the Denoising U-Net model outperformed
the others in terms of speech clarity and overall denoising performance, making it an
effective solution.Note de contenu : Sommaire
1 INTRODUCTION 2
1.1 Overview of Arabic Dialects . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Classical Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Modern Standard Arabic (MSA) . . . . . . . . . . . . . . . . . 3
1.1.3 Arabic Dialects . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4 Algerian Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Overview of Algerian Dialect . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 External influences . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Characteristics of Algerian Arabic . . . . . . . . . . . . . . . . 5
1.3 Speech and Audio Signal . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Importance of Algerian Dialect in Speech Processing . . . . . . . . . . 8
1.5 Challenges in Speech Processing for Algerian Dialect . . . . . . . . . . 8
1.6 Problem Statement and Motivation . . . . . . . . . . . . . . . . . . . . 9
1.7 Thesis Objectives and Research Questions . . . . . . . . . . . . . . . . 10
1.8 Thesis Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 THEORETICAL BACKGROUND 12
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Introduction to Speech Processing . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Speech and Language Variability . . . . . . . . . . . . . . . . . 13
2.3 Overview of Machine Learning . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Types of Machine learning . . . . . . . . . . . . . . . . . . . . . 14
2.4 Deep Learning Models for Speech Denoising . . . . . . . . . . . . . . . 15
2.4.1 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . 16
2.4.2 Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Overview on Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1 Characteristics of Audio . . . . . . . . . . . . . . . . . . . . . . 21
2.5.2 Overview on Audio Features . . . . . . . . . . . . . . . . . . . . 23
2.6 Overfitting and Normalization . . . . . . . . . . . . . . . . . . . . . . 27
2.6.1 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2 Batch Normalization (BN) . . . . . . . . . . . . . . . . . . . . 27
2.7 Overview On Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.1 Types of Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.7.2 Signal-to-Noise Ratio (SNR) . . . . . . . . . . . . . . . . . . . . 31
2.7.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 LITERATURE REVIEW 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Speech denoising in low resources languages . . . . . . . . . . . . . . . 34
3.3 Spoken Algerian Dialect Datasets . . . . . . . . . . . . . . . . . . . . . 35
3.4 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.1 General Approaches . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 Limatations and Gaps . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 EXPERIMENT AND IMPLEMENTATION 47
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Dataset Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.1 Duration Adjustment . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.2 Noise Addition . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.3 Mel Spectrogram Extraction . . . . . . . . . . . . . . . . . . . . 52
4.4.4 Audio Normalization . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4.5 Dataset Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5 Implementation frameworks and tools . . . . . . . . . . . . . . . . . . 54
4.6 Evaluation metrics for speech Denoising . . . . . . . . . . . . . . . . . 55
4.6.1 Signal-to-Noise Ratio (SNR) . . . . . . . . . . . . . . . . . . . . 55
4.6.2 Perceptual Evaluation of Speech Quality (PESQ) . . . . . . . . 55
4.6.3 Short-Time Objective Intelligibility (STOI) . . . . . . . . . . . 55
4.6.4 Peak Signal-to-Noise Ratio (PSNR) . . . . . . . . . . . . . . . 56
4.6.5 Mean Squared Error (MSE) . . . . . . . . . . . . . . . . . . . . 56
4.7 Experiments And Results . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.7.1 Convolutional AutoEncoder Model(CAE) : . . . . . . . . . . . . 57
4.7.2 GRU-CNN-AutoEncoder Model: . . . . . . . . . . . . . . . . . 62
4.7.3 Denoising U-Net Model: . . . . . . . . . . . . . . . . . . . . . . 67
4.8 Results comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.9 External Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Côte titre : MAI/1028 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/1028 MAI/1028 Mémoire Bibliothèque des sciences Anglais Disponible
Disponible

