University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Ranim Mehatla |
Documents disponibles écrits par cet auteur



Titre : Deep Learning Based Protein Function Prediction Type de document : texte imprimé Auteurs : Almas Djabar, Auteur ; Ranim Mehatla ; Nasri,Khaled, Directeur de thèse Editeur : Setif:UFA Année de publication : 2024 Importance : 1 vol (66 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Protein function prediction
Bioinformatics
Deep learning techniques
Imbalanced datasets
Multilabel classification
Data preprocessingIndex. décimale : 004 - Informatique Résumé :
Protein function prediction is a crucial task in bioinformatics, offering insights into biological processes and potential
drug targets.
This study employs advanced deep learning techniques on the CAFA5 dataset to predict protein functions solely
from sequence information, it focuses on data preprocessing, deep learning architectures, training, and evaluation.
We have employed comprehensive data preprocessing steps, including sequence embedding and various methods
to address the challenges posed by imbalanced datasets. We also developed several deep learning architectures
tailored for this task.
Results demonstrate that the deep neural network (DNN) outperformed other models on the imbalanced dataset
with an average Fmax of 0.4577, while the recurrent neural network (RNN) excels on the balanced dataset with an
average Fmax of 0.6970.
In conclusion, these findings underscores the importance of addressing data imbalance in multi-label classification
tasks for protein function prediction. It also highlights varying performance levels among architectures, with
specific methods excelling on different dataset natures.Note de contenu :
Sommaire
introduction 6
1 Biological Background 8
1.1 Biology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Biochemistry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Protein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Amino acids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Protein Synthesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Protein structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Protein function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.5 Gene Ontology: Standardizing Protein Functions . . . . . . . . . . . . . . . . . . . . . . 15
1.3.6 Protein Function Determination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Main bioinformatics tools and benchmarks: . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Deep Learning for Bioinformatics 22
2.1 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Exploring Advanced Architectures in Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1 Deep Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Convolutional Neural Network ‘’CNN’’ . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Recurrent Neural Network ‘’RNN’’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.4 Graph Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.5 Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.6 Multi-modal learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 Previous Research in the field . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Article Comparison Table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning Models for Multi-Label Classification of Protein Functions 35
3.1 Domain Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Domain Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.2 Project Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Dataset Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 Dataset Files Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Dataset Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1 Descriptive Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.2 Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.3 Taxonomic Diversity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4 Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.1 Protein Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.2 Extracting GO terms for labelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.3 Data Balancing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5 Experimental Protocol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.1 Fundamentals of Model Configuration and Optimization . . . . . . . . . . . . . . . . . . 48
3.5.2 Recurrent Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.3 Deep Neural Networks (DNNs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.4 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.5 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.6 Evaluation Metrics Used . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.6 Results and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6.1 Experiments Done with Different Labels Dataframes . . . . . . . . . . . . . . . . . . . . 56
3.6.2 Model Performance Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6.3 Result Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Conclusion and Perspectives 62Côte titre : MAI/0906
Deep Learning Based Protein Function Prediction [texte imprimé] / Almas Djabar, Auteur ; Ranim Mehatla ; Nasri,Khaled, Directeur de thèse . - [S.l.] : Setif:UFA, 2024 . - 1 vol (66 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Protein function prediction
Bioinformatics
Deep learning techniques
Imbalanced datasets
Multilabel classification
Data preprocessingIndex. décimale : 004 - Informatique Résumé :
Protein function prediction is a crucial task in bioinformatics, offering insights into biological processes and potential
drug targets.
This study employs advanced deep learning techniques on the CAFA5 dataset to predict protein functions solely
from sequence information, it focuses on data preprocessing, deep learning architectures, training, and evaluation.
We have employed comprehensive data preprocessing steps, including sequence embedding and various methods
to address the challenges posed by imbalanced datasets. We also developed several deep learning architectures
tailored for this task.
Results demonstrate that the deep neural network (DNN) outperformed other models on the imbalanced dataset
with an average Fmax of 0.4577, while the recurrent neural network (RNN) excels on the balanced dataset with an
average Fmax of 0.6970.
In conclusion, these findings underscores the importance of addressing data imbalance in multi-label classification
tasks for protein function prediction. It also highlights varying performance levels among architectures, with
specific methods excelling on different dataset natures.Note de contenu :
Sommaire
introduction 6
1 Biological Background 8
1.1 Biology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Biochemistry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Protein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Amino acids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Protein Synthesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Protein structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Protein function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.5 Gene Ontology: Standardizing Protein Functions . . . . . . . . . . . . . . . . . . . . . . 15
1.3.6 Protein Function Determination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Main bioinformatics tools and benchmarks: . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Deep Learning for Bioinformatics 22
2.1 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Exploring Advanced Architectures in Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1 Deep Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Convolutional Neural Network ‘’CNN’’ . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Recurrent Neural Network ‘’RNN’’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.4 Graph Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.5 Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.6 Multi-modal learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 Previous Research in the field . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Article Comparison Table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning Models for Multi-Label Classification of Protein Functions 35
3.1 Domain Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Domain Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.2 Project Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Dataset Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 Dataset Files Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Dataset Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1 Descriptive Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.2 Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.3 Taxonomic Diversity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4 Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.1 Protein Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.2 Extracting GO terms for labelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.3 Data Balancing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5 Experimental Protocol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.1 Fundamentals of Model Configuration and Optimization . . . . . . . . . . . . . . . . . . 48
3.5.2 Recurrent Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.3 Deep Neural Networks (DNNs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.4 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.5 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.6 Evaluation Metrics Used . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.6 Results and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6.1 Experiments Done with Different Labels Dataframes . . . . . . . . . . . . . . . . . . . . 56
3.6.2 Model Performance Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6.3 Result Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Conclusion and Perspectives 62Côte titre : MAI/0906
Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0906 MAI/0906 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible