University Sétif 1 FERHAT ABBAS Faculty of Sciences
Catégories


Titre : Deep learning model for predicting cancer stage based on genomic data Type de document : texte imprimé Auteurs : Rayane Mesnata ; Roumaissa Laouarem ; Abderrahim Lakehal, Directeur de thèse Editeur : Setif:UFA Année de publication : 2023 Importance : 1 vol (134 f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Bio-Informatics Cancer Machine learning Deep learning mRNA data Cbioportal, Index. décimale : 004 Informatique Résumé : This abstract discusses the integration of artificial intelligence (AI) and deep learning (DL) in cancer
diagnosis and treatment. It emphasizes the use of genomic sequencing technologies and machine
learning techniques to predict cancer stage and identify molecular signatures associated with different
stages. The Cancer Genome Atlas (TCGA) project has played a crucial role in collecting comprehensive
genomic data for various cancer types. the study highlights the importance of data preprocessing,
including quality control, normalization, and integration, to ensure the accuracy and reliability of the
predictive model. The performance of the deep learning model is evaluated using appropriate evaluation
metrics, such as accuracy, precision, recall, and F1 score; As Gene filtering techniques are used
to reduce noise and dimensionality, identifying relevant genes for cancer progression and stage.
This study develops a deep learning model for predicting cancer stage based on genomic data;
As the model incorporates a Convolutional Neural Network (CNN) architecture and is trained on a
comprehensive dataset, to evaluate the performance of the deep learning model, two approaches are
compared: utilizing the cbioportal platform and applying feature selection techniques. The cbioportal
platform allows for the exploration and analysis of cancer genomics data, providing valuable insights
into potential biomarkers and cancer biology. On the other hand, feature selection techniques aim to
identify the most informative genes or features for cancer stage prediction.
In conclusion, the experimental results demonstrate that the deep learning model, utilizing the
cbioportal platform, outperforms feature selection techniques in accurately predicting cancer stage;
As The model’s ability to automatically learn complex patterns and interactions from genomic data
contributes to its superior performance. These findings underscore the potential of deep learning in
advancing cancer diagnosis and treatment planning.Côte titre : MAI/0763 En ligne : https://drive.google.com/file/d/1zJ5Z2D54pTWUGV0dC7gU78uObVf0nEvc/view?usp=drive [...] Format de la ressource électronique : Deep learning model for predicting cancer stage based on genomic data [texte imprimé] / Rayane Mesnata ; Roumaissa Laouarem ; Abderrahim Lakehal, Directeur de thèse . - [S.l.] : Setif:UFA, 2023 . - 1 vol (134 f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Bio-Informatics Cancer Machine learning Deep learning mRNA data Cbioportal, Index. décimale : 004 Informatique Résumé : This abstract discusses the integration of artificial intelligence (AI) and deep learning (DL) in cancer
diagnosis and treatment. It emphasizes the use of genomic sequencing technologies and machine
learning techniques to predict cancer stage and identify molecular signatures associated with different
stages. The Cancer Genome Atlas (TCGA) project has played a crucial role in collecting comprehensive
genomic data for various cancer types. the study highlights the importance of data preprocessing,
including quality control, normalization, and integration, to ensure the accuracy and reliability of the
predictive model. The performance of the deep learning model is evaluated using appropriate evaluation
metrics, such as accuracy, precision, recall, and F1 score; As Gene filtering techniques are used
to reduce noise and dimensionality, identifying relevant genes for cancer progression and stage.
This study develops a deep learning model for predicting cancer stage based on genomic data;
As the model incorporates a Convolutional Neural Network (CNN) architecture and is trained on a
comprehensive dataset, to evaluate the performance of the deep learning model, two approaches are
compared: utilizing the cbioportal platform and applying feature selection techniques. The cbioportal
platform allows for the exploration and analysis of cancer genomics data, providing valuable insights
into potential biomarkers and cancer biology. On the other hand, feature selection techniques aim to
identify the most informative genes or features for cancer stage prediction.
In conclusion, the experimental results demonstrate that the deep learning model, utilizing the
cbioportal platform, outperforms feature selection techniques in accurately predicting cancer stage;
As The model’s ability to automatically learn complex patterns and interactions from genomic data
contributes to its superior performance. These findings underscore the potential of deep learning in
advancing cancer diagnosis and treatment planning.Côte titre : MAI/0763 En ligne : https://drive.google.com/file/d/1zJ5Z2D54pTWUGV0dC7gU78uObVf0nEvc/view?usp=drive [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0763 MAI/0763 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : A Deep learning model for predicting information diffusion in social networks Type de document : texte imprimé Auteurs : Hadjoudj ,Khalil, Auteur ; Drif ahlem, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (74 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Apprentissage automatique
SupportVector Machine(SVM)
Régression
logistique,
Long Short memory
Réseau sociaux
diffusion de l’information
sentimentsIndex. décimale : 004 - Informatique Résumé : les réseau sociaux sont devenu un outil très important pour diffuser
une information. Plusieurs études sont faites dans le but de comprendre
le phénomène de la diffusion de l’information. Dans cette
thèse de master, on présente un modèle de prédiction pour la diffusion de
l’information dans les réseaux sociaux. Dans l’ordre de comprendre l’élément
essentiel durant la propagation de l’information, on a extrait des caractéristiques
essentielles de la dataset qu’on a acquisitionnée comme celle de
l’utilisateur, les caractéristiques du contenu de tweet et les sentiments. Pour le
model de prédiction, on a fait l’indexation du temp sur un nombre de session
spécifique et on a proposé une architecture LSTM(Long Short memory). On a
prouvé les caractéristiques qu’ont un impact sur la diffusion de l’information
par l’implémentation de deux model l’u se base sur les caractéristiques de
l’utilisateur en rajoutant le contenu et l’autre se base sur les caractéristiques
de ce dernier en rajoutant les sentiments. L’apprentissage de ces deux modèles
sont tester et valider sur des dataset real acquisitionné depuis twitter.
en utilisant notre méthodologie, on a essayé d’avoir la prédiction avec une
précession de 86,6% sur le premier model et une convergence a 87.8% pour le
deuxième.
Notre model montre une précision de prédiction dans la comparaison avec les
techniques de l’apprentissage automatique Support Vector Machine(SVM) et
la régression logistique(RL).
Note de contenu : Sommaire
Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Why we use Data mining ? . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 knowledge discovery from data . . . . . . . . . . . . . . . . . . 5
1.4 What kind of Data can be mined? . . . . . . . . . . . . . . . . 7
1.4.1 Relational Database . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Data warehouses . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Time-series Databases . . . . . . . . . . . . . . . . . . . 8
1.5 Data Mining technique . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Association rules mining . . . . . . . . . . . . . . . . . 9
1.5.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Prediction Technique . . . . . . . . . . . . . . . . . . . 10
1.5.4 Clustering Technique . . . . . . . . . . . . . . . . . . . 11
1.6 Outliers analysis technique . . . . . . . . . . . . . . . . . . . . 11
1.7 Data mining task primitives . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Set of task relevant data to be mined . . . . . . . . . . . 12
1.7.2 Kind of knowledge to be discovered . . . . . . . . . . . 12
1.7.3 Background knowledge . . . . . . . . . . . . . . . . . . 12
1.7.4 Justification of the interestingness of the knowledge . . 12
1.7.5 Representation for visualizing . . . . . . . . . . . . . . 12
1.8 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.9 History of Machine Learning . . . . . . . . . . . . . . . . . . . 13
1.9.1 ALAN TURING . . . . . . . . . . . . . . . . . . . . . . . 13
1.9.2 ARTHUR SAMUEL . . . . . . . . . . . . . . . . . . . . 14
1.9.3 TOM M. MITCHELL . . . . . . . . . . . . . . . . . . . . 14
1.9.4 SUMMARY DEFINITION . . . . . . . . . . . . . . . . . 14
1.10 Machine learning Techniques . . . . . . . . . . . . . . . . . . . 14
1.10.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 14
1.10.2 Supervised learning techniques . . . . . . . . . . . . . 15
1.10.3 Supervised learning algorithms . . . . . . . . . . . . . . 15
iii
1.11 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . 16
1.11.1 Unsupervised Algorithms . . . . . . . . . . . . . . . . . 16
1.12 Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 16
1.12.1 Support Vector Machines . . . . . . . . . . . . . . . . . 16
1.12.2 Neural Networks . . . . . . . . . . . . . . . . . . . . . . 19
1.12.3 What is Artificial Neural Network ? . . . . . . . . . . . 19
1.12.4 ANN Architectures . . . . . . . . . . . . . . . . . . . . 20
1.12.4.1 Feed-forward networks . . . . . . . . . . . . . 20
1.12.4.2 Feedback networks . . . . . . . . . . . . . . . 22
1.12.4.3 Activation functions . . . . . . . . . . . . . . . 22
1.12.4.4 Back-Propagation . . . . . . . . . . . . . . . . 23
1.13 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.14 Decision tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.15 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Deep Learning 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Deep learning architectures . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Deep Neural Networks (DNN) . . . . . . . . . . . . . . 27
2.3.2 Convolutional Neural Networks . . . . . . . . . . . . . 28
2.3.3 Recurrent Neural Networks . . . . . . . . . . . . . . . . 29
2.3.3.1 How does RNN works? . . . . . . . . . . . . . 29
2.3.3.2 Training through RNN . . . . . . . . . . . . . 30
2.3.4 Advantages of Recurrent Neural Network . . . . . . . . 31
2.3.5 Disadvantages of Recurrent Neural Network . . . . . . 31
2.4 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . 31
2.4.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.1 Dropout . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.2 Batch normalization . . . . . . . . . . . . . . . 32
2.4.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 LITERATURE REVIEW 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Social networks . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Social networks modelling . . . . . . . . . . . . . . . . . 34
3.3 Information Diffusion and Epidemic Modeling . . . . . . . . . 34
3.3.1 SI model . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
iv
3.3.2 SIS model . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.3 SIR model . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.4 SIRS Model . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Predictive Models . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 Independent Cascade Model (ICM) . . . . . . . . . . . 37
3.4.2 Linear Threshold Model (LTM) . . . . . . . . . . . . . . 38
3.4.3 Game Theory Model (GTM) . . . . . . . . . . . . . . . 38
3.5 Related work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Adeep learning model for predicting information diffusion inOSN 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Problematic formulation . . . . . . . . . . . . . . . . . . . . . . 40
4.3 The proposed data mining framework . . . . . . . . . . . . . . 42
4.4 Data collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4.1 How to get data from twitter API? . . . . . . . . . . . . 43
4.4.2 Dataset description . . . . . . . . . . . . . . . . . . . . . 43
4.5 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.1 User features . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.2 Content features . . . . . . . . . . . . . . . . . . . . . . 45
4.6.3 Sentiment Features . . . . . . . . . . . . . . . . . . . . . 47
4.7 Prediction model construction based on LSTM . . . . . . . . . 47
4.7.1 Long short term memory (LSTM) . . . . . . . . . . . . 48
4.7.2 Forget gate . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7.3 Input gate . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7.4 Output gate . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7.5 The proposed architecture . . . . . . . . . . . . . . . . . 50
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Implementation and Results 53
5.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Language R . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.3 Anaconda . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.4 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.5 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.6 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
v
5.3 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 The features extraction . . . . . . . . . . . . . . . . . . . 56
5.3.2 Support vector machines . . . . . . . . . . . . . . . . . . 56
5.3.3 Logistic regression . . . . . . . . . . . . . . . . . . . . . 56
5.3.4 LSTM model configuration . . . . . . . . . . . . . . . . 56
5.4 Evaluation and results . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.1 Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.2 Results and discussion . . . . . . . . . . . . . . . . . . . 59
5.4.2.1 Robustness of the predictive LSTM model . . 64
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Côte titre : MAI/0313 En ligne : https://drive.google.com/file/d/1W_sW-aQDFuJmtdvY_zSoShN4ajY52Ibt/view?usp=shari [...] Format de la ressource électronique : A Deep learning model for predicting information diffusion in social networks [texte imprimé] / Hadjoudj ,Khalil, Auteur ; Drif ahlem, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (74 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Apprentissage automatique
SupportVector Machine(SVM)
Régression
logistique,
Long Short memory
Réseau sociaux
diffusion de l’information
sentimentsIndex. décimale : 004 - Informatique Résumé : les réseau sociaux sont devenu un outil très important pour diffuser
une information. Plusieurs études sont faites dans le but de comprendre
le phénomène de la diffusion de l’information. Dans cette
thèse de master, on présente un modèle de prédiction pour la diffusion de
l’information dans les réseaux sociaux. Dans l’ordre de comprendre l’élément
essentiel durant la propagation de l’information, on a extrait des caractéristiques
essentielles de la dataset qu’on a acquisitionnée comme celle de
l’utilisateur, les caractéristiques du contenu de tweet et les sentiments. Pour le
model de prédiction, on a fait l’indexation du temp sur un nombre de session
spécifique et on a proposé une architecture LSTM(Long Short memory). On a
prouvé les caractéristiques qu’ont un impact sur la diffusion de l’information
par l’implémentation de deux model l’u se base sur les caractéristiques de
l’utilisateur en rajoutant le contenu et l’autre se base sur les caractéristiques
de ce dernier en rajoutant les sentiments. L’apprentissage de ces deux modèles
sont tester et valider sur des dataset real acquisitionné depuis twitter.
en utilisant notre méthodologie, on a essayé d’avoir la prédiction avec une
précession de 86,6% sur le premier model et une convergence a 87.8% pour le
deuxième.
Notre model montre une précision de prédiction dans la comparaison avec les
techniques de l’apprentissage automatique Support Vector Machine(SVM) et
la régression logistique(RL).
Note de contenu : Sommaire
Background 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Why we use Data mining ? . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 knowledge discovery from data . . . . . . . . . . . . . . . . . . 5
1.4 What kind of Data can be mined? . . . . . . . . . . . . . . . . 7
1.4.1 Relational Database . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Data warehouses . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Time-series Databases . . . . . . . . . . . . . . . . . . . 8
1.5 Data Mining technique . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Association rules mining . . . . . . . . . . . . . . . . . 9
1.5.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Prediction Technique . . . . . . . . . . . . . . . . . . . 10
1.5.4 Clustering Technique . . . . . . . . . . . . . . . . . . . 11
1.6 Outliers analysis technique . . . . . . . . . . . . . . . . . . . . 11
1.7 Data mining task primitives . . . . . . . . . . . . . . . . . . . . 11
1.7.1 Set of task relevant data to be mined . . . . . . . . . . . 12
1.7.2 Kind of knowledge to be discovered . . . . . . . . . . . 12
1.7.3 Background knowledge . . . . . . . . . . . . . . . . . . 12
1.7.4 Justification of the interestingness of the knowledge . . 12
1.7.5 Representation for visualizing . . . . . . . . . . . . . . 12
1.8 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.9 History of Machine Learning . . . . . . . . . . . . . . . . . . . 13
1.9.1 ALAN TURING . . . . . . . . . . . . . . . . . . . . . . . 13
1.9.2 ARTHUR SAMUEL . . . . . . . . . . . . . . . . . . . . 14
1.9.3 TOM M. MITCHELL . . . . . . . . . . . . . . . . . . . . 14
1.9.4 SUMMARY DEFINITION . . . . . . . . . . . . . . . . . 14
1.10 Machine learning Techniques . . . . . . . . . . . . . . . . . . . 14
1.10.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . 14
1.10.2 Supervised learning techniques . . . . . . . . . . . . . 15
1.10.3 Supervised learning algorithms . . . . . . . . . . . . . . 15
iii
1.11 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . 16
1.11.1 Unsupervised Algorithms . . . . . . . . . . . . . . . . . 16
1.12 Machine Learning Algorithms . . . . . . . . . . . . . . . . . . . 16
1.12.1 Support Vector Machines . . . . . . . . . . . . . . . . . 16
1.12.2 Neural Networks . . . . . . . . . . . . . . . . . . . . . . 19
1.12.3 What is Artificial Neural Network ? . . . . . . . . . . . 19
1.12.4 ANN Architectures . . . . . . . . . . . . . . . . . . . . 20
1.12.4.1 Feed-forward networks . . . . . . . . . . . . . 20
1.12.4.2 Feedback networks . . . . . . . . . . . . . . . 22
1.12.4.3 Activation functions . . . . . . . . . . . . . . . 22
1.12.4.4 Back-Propagation . . . . . . . . . . . . . . . . 23
1.13 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.14 Decision tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.15 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Deep Learning 26
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Deep learning architectures . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Deep Neural Networks (DNN) . . . . . . . . . . . . . . 27
2.3.2 Convolutional Neural Networks . . . . . . . . . . . . . 28
2.3.3 Recurrent Neural Networks . . . . . . . . . . . . . . . . 29
2.3.3.1 How does RNN works? . . . . . . . . . . . . . 29
2.3.3.2 Training through RNN . . . . . . . . . . . . . 30
2.3.4 Advantages of Recurrent Neural Network . . . . . . . . 31
2.3.5 Disadvantages of Recurrent Neural Network . . . . . . 31
2.4 Overfitting and Underfitting . . . . . . . . . . . . . . . . . . . . 31
2.4.1 Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.1 Dropout . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1.2 Batch normalization . . . . . . . . . . . . . . . 32
2.4.2 Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 LITERATURE REVIEW 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Social networks . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Social networks modelling . . . . . . . . . . . . . . . . . 34
3.3 Information Diffusion and Epidemic Modeling . . . . . . . . . 34
3.3.1 SI model . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
iv
3.3.2 SIS model . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.3 SIR model . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.4 SIRS Model . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Predictive Models . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 Independent Cascade Model (ICM) . . . . . . . . . . . 37
3.4.2 Linear Threshold Model (LTM) . . . . . . . . . . . . . . 38
3.4.3 Game Theory Model (GTM) . . . . . . . . . . . . . . . 38
3.5 Related work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Adeep learning model for predicting information diffusion inOSN 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Problematic formulation . . . . . . . . . . . . . . . . . . . . . . 40
4.3 The proposed data mining framework . . . . . . . . . . . . . . 42
4.4 Data collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4.1 How to get data from twitter API? . . . . . . . . . . . . 43
4.4.2 Dataset description . . . . . . . . . . . . . . . . . . . . . 43
4.5 Data preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.1 User features . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6.2 Content features . . . . . . . . . . . . . . . . . . . . . . 45
4.6.3 Sentiment Features . . . . . . . . . . . . . . . . . . . . . 47
4.7 Prediction model construction based on LSTM . . . . . . . . . 47
4.7.1 Long short term memory (LSTM) . . . . . . . . . . . . 48
4.7.2 Forget gate . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7.3 Input gate . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7.4 Output gate . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7.5 The proposed architecture . . . . . . . . . . . . . . . . . 50
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Implementation and Results 53
5.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Language R . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.3 Anaconda . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.4 Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.5 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.6 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
v
5.3 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 The features extraction . . . . . . . . . . . . . . . . . . . 56
5.3.2 Support vector machines . . . . . . . . . . . . . . . . . . 56
5.3.3 Logistic regression . . . . . . . . . . . . . . . . . . . . . 56
5.3.4 LSTM model configuration . . . . . . . . . . . . . . . . 56
5.4 Evaluation and results . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.1 Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.2 Results and discussion . . . . . . . . . . . . . . . . . . . 59
5.4.2.1 Robustness of the predictive LSTM model . . 64
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Côte titre : MAI/0313 En ligne : https://drive.google.com/file/d/1W_sW-aQDFuJmtdvY_zSoShN4ajY52Ibt/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0313 MAI/0313 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : Deep Learning Model for Recognition of Genomic Signals and Regions Type de document : texte imprimé Auteurs : Debiche ,Hadjer, Auteur ; Bilal Bouaita, Directeur de thèse Editeur : Setif:UFA Année de publication : 2021 Importance : 1 vol (55 f .) Format : 29 cm Langues : Anglais (eng) Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatique
GénomiqueIndex. décimale : 004 - Informatique Résumé :
La reconnaissance des signaux et des régions génomiques (GSR) dans l‘ADN est
cruciale pour comprendre l‘organisation, la régulation et la fonction des gènes, qui à leur tour
produisent de meilleures annotations génomiques et génétiques. Bien que de nombreuses
méthodes aient été mises au point pour reconnaître les GSR, leur identification purement
informatique demeure difficile. De plus, divers GSR exigent habituellement un ensemble
spécialisé de caractéristiques pour développer des modèles de reconnaissance robustes.
Récemment, il a été démontré que les méthodes d‘apprentissage profond (DL) génèrent des
modèles de prévision plus précis que les méthodes peu profondes. Donc, pour mieux
reconnaître ces GSR il est nécessaire d‘abord de bien comprendre la jonction des épissures
dans les séquences d‘ADN, c‘est ce que nous faisons dans notre étude.
La classification des jonctions d‘épissage dans une cellule eucaryote est un problème
important parce que la jonction d‘épissage indique quelle partie de la séquence d‘ADN porte
l‘information de codage de protéine. Le principal problème lors de l‘élaboration d‘un
classificateur pour cette tâche de classification est de savoir comment représenter la séquence
d‘ADN sur les ordinateurs, puisque la précision de toute technique de classification dépend de
façon critique de la représentation adoptée.
Dans le stage de notre travail, nous implémentons un modèle Multilayer Perceptron
pour trouver la représentation appropriée pour la tâche de classification des jonctions. Il s‘agit
de reconnaître des données dans trois classes de limites exon/intron (ou sites « donneurs »), de
limites intron/exon (ou sites « accepteurs ») ou bien ni l‘une ni l‘autre. Notre modèle proposé
à une exactitude de 93 % .Côte titre : MAI/0558 En ligne : https://drive.google.com/file/d/1CPfnJfpj6OeCfGccLGgoB3gMnLGbbdl_/view?usp=shari [...] Format de la ressource électronique : Deep Learning Model for Recognition of Genomic Signals and Regions [texte imprimé] / Debiche ,Hadjer, Auteur ; Bilal Bouaita, Directeur de thèse . - [S.l.] : Setif:UFA, 2021 . - 1 vol (55 f .) ; 29 cm.
Langues : Anglais (eng)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Bioinformatique
GénomiqueIndex. décimale : 004 - Informatique Résumé :
La reconnaissance des signaux et des régions génomiques (GSR) dans l‘ADN est
cruciale pour comprendre l‘organisation, la régulation et la fonction des gènes, qui à leur tour
produisent de meilleures annotations génomiques et génétiques. Bien que de nombreuses
méthodes aient été mises au point pour reconnaître les GSR, leur identification purement
informatique demeure difficile. De plus, divers GSR exigent habituellement un ensemble
spécialisé de caractéristiques pour développer des modèles de reconnaissance robustes.
Récemment, il a été démontré que les méthodes d‘apprentissage profond (DL) génèrent des
modèles de prévision plus précis que les méthodes peu profondes. Donc, pour mieux
reconnaître ces GSR il est nécessaire d‘abord de bien comprendre la jonction des épissures
dans les séquences d‘ADN, c‘est ce que nous faisons dans notre étude.
La classification des jonctions d‘épissage dans une cellule eucaryote est un problème
important parce que la jonction d‘épissage indique quelle partie de la séquence d‘ADN porte
l‘information de codage de protéine. Le principal problème lors de l‘élaboration d‘un
classificateur pour cette tâche de classification est de savoir comment représenter la séquence
d‘ADN sur les ordinateurs, puisque la précision de toute technique de classification dépend de
façon critique de la représentation adoptée.
Dans le stage de notre travail, nous implémentons un modèle Multilayer Perceptron
pour trouver la représentation appropriée pour la tâche de classification des jonctions. Il s‘agit
de reconnaître des données dans trois classes de limites exon/intron (ou sites « donneurs »), de
limites intron/exon (ou sites « accepteurs ») ou bien ni l‘une ni l‘autre. Notre modèle proposé
à une exactitude de 93 % .Côte titre : MAI/0558 En ligne : https://drive.google.com/file/d/1CPfnJfpj6OeCfGccLGgoB3gMnLGbbdl_/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0558 MAI/0558 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : A Deep Learning model for recommender system of online resources Type de document : texte imprimé Auteurs : Rouina ,Haithem, Auteur ; Mediani,Chahrazed, Directeur de thèse Editeur : Setif:UFA Année de publication : 2021 Importance : 1 vol (66 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Côte titre : MAI/0527 En ligne : https://drive.google.com/file/d/1pxrQ-rnQnmM7lcXTbNeFexR1AJGiBoRU/view?usp=share [...] Format de la ressource électronique : A Deep Learning model for recommender system of online resources [texte imprimé] / Rouina ,Haithem, Auteur ; Mediani,Chahrazed, Directeur de thèse . - [S.l.] : Setif:UFA, 2021 . - 1 vol (66 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 - Informatique Côte titre : MAI/0527 En ligne : https://drive.google.com/file/d/1pxrQ-rnQnmM7lcXTbNeFexR1AJGiBoRU/view?usp=share [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0527 MAI/0527 Mémoire Bibliothéque des sciences Anglais Disponible
DisponibleDeep learning et modélisation de l’incertain pour la compression des données imprécises d’expression génétique / Rim Chemsse Rezig
![]()
Titre : Deep learning et modélisation de l’incertain pour la compression des données imprécises d’expression génétique Type de document : texte imprimé Auteurs : Rim Chemsse Rezig, Auteur ; Aicha Haddad, Auteur ; Noureddine Mekroud, Directeur de thèse Année de publication : 2023 Importance : 1 vol (95 f .) Format : 29cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Deep Learning Bio-informatique Images d’Expression Génétique Modèles génératifs Théorie de l’incertain Règles d’Association Bioinformatics Gene Expression Images Generative Models Uncertain Theory Association Rules. Index. décimale : 004 Informatique Résumé : Issues du mode réel, les données biologiques sont l'un des types de données les plus étudiées, vu l’importance vitale des connaissances que cachent ces données très volumineuses et hétérogènes et à caractère parfois incertain et imprécis. Une réduction fiable des dimensions des données étudiées réduira la complexité de tout algorithme d’apprentissage utilisé et aidera à améliorer la qualité de ses résultats. Aussi, introduire les théories de modélisation sous l’incertain (comme la logique floue, possibiliste et évidentielle) est très bénéfique pour assurer une représentation formelle des données biologiques fidèle à la leur réalité.
Dans cette perspective, l’approche proposée est basée sur la modélisation (via les théories de l’incertain) des séquences d’images représentant les zones expressions génétiques lors des phases de croissance de l’embryon de l’espèce modèle « Edinburgh Mouse ». Pour augmenter le nombre de ces images, nous proposons une méthode adéquate à leur contenu basée sur les modèles génératifs. Ensuite, l’extraction des caractéristiques les plus pertinentes de ces séquences d’image est assurée via un Auto-Encodeur convolutif, pour enfin extraire (via l’algorithme Apriori adapté à la logique évidentielle) les items-sets les plus fréquents qui représentent les gènes qui co-expriment durant les phases de développement de l’embryon de cette espèce. Une interprétation biologique des résultats des deux modélisations proposées (floue et possibiliste) sera ensuite fournie. Les connaissances extraites aideront les biologistes à mieux comprendre le génome des vivants qui cache toujours des secrets=Derived from real-world observations, biological data is one of the most extensively studied types of data, given the vital importance of the knowledge hidden within these voluminous, heterogeneous, uncertain, and sometimes imprecise data. Reliable dimension reduction of the studied data will decrease the complexity of any utilized learning algorithm and help improve the quality of its results. Additionally, introducing modeling theories under uncertainty, such as fuzzy, possibilistic, and evidential logic, is highly beneficial for ensuring a formal representation of biological data that remains faithful to its reality.
In this regard, the proposed approach is based on modeling (using uncertain theories) sequences of images representing genetic expression zones during the growth phases of the "Edinburgh Mouse" model species embryo. To increase the number of these images, we propose a content-based method based on generative models. Subsequently, the extraction of the most relevant features from these image sequences is ensured through a Convolutional Autoencoder. Finally, using the Apriori algorithm adapted to evidential logic, the most frequent itemsets representing co-expressed genes during the developmental phases of this embryo species are extracted. A biological interpretation of the results from the two proposed models (fuzzy and possibilistic) will be provided. The extracted knowledge will assist biologists in better understanding the genome of living organisms, which always harbors secrets
Côte titre : MAI/0770 En ligne : https://drive.google.com/file/d/1cjWyNeTJcpzi6zk-ebSAjmjGvod3Nqyr/view?usp=drive [...] Format de la ressource électronique : Deep learning et modélisation de l’incertain pour la compression des données imprécises d’expression génétique [texte imprimé] / Rim Chemsse Rezig, Auteur ; Aicha Haddad, Auteur ; Noureddine Mekroud, Directeur de thèse . - 2023 . - 1 vol (95 f .) ; 29cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Deep Learning Bio-informatique Images d’Expression Génétique Modèles génératifs Théorie de l’incertain Règles d’Association Bioinformatics Gene Expression Images Generative Models Uncertain Theory Association Rules. Index. décimale : 004 Informatique Résumé : Issues du mode réel, les données biologiques sont l'un des types de données les plus étudiées, vu l’importance vitale des connaissances que cachent ces données très volumineuses et hétérogènes et à caractère parfois incertain et imprécis. Une réduction fiable des dimensions des données étudiées réduira la complexité de tout algorithme d’apprentissage utilisé et aidera à améliorer la qualité de ses résultats. Aussi, introduire les théories de modélisation sous l’incertain (comme la logique floue, possibiliste et évidentielle) est très bénéfique pour assurer une représentation formelle des données biologiques fidèle à la leur réalité.
Dans cette perspective, l’approche proposée est basée sur la modélisation (via les théories de l’incertain) des séquences d’images représentant les zones expressions génétiques lors des phases de croissance de l’embryon de l’espèce modèle « Edinburgh Mouse ». Pour augmenter le nombre de ces images, nous proposons une méthode adéquate à leur contenu basée sur les modèles génératifs. Ensuite, l’extraction des caractéristiques les plus pertinentes de ces séquences d’image est assurée via un Auto-Encodeur convolutif, pour enfin extraire (via l’algorithme Apriori adapté à la logique évidentielle) les items-sets les plus fréquents qui représentent les gènes qui co-expriment durant les phases de développement de l’embryon de cette espèce. Une interprétation biologique des résultats des deux modélisations proposées (floue et possibiliste) sera ensuite fournie. Les connaissances extraites aideront les biologistes à mieux comprendre le génome des vivants qui cache toujours des secrets=Derived from real-world observations, biological data is one of the most extensively studied types of data, given the vital importance of the knowledge hidden within these voluminous, heterogeneous, uncertain, and sometimes imprecise data. Reliable dimension reduction of the studied data will decrease the complexity of any utilized learning algorithm and help improve the quality of its results. Additionally, introducing modeling theories under uncertainty, such as fuzzy, possibilistic, and evidential logic, is highly beneficial for ensuring a formal representation of biological data that remains faithful to its reality.
In this regard, the proposed approach is based on modeling (using uncertain theories) sequences of images representing genetic expression zones during the growth phases of the "Edinburgh Mouse" model species embryo. To increase the number of these images, we propose a content-based method based on generative models. Subsequently, the extraction of the most relevant features from these image sequences is ensured through a Convolutional Autoencoder. Finally, using the Apriori algorithm adapted to evidential logic, the most frequent itemsets representing co-expressed genes during the developmental phases of this embryo species are extracted. A biological interpretation of the results from the two proposed models (fuzzy and possibilistic) will be provided. The extracted knowledge will assist biologists in better understanding the genome of living organisms, which always harbors secrets
Côte titre : MAI/0770 En ligne : https://drive.google.com/file/d/1cjWyNeTJcpzi6zk-ebSAjmjGvod3Nqyr/view?usp=drive [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0770 MAI/0770 Mémoire Bibliothéque des sciences Français Disponible
DisponibleDeep learning models for arrhythmia classification and coronary artery diseases detection / Khaoula Tobbal
![]()
PermalinkPermalinkPermalinkDeep Learning pour l'identification et classification des expressions faciales émotionnelles / Diboune, nadia
PermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalink