University Sétif 1 FERHAT ABBAS Faculty of Sciences
Catégories
Ajouter le résultat dans votre panier Affiner la recherche
Titre : lutilisation des tfchniaues de data miniq pour la detection des cyber-attques Type de document : texte imprimé Auteurs : faical Sebbah, Auteur ; Yacine Saha, Auteur Année de publication : 2022 Importance : 1 vol (109 f .) Format : 29cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 Informatique Côte titre : MAI/0590 En ligne : https://drive.google.com/file/d/1ChLXR_k0WRHWCEPn7DS8GzXoLvj-LLK7/view?usp=share [...] Format de la ressource électronique : lutilisation des tfchniaues de data miniq pour la detection des cyber-attques [texte imprimé] / faical Sebbah, Auteur ; Yacine Saha, Auteur . - 2022 . - 1 vol (109 f .) ; 29cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 Informatique Côte titre : MAI/0590 En ligne : https://drive.google.com/file/d/1ChLXR_k0WRHWCEPn7DS8GzXoLvj-LLK7/view?usp=share [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0590 MAI/0590 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : Machine and Deep Learning for Detection of Hate Speech in Videos Type de document : texte imprimé Auteurs : Kram,Amira, Auteur ; Toumi,Lyazid, Directeur de thèse Editeur : Setif:UFA Année de publication : 2021 Importance : 1 vol (67 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Hate speech
Oensive language
Videos
Natural language
processingIndex. décimale : 003.54 Théorie de l'information Résumé :
In the last decade, the social network became popular, and the emergence
of the phenomenon of hate speech has been observed. A streaming platforms
like YouTube contains a lot of videos in dierent languages. The Arabic
videos with hate speech become a noticeable problem that requires the development
of automated tools to detect oensive language that aects all
categories of people who use YouTube.
The Arabic language is a Semitic language, but unfortunately, there is a
few scientic research concerning this language. The limited availability of
tools using the Arabic language makes to propose an automation tool is more
dicult. To our knowledge, this work is the rst that propose an automation
tool for detecting hate speech in Arabic videos.
In this master thesis, we propose to build an Arabic videos dataset from
the YouTube stream platform, how we annotated it, and using NLP techniques
for pre-processing step. Then, we applied popular machine learning
classiers using BOW, ngrams, TF-IDF and we propose deep learning methods
to solve our problem. Finally, the experiments on the used dataset show
that the support vector machines model gives the best performance for our
problem than the best known other classiers.
Côte titre : MAI/0475 En ligne : https://drive.google.com/file/d/1YUryxThPYFAP9g3mN0eCTHG4ZpUP8VT_/view?usp=shari [...] Format de la ressource électronique : Machine and Deep Learning for Detection of Hate Speech in Videos [texte imprimé] / Kram,Amira, Auteur ; Toumi,Lyazid, Directeur de thèse . - [S.l.] : Setif:UFA, 2021 . - 1 vol (67 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Hate speech
Oensive language
Videos
Natural language
processingIndex. décimale : 003.54 Théorie de l'information Résumé :
In the last decade, the social network became popular, and the emergence
of the phenomenon of hate speech has been observed. A streaming platforms
like YouTube contains a lot of videos in dierent languages. The Arabic
videos with hate speech become a noticeable problem that requires the development
of automated tools to detect oensive language that aects all
categories of people who use YouTube.
The Arabic language is a Semitic language, but unfortunately, there is a
few scientic research concerning this language. The limited availability of
tools using the Arabic language makes to propose an automation tool is more
dicult. To our knowledge, this work is the rst that propose an automation
tool for detecting hate speech in Arabic videos.
In this master thesis, we propose to build an Arabic videos dataset from
the YouTube stream platform, how we annotated it, and using NLP techniques
for pre-processing step. Then, we applied popular machine learning
classiers using BOW, ngrams, TF-IDF and we propose deep learning methods
to solve our problem. Finally, the experiments on the used dataset show
that the support vector machines model gives the best performance for our
problem than the best known other classiers.
Côte titre : MAI/0475 En ligne : https://drive.google.com/file/d/1YUryxThPYFAP9g3mN0eCTHG4ZpUP8VT_/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0475 MAI/0475 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : Machine Learning and Deep Learning Approach for Arabic Sentiment Analysis Type de document : texte imprimé Auteurs : Laroug,Madjda Ines, Auteur ; Sadik Bessou, Directeur de thèse Editeur : Setif:UFA Année de publication : 2020 Importance : 1 vol (68 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du Langage Naturel
Analyse des Sentiments
Sélection de FonctionnalitésIndex. décimale : 004 - Informatique Résumé :
La classification de texte est une application incroyablement utile de l’apprentissage automatique
et de l’apprentissage en profondeur. Elle consiste à attribuer un document textuel à une
classe. Aujourd’hui, l’analyse des sentiments est l’un des domaines de recherche à la croissance
la plus rapide en informatique, mais il manque actuellement encore l’interprétation de la
1
langue arabe. Par conséquent, nous créons un nouvel ensemble de données de commentaires et
de publications en arabe et résolvons des problèmes de classification binaire et quadruple.
Dans cette thèse, nous présentons les détails de la collecte d’un grand ensemble de données
"corpus" des commentaires et des publications en langue arabe provenant de plateformes
de médias sociaux. Les techniques utilisées pour le prétraitement de l’ensemble de données
collectées sont expliquées. Nous présentons nos quatre classes : positive, négative, mixte et
neutre. Différents algorithmes d’apprentissage automatique (ML) ont été utilisés pour classer
les commentaires : Bayes Naïves multinomiales, Bernoulli Bayes Naïves de, Régression Logistique,
Machine à Vecteurs de Support, Forêt Aléatoire et Descente de Gradient Stochastique.
L’application de ces algorithmes a révélé que l’algorithme Naïve Bayes fonctionne bien pour
la classification des textes pour les données d’apprentissage de petite taille et nous avons pu
atteindre une précision de 94,71% sur la classification en deux classes en utilisant le Multinomial
Naïve Bayes algorithme avec tfidfVectorizer en combinant les fonctionnalités unigrammes
et bigrammes. Sur le problème de classification quadruple, nous constatons que les meilleurs
résultats de précision obtenus en utilisant TfidfVectorizer avec le classificateur Support Vector
Machine utilisant des unigrammes est de 91,81%.
Nous avons également développé un réseau de neurones profond pour nos données en exploitant
les réseaux de neurones convolutionnels, le modèle de mémoire à long court terme et
enfin la combinaison des deux, puis nous les avons formés en fonction de différents attributs
sélectionnés. Enfin, nous décidons lequel est le meilleur pour nos données en fonction des
métriques d’évaluation. Le modèle CNN est la meilleure architecture pour les problèmes de
classification binaire et quadruple avec une précision de 93,57% et 90,84% respectivement.Côte titre : MAI/0345 En ligne : https://drive.google.com/file/d/19uWNEEwbB6J_uky9ItC6vPTtS8IyiwQF/view?usp=share [...] Format de la ressource électronique : Machine Learning and Deep Learning Approach for Arabic Sentiment Analysis [texte imprimé] / Laroug,Madjda Ines, Auteur ; Sadik Bessou, Directeur de thèse . - [S.l.] : Setif:UFA, 2020 . - 1 vol (68 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du Langage Naturel
Analyse des Sentiments
Sélection de FonctionnalitésIndex. décimale : 004 - Informatique Résumé :
La classification de texte est une application incroyablement utile de l’apprentissage automatique
et de l’apprentissage en profondeur. Elle consiste à attribuer un document textuel à une
classe. Aujourd’hui, l’analyse des sentiments est l’un des domaines de recherche à la croissance
la plus rapide en informatique, mais il manque actuellement encore l’interprétation de la
1
langue arabe. Par conséquent, nous créons un nouvel ensemble de données de commentaires et
de publications en arabe et résolvons des problèmes de classification binaire et quadruple.
Dans cette thèse, nous présentons les détails de la collecte d’un grand ensemble de données
"corpus" des commentaires et des publications en langue arabe provenant de plateformes
de médias sociaux. Les techniques utilisées pour le prétraitement de l’ensemble de données
collectées sont expliquées. Nous présentons nos quatre classes : positive, négative, mixte et
neutre. Différents algorithmes d’apprentissage automatique (ML) ont été utilisés pour classer
les commentaires : Bayes Naïves multinomiales, Bernoulli Bayes Naïves de, Régression Logistique,
Machine à Vecteurs de Support, Forêt Aléatoire et Descente de Gradient Stochastique.
L’application de ces algorithmes a révélé que l’algorithme Naïve Bayes fonctionne bien pour
la classification des textes pour les données d’apprentissage de petite taille et nous avons pu
atteindre une précision de 94,71% sur la classification en deux classes en utilisant le Multinomial
Naïve Bayes algorithme avec tfidfVectorizer en combinant les fonctionnalités unigrammes
et bigrammes. Sur le problème de classification quadruple, nous constatons que les meilleurs
résultats de précision obtenus en utilisant TfidfVectorizer avec le classificateur Support Vector
Machine utilisant des unigrammes est de 91,81%.
Nous avons également développé un réseau de neurones profond pour nos données en exploitant
les réseaux de neurones convolutionnels, le modèle de mémoire à long court terme et
enfin la combinaison des deux, puis nous les avons formés en fonction de différents attributs
sélectionnés. Enfin, nous décidons lequel est le meilleur pour nos données en fonction des
métriques d’évaluation. Le modèle CNN est la meilleure architecture pour les problèmes de
classification binaire et quadruple avec une précision de 93,57% et 90,84% respectivement.Côte titre : MAI/0345 En ligne : https://drive.google.com/file/d/19uWNEEwbB6J_uky9ItC6vPTtS8IyiwQF/view?usp=share [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0345 MAI/0345 Mémoire Bibliothéque des sciences Français Disponible
Disponible
Titre : A Machine Learning Approach for Full Body Detection Type de document : texte imprimé Auteurs : Redjechta, Lynda, Auteur ; Lakhfif, Abdelaziz, Directeur de thèse Editeur : Setif:UFA Année de publication : 2021 Importance : 1 vol (59 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 Informatique Côte titre : MAI/0513 En ligne : https://drive.google.com/file/d/1NUll95PQA6K2q9zdoq_YNPcez1KXtF-t/view?usp=shari [...] Format de la ressource électronique : A Machine Learning Approach for Full Body Detection [texte imprimé] / Redjechta, Lynda, Auteur ; Lakhfif, Abdelaziz, Directeur de thèse . - [S.l.] : Setif:UFA, 2021 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Informatique Index. décimale : 004 Informatique Côte titre : MAI/0513 En ligne : https://drive.google.com/file/d/1NUll95PQA6K2q9zdoq_YNPcez1KXtF-t/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0513 MAI/0513 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible
Titre : Machine Learning Approach to Analyze Big Genomic Data Type de document : texte imprimé Auteurs : Djessas, ouissem, Auteur Importance : 1 vol (66 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Genomic Data
Deep Learning
Spark
Random Forests
Decision
Trees.
iiIndex. décimale : 004 Informatique Résumé : L’énorme quantité de données structurées et non structurées générées est difficile à
traiter à l’aide de techniques traditionnelles de bases de données et de logiciels. Dans
la plupart des scénarios d’entreprise, le volume de données est énorme, trop rapide ou
dépasse la capacité de traitement actuelle. Cela est devenu un gros défi dans l’analyse
des données. C’est pourquoi, de nouvelles technologies ont été proposées pour traiter ce
problème.
Data Mining est un processus consistant à extraire des connaissances d’une grande quantité
de données. Il est utilisé dans plusieurs domaines: médecine, marketing, industrie,
recherche opérationnelle, entre autres. Dans notre étude, nous nous sommes concentrés
sur le domaine de Big Genomic Data où les technologies Big Data sont utilisées pour
analyser des données génomiques afin de prédire ou de guérir des maladies.
Dans ce projet, nous sommes intéressés à répondre à un certain nombre de questions telles
que:
Quels outils et techniques sont utilisés dans le domaine de Big Genomic Data pour
analyser les données et extraire les connaissances.
i
Comment introduire la notion de parallélisme pour implémenter l’algorithme Deep
Learning selon le modèle de programmation Spark.Note de contenu : Sommaire
Abstract i
acknowledgement iii
dedication iv
Contents v
List of Figures ix
List of Tables xi
General Introduction 1
1 Big Genomic Data State of Art 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 The Evolution of Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Definitions of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 The Vs Of Big Data . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.2 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.3 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.4 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.5 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Types of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 Structured Data . . . . . . . . . . . . . . . . . . . . . 8
3.2.2 Unstructured Data . . . . . . . . . . . . . . . . . . . . 8
3.2.3 Semi-Structured Data . . . . . . . . . . . . . . . . . . 9
3.2.4 Quasi-structured data . . . . . . . . . . . . . . . . . . 9
3.3 Big Data Analysis Lifecycle . . . . . . . . . . . . . . . . . . . . 9
3.3.1 Data Collection Phase . . . . . . . . . . . . . . . . . . 9
v
3.3.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.3 Data Analytics . . . . . . . . . . . . . . . . . . . . . . 10
3.3.4 Knowledge Creation Phase . . . . . . . . . . . . . . . 10
4 Big Data and managing tools . . . . . . . . . . . . . . . . . . . . . . . . 11
4.0.1 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.0.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . 15
4.1 Big Data Sources . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 Big Data Application fields . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.1 Big data in banking . . . . . . . . . . . . . . . . . . . . . . . . 16
5.2 Big Data In Finance . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Big Data In Economy . . . . . . . . . . . . . . . . . . . . . . . . 17
5.4 Big data in Telecom . . . . . . . . . . . . . . . . . . . . . . . . 17
5.5 Big data in Social Media . . . . . . . . . . . . . . . . . . . . . . 17
5.6 Big data in HealthCare . . . . . . . . . . . . . . . . . . . . . . . 17
6 Big Data In Genomics field . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.1 Genome Databases and the integration of Sequence Information . 19
6.1.1 Sequencing . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.2 Genome Browsers . . . . . . . . . . . . . . . . . . . . 20
6.2 Genomic Data perspectives and challenges . . . . . . . . . . . . 21
6.3 Few Research Works in Big Genomic Data field . . . . . . . . . . 24
7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Machine Learning for Big Genomic Data Analysis 28
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Data Mining Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Data Mining Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Unsupervised learning techniques . . . . . . . . . . . . . . . . . 35
4.3 Reinforcement learning . . . . . . . . . . . . . . . . . . . . . . . 35
5 Machine Learning process . . . . . . . . . . . . . . . . . . . . . . . . . 36
6 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.1 Train Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.1 Regularization . . . . . . . . . . . . . . . . . . . . . . 38
6.1.2 Weight initialization . . . . . . . . . . . . . . . . . . . 38
6.1.3 Activation function . . . . . . . . . . . . . . . . . . . 39
6.1.4 Loss function . . . . . . . . . . . . . . . . . . . . . . 39
vi
6.1.5 Backpropagation . . . . . . . . . . . . . . . . . . . . . 40
6.2 Deep Learning Architectures . . . . . . . . . . . . . . . . . . . . 41
6.2.1 Feed Forward Neural Network . . . . . . . . . . . . . 41
6.3 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . 42
6.3.1 Recurrent neural networks . . . . . . . . . . . . . . . . 44
6.3.2 Autoencoders (AEs) . . . . . . . . . . . . . . . . . . . 45
7 Deep learning for Genomics . . . . . . . . . . . . . . . . . . . . . . . . 46
8 Machine Learning in Genomics . . . . . . . . . . . . . . . . . . . . . . . 48
9 Deep Learning and Big Data Tool “Spark” . . . . . . . . . . . . . . . . . 48
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 Contribution:Feedforward Deep Neural Network for Classification of Genomic
Data using Spark 51
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2 Set Up Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1 VMware Workstation . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3 Installation and Configuration of Apache Spark . . . . . . . . . . . . . . 53
4 Description of the Development Tools . . . . . . . . . . . . . . . . . . . 54
4.1 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Python 3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Keras backend TensorFlow . . . . . . . . . . . . . . . . . . . . . 56
5 Architecture of Spark Analysis System . . . . . . . . . . . . . . . . . . . 57
6 Breast Cancer Dataset Description . . . . . . . . . . . . . . . . . . . . . 59
7 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.1 Importing SparkMl libraries . . . . . . . . . . . . . . . . . . . . 60
7.2 Import the Dataset . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.3 Pretreatment and Scaling of the dataset . . . . . . . . . . . . . . 61
7.4 Splitting the Dataset . . . . . . . . . . . . . . . . . . . . . . . . 62
7.5 Training Our Models . . . . . . . . . . . . . . . . . . . . . . . . 62
7.6 Evaluation of the model . . . . . . . . . . . . . . . . . . . . . . 63
8 Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9 Results Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
General ConclusionCôte titre : MAI/0297 En ligne : https://drive.google.com/file/d/1t-vFrIzIrUxIAo5jQs-5AeGNhb_c7FaT/view?usp=shari [...] Format de la ressource électronique : Machine Learning Approach to Analyze Big Genomic Data [texte imprimé] / Djessas, ouissem, Auteur . - [s.d.] . - 1 vol (66 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Genomic Data
Deep Learning
Spark
Random Forests
Decision
Trees.
iiIndex. décimale : 004 Informatique Résumé : L’énorme quantité de données structurées et non structurées générées est difficile à
traiter à l’aide de techniques traditionnelles de bases de données et de logiciels. Dans
la plupart des scénarios d’entreprise, le volume de données est énorme, trop rapide ou
dépasse la capacité de traitement actuelle. Cela est devenu un gros défi dans l’analyse
des données. C’est pourquoi, de nouvelles technologies ont été proposées pour traiter ce
problème.
Data Mining est un processus consistant à extraire des connaissances d’une grande quantité
de données. Il est utilisé dans plusieurs domaines: médecine, marketing, industrie,
recherche opérationnelle, entre autres. Dans notre étude, nous nous sommes concentrés
sur le domaine de Big Genomic Data où les technologies Big Data sont utilisées pour
analyser des données génomiques afin de prédire ou de guérir des maladies.
Dans ce projet, nous sommes intéressés à répondre à un certain nombre de questions telles
que:
Quels outils et techniques sont utilisés dans le domaine de Big Genomic Data pour
analyser les données et extraire les connaissances.
i
Comment introduire la notion de parallélisme pour implémenter l’algorithme Deep
Learning selon le modèle de programmation Spark.Note de contenu : Sommaire
Abstract i
acknowledgement iii
dedication iv
Contents v
List of Figures ix
List of Tables xi
General Introduction 1
1 Big Genomic Data State of Art 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 The Evolution of Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Definitions of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 The Vs Of Big Data . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.2 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.3 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.4 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.5 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Types of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 Structured Data . . . . . . . . . . . . . . . . . . . . . 8
3.2.2 Unstructured Data . . . . . . . . . . . . . . . . . . . . 8
3.2.3 Semi-Structured Data . . . . . . . . . . . . . . . . . . 9
3.2.4 Quasi-structured data . . . . . . . . . . . . . . . . . . 9
3.3 Big Data Analysis Lifecycle . . . . . . . . . . . . . . . . . . . . 9
3.3.1 Data Collection Phase . . . . . . . . . . . . . . . . . . 9
v
3.3.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.3 Data Analytics . . . . . . . . . . . . . . . . . . . . . . 10
3.3.4 Knowledge Creation Phase . . . . . . . . . . . . . . . 10
4 Big Data and managing tools . . . . . . . . . . . . . . . . . . . . . . . . 11
4.0.1 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.0.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . 15
4.1 Big Data Sources . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 Big Data Application fields . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.1 Big data in banking . . . . . . . . . . . . . . . . . . . . . . . . 16
5.2 Big Data In Finance . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Big Data In Economy . . . . . . . . . . . . . . . . . . . . . . . . 17
5.4 Big data in Telecom . . . . . . . . . . . . . . . . . . . . . . . . 17
5.5 Big data in Social Media . . . . . . . . . . . . . . . . . . . . . . 17
5.6 Big data in HealthCare . . . . . . . . . . . . . . . . . . . . . . . 17
6 Big Data In Genomics field . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.1 Genome Databases and the integration of Sequence Information . 19
6.1.1 Sequencing . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.2 Genome Browsers . . . . . . . . . . . . . . . . . . . . 20
6.2 Genomic Data perspectives and challenges . . . . . . . . . . . . 21
6.3 Few Research Works in Big Genomic Data field . . . . . . . . . . 24
7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Machine Learning for Big Genomic Data Analysis 28
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Data Mining Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Data Mining Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Unsupervised learning techniques . . . . . . . . . . . . . . . . . 35
4.3 Reinforcement learning . . . . . . . . . . . . . . . . . . . . . . . 35
5 Machine Learning process . . . . . . . . . . . . . . . . . . . . . . . . . 36
6 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.1 Train Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.1 Regularization . . . . . . . . . . . . . . . . . . . . . . 38
6.1.2 Weight initialization . . . . . . . . . . . . . . . . . . . 38
6.1.3 Activation function . . . . . . . . . . . . . . . . . . . 39
6.1.4 Loss function . . . . . . . . . . . . . . . . . . . . . . 39
vi
6.1.5 Backpropagation . . . . . . . . . . . . . . . . . . . . . 40
6.2 Deep Learning Architectures . . . . . . . . . . . . . . . . . . . . 41
6.2.1 Feed Forward Neural Network . . . . . . . . . . . . . 41
6.3 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . 42
6.3.1 Recurrent neural networks . . . . . . . . . . . . . . . . 44
6.3.2 Autoencoders (AEs) . . . . . . . . . . . . . . . . . . . 45
7 Deep learning for Genomics . . . . . . . . . . . . . . . . . . . . . . . . 46
8 Machine Learning in Genomics . . . . . . . . . . . . . . . . . . . . . . . 48
9 Deep Learning and Big Data Tool “Spark” . . . . . . . . . . . . . . . . . 48
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 Contribution:Feedforward Deep Neural Network for Classification of Genomic
Data using Spark 51
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2 Set Up Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1 VMware Workstation . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3 Installation and Configuration of Apache Spark . . . . . . . . . . . . . . 53
4 Description of the Development Tools . . . . . . . . . . . . . . . . . . . 54
4.1 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Python 3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Keras backend TensorFlow . . . . . . . . . . . . . . . . . . . . . 56
5 Architecture of Spark Analysis System . . . . . . . . . . . . . . . . . . . 57
6 Breast Cancer Dataset Description . . . . . . . . . . . . . . . . . . . . . 59
7 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.1 Importing SparkMl libraries . . . . . . . . . . . . . . . . . . . . 60
7.2 Import the Dataset . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.3 Pretreatment and Scaling of the dataset . . . . . . . . . . . . . . 61
7.4 Splitting the Dataset . . . . . . . . . . . . . . . . . . . . . . . . 62
7.5 Training Our Models . . . . . . . . . . . . . . . . . . . . . . . . 62
7.6 Evaluation of the model . . . . . . . . . . . . . . . . . . . . . . 63
8 Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9 Results Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
General ConclusionCôte titre : MAI/0297 En ligne : https://drive.google.com/file/d/1t-vFrIzIrUxIAo5jQs-5AeGNhb_c7FaT/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0297 MAI/0297 Mémoire Bibliothéque des sciences Français Disponible
DisponiblePermalinkA Machine Learning-Based Lightweight Intrusion Detection System for the Internet of Things / Bellilita ,Boutheïna Kharfia
PermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkUn mécanisme de réplication pour optimiser la recherche dans les peer-to-peer mobiles. / Brrouchi, Imen
PermalinkPermalinkPermalinkMesure de l'adhésion des apprenants au chemin d'apprentissage conçu dans les MOOCs / Guellati, abdelkrim
PermalinkMeta-heuristic Approach-based Change Detection for Remote Sensing / Billal Maaoui
PermalinkPermalinkUne méthodologie cognitive / Abdallah Khababa
PermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkMobilité du sink et agrégation des données dans les réseaux de capteurs sans fil / MESSAI, Meriem Ghayet El Mouna
PermalinkPermalinkMobilité du sink et duty-Cycle dans un réseau de capteurs sans fil / ALIOUAT, Lina
PermalinkLa Mobilité des sinks et la tolérance aux fautes / MIHOUBI, Ilhem
PermalinkPermalinkPermalinkPermalinkPermalinkModel-cheeking de formules ltl à base d'automates / Merir,Hdjer
PermalinkModel-cheking mode des systèmes hiérarchiques / BOUGAHGOUH, Hamza
PermalinkUn modèle basé "Resource Balancing" dans les Infrastructures as a Services (IaaS) des Cloud Computing. / Manar Hibet Errahmane Battouche
PermalinkModèle de déduction commune des graphes des aptitudes Pré-requises et Modèle de l’apprenant / Bouzidi, Hasna
PermalinkUn modèle de prédiction de décision basée sur les théories de la reconnaissance floue pour les réseaux mobiles ad hoc / Ferria, n.khadidja
PermalinkPermalinkPermalinkLe modèle de programmation MapReduce pour la gestion de données générées par les applications E-commerce / Habelhomes, khadidja
PermalinkPermalinkUn modèle sémantique multidimensionnel des documents d'apprentissages personnalisés pour la pédagogie par projet / Semcheddine,Khedidja
PermalinkModèles et Algorithmes pour l' ordonnancement des / Belaid , Hacene
PermalinkModéles d'apprentissage automatique pour l'analyse des sentiments sur Twitter / Firane, Ahmed Khalil
PermalinkPermalinkPermalinkPermalinkPermalinkModélisation et Animation d’un Avatar 3D en utilisant les technologie Web3d / KHOMS , Moustapha Habib
PermalinkPermalinkModélisation d’une interface gestuelle pour la classification des Images. / SAIDI, Fatima
PermalinkModélisation de la mobilité de la station de base par les réseaux de neurones / Hadj sahraoui,charaf Eddine
PermalinkPermalinkPermalinkPermalinkPermalinkModélisation et simulation de la propagation des fake- News sur un social-média par le paradigme des SMA / Metarfi,Romaissa
PermalinkPermalinkPermalinkA Modified Black Widow Optimization Algorithm for Multilevel Thresholding Image Segmentation / Hocine Seif Eddine Lakhal
PermalinkPermalinkPermalinkMouvement autonome d'un capteur par une approche bio-inspirée / Khentout, manel
PermalinkPermalinkPermalinkPermalinkPermalinkPermalinkNon deterministic algorithms for solving the dynamic QoS-aware web service composition under ambigious QoS parameters / Haddad,Saad
PermalinkPermalinkPermalinkPermalinkUn nouvel algorithme auto-stabilisant pour le calcul d'un ensemble dominant capacitif / Rouaa ,Chaima
PermalinkUn nouvel algorithme auto- stabilisant pour le calcul d'un ensemble dominant à ditance k / Battaa, Mohamed Sofiane
PermalinkUn nouvel algorithme auto-stabilisant pour le calcul de l'ensemble dominant étendu (Extended Dominating Set) / Mahboub, abdelmouiz
PermalinkUn nouvel algorithme auto-stabilisant pour le calcul d'un ensemble dominant fort (Strong Dominating Set) / Fatima Zahra Zergoune
PermalinkNouvelle approche d’extraction de connaissance par la méthode des règles d’association / Mohand Arezki Omari
PermalinkNovel Deep Learning Architecture for Predicting Heart Diseases based Transformers and Attention Mechanism with Explainability Model / Raedin Khaled Sakhri
PermalinkPermalinkOnline Virtual Experimentation in Educational Facilities: Development of a Cross-Platform application. / Sanaa Ardjane
PermalinkOntologie du domaine pour l'annotation sémantique en auriculothérapie / Senator,aboubaker
PermalinkPermalinkPermalinkPermalinkPermalinkOptimisation avec l'algorithme QPSO (Quantum particle swarm optimisation) amélioré avec une recherche chaotique / Bouzit, loubna
PermalinkOptimisation de la durée de vie dans les réseaux de capteurs sans fil par le K-couverture / ahlem Baziz
PermalinkOptimisation de la gestion de l'équilibrage des ressources distribuées les ants-agents-mobiles / Abdi,dalal
PermalinkPermalinkPermalinkPermalinkPermalinkOptimisation, par les ant-systems de la circulation de l'information dans les objets coopérants / Berahma,ilhem
PermalinkOptimisation par essaims de particules sous scilab / Saber,Amina
Permalink