Catalogue en ligne

lutilisation des tfchniaues de data miniq pour la detection des cyber-attques / faical Sebbah

Public

ISBD

Titre : lutilisation des tfchniaues de data miniq pour la detection des cyber-attques
Type de document : texte imprimé
Auteurs : faical Sebbah, Auteur ; Yacine Saha, Auteur
Année de publication : 2022
Importance : 1 vol (109 f .)
Format : 29cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Informatique
Index. décimale : 004 Informatique
Côte titre : MAI/0590
En ligne : https://drive.google.com/file/d/1ChLXR_k0WRHWCEPn7DS8GzXoLvj-LLK7/view?usp=share [...]
Format de la ressource électronique : pdf

lutilisation des tfchniaues de data miniq pour la detection des cyber-attques [texte imprimé] / faical Sebbah, Auteur ; Yacine Saha, Auteur . - 2022 . - 1 vol (109 f .) ; 29cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Informatique
Index. décimale : 004 Informatique
Côte titre : MAI/0590
En ligne : https://drive.google.com/file/d/1ChLXR_k0WRHWCEPn7DS8GzXoLvj-LLK7/view?usp=share [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0590 MAI/0590 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible

Machine and Deep Learning for Detection of Hate Speech in Videos / Kram,Amira

Public

ISBD

Titre : Machine and Deep Learning for Detection of Hate Speech in Videos
Type de document : texte imprimé
Auteurs : Kram,Amira, Auteur ; Toumi,Lyazid, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2021
Importance : 1 vol (67 f .)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Hate speech
Oensive language
Videos
Natural language
processing
Index. décimale : 003.54 Théorie de l'information
Résumé :
In the last decade, the social network became popular, and the emergence
of the phenomenon of hate speech has been observed. A streaming platforms
like YouTube contains a lot of videos in dierent languages. The Arabic
videos with hate speech become a noticeable problem that requires the development
of automated tools to detect oensive language that aects all
categories of people who use YouTube.
The Arabic language is a Semitic language, but unfortunately, there is a
few scientic research concerning this language. The limited availability of
tools using the Arabic language makes to propose an automation tool is more
dicult. To our knowledge, this work is the rst that propose an automation
tool for detecting hate speech in Arabic videos.
In this master thesis, we propose to build an Arabic videos dataset from
the YouTube stream platform, how we annotated it, and using NLP techniques
for pre-processing step. Then, we applied popular machine learning
classiers using BOW, ngrams, TF-IDF and we propose deep learning methods
to solve our problem. Finally, the experiments on the used dataset show
that the support vector machines model gives the best performance for our
problem than the best known other classiers.

Côte titre : MAI/0475
En ligne : https://drive.google.com/file/d/1YUryxThPYFAP9g3mN0eCTHG4ZpUP8VT_/view?usp=shari [...]
Format de la ressource électronique : pdf

Machine and Deep Learning for Detection of Hate Speech in Videos [texte imprimé] / Kram,Amira, Auteur ; Toumi,Lyazid, Directeur de thèse . - [S.l.] : Setif:UFA, 2021 . - 1 vol (67 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Hate speech
Oensive language
Videos
Natural language
processing
Index. décimale : 003.54 Théorie de l'information
Résumé :
In the last decade, the social network became popular, and the emergence
of the phenomenon of hate speech has been observed. A streaming platforms
like YouTube contains a lot of videos in dierent languages. The Arabic
videos with hate speech become a noticeable problem that requires the development
of automated tools to detect oensive language that aects all
categories of people who use YouTube.
The Arabic language is a Semitic language, but unfortunately, there is a
few scientic research concerning this language. The limited availability of
tools using the Arabic language makes to propose an automation tool is more
dicult. To our knowledge, this work is the rst that propose an automation
tool for detecting hate speech in Arabic videos.
In this master thesis, we propose to build an Arabic videos dataset from
the YouTube stream platform, how we annotated it, and using NLP techniques
for pre-processing step. Then, we applied popular machine learning
classiers using BOW, ngrams, TF-IDF and we propose deep learning methods
to solve our problem. Finally, the experiments on the used dataset show
that the support vector machines model gives the best performance for our
problem than the best known other classiers.

Côte titre : MAI/0475
En ligne : https://drive.google.com/file/d/1YUryxThPYFAP9g3mN0eCTHG4ZpUP8VT_/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0475 MAI/0475 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible

Machine Learning and Deep Learning Approach for Arabic Sentiment Analysis / Laroug,Madjda Ines

Public

ISBD

Titre : Machine Learning and Deep Learning Approach for Arabic Sentiment Analysis
Type de document : texte imprimé
Auteurs : Laroug,Madjda Ines, Auteur ; Sadik Bessou, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2020
Importance : 1 vol (68 f .)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Traitement du Langage Naturel
Analyse des Sentiments
Sélection de Fonctionnalités
Index. décimale : 004 - Informatique
Résumé :
La classification de texte est une application incroyablement utile de l’apprentissage automatique
et de l’apprentissage en profondeur. Elle consiste à attribuer un document textuel à une
classe. Aujourd’hui, l’analyse des sentiments est l’un des domaines de recherche à la croissance
la plus rapide en informatique, mais il manque actuellement encore l’interprétation de la
1
langue arabe. Par conséquent, nous créons un nouvel ensemble de données de commentaires et
de publications en arabe et résolvons des problèmes de classification binaire et quadruple.
Dans cette thèse, nous présentons les détails de la collecte d’un grand ensemble de données
"corpus" des commentaires et des publications en langue arabe provenant de plateformes
de médias sociaux. Les techniques utilisées pour le prétraitement de l’ensemble de données
collectées sont expliquées. Nous présentons nos quatre classes : positive, négative, mixte et
neutre. Différents algorithmes d’apprentissage automatique (ML) ont été utilisés pour classer
les commentaires : Bayes Naïves multinomiales, Bernoulli Bayes Naïves de, Régression Logistique,
Machine à Vecteurs de Support, Forêt Aléatoire et Descente de Gradient Stochastique.
L’application de ces algorithmes a révélé que l’algorithme Naïve Bayes fonctionne bien pour
la classification des textes pour les données d’apprentissage de petite taille et nous avons pu
atteindre une précision de 94,71% sur la classification en deux classes en utilisant le Multinomial
Naïve Bayes algorithme avec tfidfVectorizer en combinant les fonctionnalités unigrammes
et bigrammes. Sur le problème de classification quadruple, nous constatons que les meilleurs
résultats de précision obtenus en utilisant TfidfVectorizer avec le classificateur Support Vector
Machine utilisant des unigrammes est de 91,81%.
Nous avons également développé un réseau de neurones profond pour nos données en exploitant
les réseaux de neurones convolutionnels, le modèle de mémoire à long court terme et
enfin la combinaison des deux, puis nous les avons formés en fonction de différents attributs
sélectionnés. Enfin, nous décidons lequel est le meilleur pour nos données en fonction des
métriques d’évaluation. Le modèle CNN est la meilleure architecture pour les problèmes de
classification binaire et quadruple avec une précision de 93,57% et 90,84% respectivement.
Côte titre : MAI/0345
En ligne : https://drive.google.com/file/d/19uWNEEwbB6J_uky9ItC6vPTtS8IyiwQF/view?usp=share [...]
Format de la ressource électronique : pdf

Machine Learning and Deep Learning Approach for Arabic Sentiment Analysis [texte imprimé] / Laroug,Madjda Ines, Auteur ; Sadik Bessou, Directeur de thèse . - [S.l.] : Setif:UFA, 2020 . - 1 vol (68 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Traitement du Langage Naturel
Analyse des Sentiments
Sélection de Fonctionnalités
Index. décimale : 004 - Informatique
Résumé :
La classification de texte est une application incroyablement utile de l’apprentissage automatique
et de l’apprentissage en profondeur. Elle consiste à attribuer un document textuel à une
classe. Aujourd’hui, l’analyse des sentiments est l’un des domaines de recherche à la croissance
la plus rapide en informatique, mais il manque actuellement encore l’interprétation de la
1
langue arabe. Par conséquent, nous créons un nouvel ensemble de données de commentaires et
de publications en arabe et résolvons des problèmes de classification binaire et quadruple.
Dans cette thèse, nous présentons les détails de la collecte d’un grand ensemble de données
"corpus" des commentaires et des publications en langue arabe provenant de plateformes
de médias sociaux. Les techniques utilisées pour le prétraitement de l’ensemble de données
collectées sont expliquées. Nous présentons nos quatre classes : positive, négative, mixte et
neutre. Différents algorithmes d’apprentissage automatique (ML) ont été utilisés pour classer
les commentaires : Bayes Naïves multinomiales, Bernoulli Bayes Naïves de, Régression Logistique,
Machine à Vecteurs de Support, Forêt Aléatoire et Descente de Gradient Stochastique.
L’application de ces algorithmes a révélé que l’algorithme Naïve Bayes fonctionne bien pour
la classification des textes pour les données d’apprentissage de petite taille et nous avons pu
atteindre une précision de 94,71% sur la classification en deux classes en utilisant le Multinomial
Naïve Bayes algorithme avec tfidfVectorizer en combinant les fonctionnalités unigrammes
et bigrammes. Sur le problème de classification quadruple, nous constatons que les meilleurs
résultats de précision obtenus en utilisant TfidfVectorizer avec le classificateur Support Vector
Machine utilisant des unigrammes est de 91,81%.
Nous avons également développé un réseau de neurones profond pour nos données en exploitant
les réseaux de neurones convolutionnels, le modèle de mémoire à long court terme et
enfin la combinaison des deux, puis nous les avons formés en fonction de différents attributs
sélectionnés. Enfin, nous décidons lequel est le meilleur pour nos données en fonction des
métriques d’évaluation. Le modèle CNN est la meilleure architecture pour les problèmes de
classification binaire et quadruple avec une précision de 93,57% et 90,84% respectivement.
Côte titre : MAI/0345
En ligne : https://drive.google.com/file/d/19uWNEEwbB6J_uky9ItC6vPTtS8IyiwQF/view?usp=share [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0345 MAI/0345 Mémoire Bibliothéque des sciences Français Disponible
Disponible

A Machine Learning Approach for Full Body Detection / Redjechta, Lynda

Public

ISBD

Titre : A Machine Learning Approach for Full Body Detection
Type de document : texte imprimé
Auteurs : Redjechta, Lynda, Auteur ; Lakhfif, Abdelaziz, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2021
Importance : 1 vol (59 f .)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Informatique
Index. décimale : 004 Informatique
Côte titre : MAI/0513
En ligne : https://drive.google.com/file/d/1NUll95PQA6K2q9zdoq_YNPcez1KXtF-t/view?usp=shari [...]
Format de la ressource électronique : pdf

A Machine Learning Approach for Full Body Detection [texte imprimé] / Redjechta, Lynda, Auteur ; Lakhfif, Abdelaziz, Directeur de thèse . - [S.l.] : Setif:UFA, 2021 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Informatique
Index. décimale : 004 Informatique
Côte titre : MAI/0513
En ligne : https://drive.google.com/file/d/1NUll95PQA6K2q9zdoq_YNPcez1KXtF-t/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0513 MAI/0513 Mémoire Bibliothéque des sciences Anglais Disponible
Disponible

Machine Learning Approach to Analyze Big Genomic Data / Djessas, ouissem

Public

ISBD

Titre : Machine Learning Approach to Analyze Big Genomic Data
Type de document : texte imprimé
Auteurs : Djessas, ouissem, Auteur
Importance : 1 vol (66 f .)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big Genomic Data
Deep Learning
Spark
Random Forests
Decision
Trees.
ii
Index. décimale : 004 Informatique
Résumé : L’énorme quantité de données structurées et non structurées générées est difficile à
traiter à l’aide de techniques traditionnelles de bases de données et de logiciels. Dans
la plupart des scénarios d’entreprise, le volume de données est énorme, trop rapide ou
dépasse la capacité de traitement actuelle. Cela est devenu un gros défi dans l’analyse
des données. C’est pourquoi, de nouvelles technologies ont été proposées pour traiter ce
problème.
Data Mining est un processus consistant à extraire des connaissances d’une grande quantité
de données. Il est utilisé dans plusieurs domaines: médecine, marketing, industrie,
recherche opérationnelle, entre autres. Dans notre étude, nous nous sommes concentrés
sur le domaine de Big Genomic Data où les technologies Big Data sont utilisées pour
analyser des données génomiques afin de prédire ou de guérir des maladies.
Dans ce projet, nous sommes intéressés à répondre à un certain nombre de questions telles
que:
Quels outils et techniques sont utilisés dans le domaine de Big Genomic Data pour
analyser les données et extraire les connaissances.
i
Comment introduire la notion de parallélisme pour implémenter l’algorithme Deep
Learning selon le modèle de programmation Spark.
Note de contenu : Sommaire
Abstract i
acknowledgement iii
dedication iv
Contents v
List of Figures ix
List of Tables xi
General Introduction 1
1 Big Genomic Data State of Art 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 The Evolution of Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Definitions of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 The Vs Of Big Data . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.2 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.3 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.4 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.5 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Types of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 Structured Data . . . . . . . . . . . . . . . . . . . . . 8
3.2.2 Unstructured Data . . . . . . . . . . . . . . . . . . . . 8
3.2.3 Semi-Structured Data . . . . . . . . . . . . . . . . . . 9
3.2.4 Quasi-structured data . . . . . . . . . . . . . . . . . . 9
3.3 Big Data Analysis Lifecycle . . . . . . . . . . . . . . . . . . . . 9
3.3.1 Data Collection Phase . . . . . . . . . . . . . . . . . . 9
v
3.3.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.3 Data Analytics . . . . . . . . . . . . . . . . . . . . . . 10
3.3.4 Knowledge Creation Phase . . . . . . . . . . . . . . . 10
4 Big Data and managing tools . . . . . . . . . . . . . . . . . . . . . . . . 11
4.0.1 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.0.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . 15
4.1 Big Data Sources . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 Big Data Application fields . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.1 Big data in banking . . . . . . . . . . . . . . . . . . . . . . . . 16
5.2 Big Data In Finance . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Big Data In Economy . . . . . . . . . . . . . . . . . . . . . . . . 17
5.4 Big data in Telecom . . . . . . . . . . . . . . . . . . . . . . . . 17
5.5 Big data in Social Media . . . . . . . . . . . . . . . . . . . . . . 17
5.6 Big data in HealthCare . . . . . . . . . . . . . . . . . . . . . . . 17
6 Big Data In Genomics field . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.1 Genome Databases and the integration of Sequence Information . 19
6.1.1 Sequencing . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.2 Genome Browsers . . . . . . . . . . . . . . . . . . . . 20
6.2 Genomic Data perspectives and challenges . . . . . . . . . . . . 21
6.3 Few Research Works in Big Genomic Data field . . . . . . . . . . 24
7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Machine Learning for Big Genomic Data Analysis 28
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Data Mining Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Data Mining Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Unsupervised learning techniques . . . . . . . . . . . . . . . . . 35
4.3 Reinforcement learning . . . . . . . . . . . . . . . . . . . . . . . 35
5 Machine Learning process . . . . . . . . . . . . . . . . . . . . . . . . . 36
6 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.1 Train Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.1 Regularization . . . . . . . . . . . . . . . . . . . . . . 38
6.1.2 Weight initialization . . . . . . . . . . . . . . . . . . . 38
6.1.3 Activation function . . . . . . . . . . . . . . . . . . . 39
6.1.4 Loss function . . . . . . . . . . . . . . . . . . . . . . 39
vi
6.1.5 Backpropagation . . . . . . . . . . . . . . . . . . . . . 40
6.2 Deep Learning Architectures . . . . . . . . . . . . . . . . . . . . 41
6.2.1 Feed Forward Neural Network . . . . . . . . . . . . . 41
6.3 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . 42
6.3.1 Recurrent neural networks . . . . . . . . . . . . . . . . 44
6.3.2 Autoencoders (AEs) . . . . . . . . . . . . . . . . . . . 45
7 Deep learning for Genomics . . . . . . . . . . . . . . . . . . . . . . . . 46
8 Machine Learning in Genomics . . . . . . . . . . . . . . . . . . . . . . . 48
9 Deep Learning and Big Data Tool “Spark” . . . . . . . . . . . . . . . . . 48
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 Contribution:Feedforward Deep Neural Network for Classification of Genomic
Data using Spark 51
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2 Set Up Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1 VMware Workstation . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3 Installation and Configuration of Apache Spark . . . . . . . . . . . . . . 53
4 Description of the Development Tools . . . . . . . . . . . . . . . . . . . 54
4.1 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Python 3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Keras backend TensorFlow . . . . . . . . . . . . . . . . . . . . . 56
5 Architecture of Spark Analysis System . . . . . . . . . . . . . . . . . . . 57
6 Breast Cancer Dataset Description . . . . . . . . . . . . . . . . . . . . . 59
7 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.1 Importing SparkMl libraries . . . . . . . . . . . . . . . . . . . . 60
7.2 Import the Dataset . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.3 Pretreatment and Scaling of the dataset . . . . . . . . . . . . . . 61
7.4 Splitting the Dataset . . . . . . . . . . . . . . . . . . . . . . . . 62
7.5 Training Our Models . . . . . . . . . . . . . . . . . . . . . . . . 62
7.6 Evaluation of the model . . . . . . . . . . . . . . . . . . . . . . 63
8 Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9 Results Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
General Conclusion
Côte titre : MAI/0297
En ligne : https://drive.google.com/file/d/1t-vFrIzIrUxIAo5jQs-5AeGNhb_c7FaT/view?usp=shari [...]
Format de la ressource électronique : pdf

Machine Learning Approach to Analyze Big Genomic Data [texte imprimé] / Djessas, ouissem, Auteur . - [s.d.] . - 1 vol (66 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big Genomic Data
Deep Learning
Spark
Random Forests
Decision
Trees.
ii
Index. décimale : 004 Informatique
Résumé : L’énorme quantité de données structurées et non structurées générées est difficile à
traiter à l’aide de techniques traditionnelles de bases de données et de logiciels. Dans
la plupart des scénarios d’entreprise, le volume de données est énorme, trop rapide ou
dépasse la capacité de traitement actuelle. Cela est devenu un gros défi dans l’analyse
des données. C’est pourquoi, de nouvelles technologies ont été proposées pour traiter ce
problème.
Data Mining est un processus consistant à extraire des connaissances d’une grande quantité
de données. Il est utilisé dans plusieurs domaines: médecine, marketing, industrie,
recherche opérationnelle, entre autres. Dans notre étude, nous nous sommes concentrés
sur le domaine de Big Genomic Data où les technologies Big Data sont utilisées pour
analyser des données génomiques afin de prédire ou de guérir des maladies.
Dans ce projet, nous sommes intéressés à répondre à un certain nombre de questions telles
que:
Quels outils et techniques sont utilisés dans le domaine de Big Genomic Data pour
analyser les données et extraire les connaissances.
i
Comment introduire la notion de parallélisme pour implémenter l’algorithme Deep
Learning selon le modèle de programmation Spark.
Note de contenu : Sommaire
Abstract i
acknowledgement iii
dedication iv
Contents v
List of Figures ix
List of Tables xi
General Introduction 1
1 Big Genomic Data State of Art 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 The Evolution of Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Definitions of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 The Vs Of Big Data . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1 Volume . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.2 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.3 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.4 Veracity . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.5 Value . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Types of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 Structured Data . . . . . . . . . . . . . . . . . . . . . 8
3.2.2 Unstructured Data . . . . . . . . . . . . . . . . . . . . 8
3.2.3 Semi-Structured Data . . . . . . . . . . . . . . . . . . 9
3.2.4 Quasi-structured data . . . . . . . . . . . . . . . . . . 9
3.3 Big Data Analysis Lifecycle . . . . . . . . . . . . . . . . . . . . 9
3.3.1 Data Collection Phase . . . . . . . . . . . . . . . . . . 9
v
3.3.2 Data Storage . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.3 Data Analytics . . . . . . . . . . . . . . . . . . . . . . 10
3.3.4 Knowledge Creation Phase . . . . . . . . . . . . . . . 10
4 Big Data and managing tools . . . . . . . . . . . . . . . . . . . . . . . . 11
4.0.1 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.0.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . 15
4.1 Big Data Sources . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 Big Data Application fields . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.1 Big data in banking . . . . . . . . . . . . . . . . . . . . . . . . 16
5.2 Big Data In Finance . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Big Data In Economy . . . . . . . . . . . . . . . . . . . . . . . . 17
5.4 Big data in Telecom . . . . . . . . . . . . . . . . . . . . . . . . 17
5.5 Big data in Social Media . . . . . . . . . . . . . . . . . . . . . . 17
5.6 Big data in HealthCare . . . . . . . . . . . . . . . . . . . . . . . 17
6 Big Data In Genomics field . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.1 Genome Databases and the integration of Sequence Information . 19
6.1.1 Sequencing . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.2 Genome Browsers . . . . . . . . . . . . . . . . . . . . 20
6.2 Genomic Data perspectives and challenges . . . . . . . . . . . . 21
6.3 Few Research Works in Big Genomic Data field . . . . . . . . . . 24
7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Machine Learning for Big Genomic Data Analysis 28
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Data Mining Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Data Mining Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Unsupervised learning techniques . . . . . . . . . . . . . . . . . 35
4.3 Reinforcement learning . . . . . . . . . . . . . . . . . . . . . . . 35
5 Machine Learning process . . . . . . . . . . . . . . . . . . . . . . . . . 36
6 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.1 Train Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.1 Regularization . . . . . . . . . . . . . . . . . . . . . . 38
6.1.2 Weight initialization . . . . . . . . . . . . . . . . . . . 38
6.1.3 Activation function . . . . . . . . . . . . . . . . . . . 39
6.1.4 Loss function . . . . . . . . . . . . . . . . . . . . . . 39
vi
6.1.5 Backpropagation . . . . . . . . . . . . . . . . . . . . . 40
6.2 Deep Learning Architectures . . . . . . . . . . . . . . . . . . . . 41
6.2.1 Feed Forward Neural Network . . . . . . . . . . . . . 41
6.3 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . 42
6.3.1 Recurrent neural networks . . . . . . . . . . . . . . . . 44
6.3.2 Autoencoders (AEs) . . . . . . . . . . . . . . . . . . . 45
7 Deep learning for Genomics . . . . . . . . . . . . . . . . . . . . . . . . 46
8 Machine Learning in Genomics . . . . . . . . . . . . . . . . . . . . . . . 48
9 Deep Learning and Big Data Tool “Spark” . . . . . . . . . . . . . . . . . 48
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 Contribution:Feedforward Deep Neural Network for Classification of Genomic
Data using Spark 51
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2 Set Up Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1 VMware Workstation . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Apache Spark . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3 Installation and Configuration of Apache Spark . . . . . . . . . . . . . . 53
4 Description of the Development Tools . . . . . . . . . . . . . . . . . . . 54
4.1 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Python 3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Keras backend TensorFlow . . . . . . . . . . . . . . . . . . . . . 56
5 Architecture of Spark Analysis System . . . . . . . . . . . . . . . . . . . 57
6 Breast Cancer Dataset Description . . . . . . . . . . . . . . . . . . . . . 59
7 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.1 Importing SparkMl libraries . . . . . . . . . . . . . . . . . . . . 60
7.2 Import the Dataset . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.3 Pretreatment and Scaling of the dataset . . . . . . . . . . . . . . 61
7.4 Splitting the Dataset . . . . . . . . . . . . . . . . . . . . . . . . 62
7.5 Training Our Models . . . . . . . . . . . . . . . . . . . . . . . . 62
7.6 Evaluation of the model . . . . . . . . . . . . . . . . . . . . . . 63
8 Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9 Results Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
General Conclusion
Côte titre : MAI/0297
En ligne : https://drive.google.com/file/d/1t-vFrIzIrUxIAo5jQs-5AeGNhb_c7FaT/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0297 MAI/0297 Mémoire Bibliothéque des sciences Français Disponible
Disponible

Machine Learning based approach for event detection in twitter datastreams / Abdallah Zahir Mehiris

Permalink
A Machine Learning-Based Lightweight Intrusion Detection System for the Internet of Things / Bellilita ,Boutheïna Kharfia

Permalink
Machine learning-based routing approach in UAV networks / Nadjia Tabet

Permalink
Machine Learning for crop yield forecasting / Khaled, Abdennour

Permalink
Machine Learning For Securing Software Defined Networking / Yacine Serhani

Permalink
Machine Learning in Forestry using Remote Sensing Data study case / Yousra Belayat

Permalink
Machine Learning pour la reconnaissance d’expressions faciales émotionnelles / BELABIOD,Ahlem

Permalink
Machine Learningusing Multi-Objective Evolutionary Algorithms / Got,Adel

Permalink
Managing Channel Access in Wireless Sensor Networks / Driai, tarek

Permalink
Maximiser la durée de vie des réseaux de capteurs sans fil / Samia Refoufi

Permalink
Measuring and Mitigating Bias in Arabic Language Generation / Amina Nourhane Ziad

Permalink
Un mécanisme de réplication pour optimiser la recherche dans les peer-to-peer mobiles. / Brrouchi, Imen

Permalink
Megatron / Nasri,Mustapha Amir

Permalink
Mesh Routers Placement in Wireless Mesh Networks / Nouri,Nabil Abdelkader

Permalink
Mesure de l'adhésion des apprenants au chemin d'apprentissage conçu dans les MOOCs / Guellati, abdelkrim

Permalink
Meta-heuristic Approach-based Change Detection for Remote Sensing / Billal Maaoui

Permalink
Les métaheuristiques pour la détection de communautés dans les réseaux sociaux / Mekarni, Chaima

Permalink
Une méthodologie cognitive / Abdallah Khababa

Permalink
Minimal cost data aggregation for WSNs / Tercha, Imed-Eddine

Permalink
Mining evidential association rules from biological databases / Badi, Meriem

Permalink
Mining evidential association rules in gene expression data / Sakkouh, Rihab

Permalink
Mining fuzzy sequential patterns from gene expression images / Difel,Souha

Permalink
Mining software repositories to recommend solution for software bugs / Khemliche ,Mokdad

Permalink
Mise en correspondance (Mapping/Matching) des ontologies / FADLI, Rania

Permalink
Mise en œuvre d’agents temps réel dans JADE «RtJade» / Chehili,atik

Permalink
Mobilité du sink et agrégation des données dans les réseaux de capteurs sans fil / MESSAI, Meriem Ghayet El Mouna

Permalink
Mobilité de sink dans les réseaux de capteurs sans fils / ALEM, Ismahene

Permalink
Mobilité du sink et duty-Cycle dans un réseau de capteurs sans fil / ALIOUAT, Lina

Permalink
La Mobilité des sinks et la tolérance aux fautes / MIHOUBI, Ilhem

Permalink
Mobility modeling by swarm intelligence for WSN with mobile base station / Mouadna,sarra

Permalink
Model-Checking hiérarchique / LAMRI SAHRAOUI, Ahlem

Permalink
Model-checking de modèles hiérarchiques / Boukhers, Ibtissem

Permalink
Model-checking via le web / wissem Bensadallah

Permalink
Model-cheeking de formules ltl à base d'automates / Merir,Hdjer

Permalink
Model-cheking mode des systèmes hiérarchiques / BOUGAHGOUH, Hamza

Permalink
Un modèle basé "Resource Balancing" dans les Infrastructures as a Services (IaaS) des Cloud Computing. / Manar Hibet Errahmane Battouche

Permalink
Modèle de déduction commune des graphes des aptitudes Pré-requises et Modèle de l’apprenant / Bouzidi, Hasna

Permalink
Un modèle de prédiction de décision basée sur les théories de la reconnaissance floue pour les réseaux mobiles ad hoc / Ferria, n.khadidja

Permalink
Modèle de Prédiction pour l’Extraction des Influenceurs les dans Réseaux Sociaux / Daîche ,Amina

Permalink
Modele Profond pour la Reconnaissance des Caracteres Manuscrits / Rahmani,Anfel

Permalink
Le modèle de programmation MapReduce pour la gestion de données générées par les applications E-commerce / Habelhomes, khadidja

Permalink
Un modèle de sécurité basé sur les algorithmes de confiance pour les MANETs / Bouhafs,Amel

Permalink
Un modèle sémantique multidimensionnel des documents d'apprentissages personnalisés pour la pédagogie par projet / Semcheddine,Khedidja

Permalink
Modèles et Algorithmes pour l' ordonnancement des / Belaid , Hacene

Permalink
Modéles d'apprentissage automatique pour l'analyse des sentiments sur Twitter / Firane, Ahmed Khalil

Permalink
Modeling learning and forgetting for a skills scheduler / Derrahi, Moncef ElkhatIb

Permalink
Modeling of gene regulatory network using Convolutional Neural Network / Chaima Boukherouata

Permalink
Modeling Of Gene Regulatory Networks Graphic Aproach / Zohra Chahinez KebbabI

Permalink
Modélisation 3D d'un environnement Virtuel / Manel Radouane

Permalink
Modélisation et Animation d’un Avatar 3D en utilisant les technologie Web3d / KHOMS , Moustapha Habib

Permalink
Modélisation de la diffusion sur les réseaux sociaux / Berbache,Abir

Permalink
Modélisation d’une interface gestuelle pour la classification des Images. / SAIDI, Fatima

Permalink
Modélisation de la mobilité de la station de base par les réseaux de neurones / Hadj sahraoui,charaf Eddine

Permalink
Modélisation d’ontologies dans le domaine du e-Learning / MEZGHICH, Meriem

Permalink
Modélisation des Réseaux de capteurs dans Real-Time Maude / BENDJEDDOU, Morchida Fadila

Permalink
Modélisation Des Réseaux Mobiles ad hoc les Réseaux De Ptri / Mehali ,Terraf

Permalink
Modélisation des réseaux de régulation génétique / Lidia Guerguit

Permalink
Modélisation et simulation de la propagation des fake- News sur un social-média par le paradigme des SMA / Metarfi,Romaissa

Permalink
ModelisatioNn de la gestion par des processus D’affaires / Bouciouf,Assma

Permalink
A modified bird Swarm Algorithm / Lakab ,Zakia

Permalink
A Modified Black Widow Optimization Algorithm for Multilevel Thresholding Image Segmentation / Hocine Seif Eddine Lakhal

Permalink
Mooc dédié à l’apprentissage des logiciels libres / KHARCHI, Houssem Eddine

Permalink
Les motif s fréquents / Hamel,Ibtissem

Permalink
Mouvement autonome d'un capteur par une approche bio-inspirée / Khentout, manel

Permalink
Multicyclemicroprocessor « Design and implementaion» / Mellal ,Oussama

Permalink
Multimodal Brain Tumor MRI Image Classification, Detection and Generation. / Rania Nihal Zedadka

Permalink
Multiple Sclerosis Detection From MRI Using Deep Learning Transformer Autoencoders / Mihad Achheb

Permalink
A New Method of Edge Detection Using Totalistic Cellular Automata / Fichouche ,Siham

Permalink
Newsql databases administration and tuning / abdelkarim Khelfhoum

Permalink
Non deterministic algorithms for solving the dynamic QoS-aware web service composition under ambigious QoS parameters / Haddad,Saad

Permalink
Normes et spécification dans l’enseignement à distance / BOUZIDI, Noor El Houda

Permalink
NoSQL Databases for Geospatial Queries / Hani Mecheddal

Permalink
Un nouveau Protocole De Routage Cross-layer Pour VANETs / Ahlem Hassani

Permalink
Un nouvel algorithme auto-stabilisant pour le calcul d'un ensemble dominant capacitif / Rouaa ,Chaima

Permalink
Un nouvel algorithme auto- stabilisant pour le calcul d'un ensemble dominant à ditance k / Battaa, Mohamed Sofiane

Permalink
Un nouvel algorithme auto-stabilisant pour le calcul de l'ensemble dominant étendu (Extended Dominating Set) / Mahboub, abdelmouiz

Permalink
Un nouvel algorithme auto-stabilisant pour le calcul d'un ensemble dominant fort (Strong Dominating Set) / Fatima Zahra Zergoune

Permalink
Nouvelle approche d’extraction de connaissance par la méthode des règles d’association / Mohand Arezki Omari

Permalink
Novel Deep Learning Architecture for Predicting Heart Diseases based Transformers and Attention Mechanism with Explainability Model / Raedin Khaled Sakhri

Permalink
Offensive Language detection in Arabic Tweets / Imad Eddine Benyahia

Permalink
Online Virtual Experimentation in Educational Facilities: Development of a Cross-Platform application. / Sanaa Ardjane

Permalink
Ontologie du domaine pour l'annotation sémantique en auriculothérapie / Senator,aboubaker

Permalink
Ontology matching algorithms / BRAHMA, Bochra

Permalink
Opinion Mining in social media documents / Dahoua ,Nihed

Permalink
Optimisation de l’Algorithme M´eta-heuristique X-Means / Nouara Nedjma

Permalink
Optimisation des algorithmes de localisation dans les réseaux de capteurs sans fil / Rabhi, Seddik

Permalink
Optimisation avec l'algorithme QPSO (Quantum particle swarm optimisation) amélioré avec une recherche chaotique / Bouzit, loubna

Permalink
Optimisation de la durée de vie dans les réseaux de capteurs sans fil par le K-couverture / ahlem Baziz

Permalink
Optimisation de la gestion de l'équilibrage des ressources distribuées les ants-agents-mobiles / Abdi,dalal

Permalink
Optimisation de la gestion des ressources distribuées par les webServices / FOUNAS, Hadjer

Permalink
Optimisation De La Localisation Dans Les Reseaux de Capteurs Sans Fil / zahrat-el-dounia Kebaili

Permalink
Optimisation multiobjectif de la modélisation des RRG / Gahame ,Meryem

Permalink
Optimisation of Peer-to-Peer Search Mechanism based on File Popularity / Lamraoui, Bilal

Permalink
Optimisation, par les ant-systems de la circulation de l'information dans les objets coopérants / Berahma,ilhem

Permalink
Optimisation par essaims de particules sous scilab / Saber,Amina

Permalink