University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'éditeur
Setif:UFA |
Documents disponibles chez cet éditeur
Ajouter le résultat dans votre panier Affiner la recherche
Implémentation d'un algorithme auto-stabilisant pour le calcul d'un ensemble indépendant en utilisant la communication par messages / Bessou, mouhamed
Titre : Implémentation d'un algorithme auto-stabilisant pour le calcul d'un ensemble indépendant en utilisant la communication par messages Type de document : texte imprimé Auteurs : Bessou, mouhamed ; GUELLATI, N, Directeur de thèse Editeur : Setif:UFA Année de publication : 2017 Importance : 1 vol (50f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Réseaux
Systèmes Distribués
systèmes distribués
toléranceauxpannes
auto-stabilisation
clustering
ensemble indépendant maximalIndex. décimale : 004 Informatique Résumé : Résumé
Les progrès remarquables des équipements informatiques et de télécommunications durant ces dernières années ont permis une forte évolution de l'environnement distribué qui
les utilise. On est ainsi passé de réseaux locaux de stations de travail à des réseaux Ã
grande échelle. Cette avancée des équipements a permis de répondre plus ecacement aux
besoins des diérents domaines. La tolérance aux pannes dans les systèmes distribués est
un sujet qui a été largement étudié. La tolérance aux pannes fait référence à la capacité
d'un système de continuer à fonctionner lorsqu'une partie de celui-ci tombe en panne. Une
des solutions proposées pour la tolérance aux pannes est l'auto-stabilisation.
Ce mémoire étudie les algorithmes auto-stabilisants dans le cadre des systèmes distribués. Elle s'intéresse plus particulièrement à l'implémentation de ces algorithmes dans les
réseaux réels.
Dans la première partie, nous présentons le domaine des systèmes distribués, nous citons
leurs objectifs et les types des pannes qui les menaces. Nous présentons aussi l'approche
de l'auto-stabilisation en citons quelques-unes de ses avantages et ses limites.
Dans la deuxième partie, nous présentons les réseaux ad hoc, le clustering dans les
réseaux ad hoc et nous présentons aussi les ensembles indépendants en citons leur utilité
dans les réseaux. Nous terminons cette partie par la présentation de quelques algorithmes
auto-stabilisants permettant de calculés les ensembles indépendants maximaux.
Dans la troisième partie, nous essayons de surpasser les hypothèses fortes des algorithmes auto-stabilisants, pour cela nous proposons une solution pour utiliser l'algorithme
auto-stabilisant d'Ikeda dans un réseau réel. Finalement nous l'implémentons en langage
Java en utilisant les sockets.
Note de contenu : Table des matières
Introduction générale 1
1 Systèmes Distribués et Auto-Stabilisation 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Systèmes distribués . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Objectifs des systèmes distribués . . . . . . . . . . . . . . . . 4
1.2.2 Algorithme distribué . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Problème classique en algorithmique distribuée . . . . . . . . 5
1.3 Modèles de communications . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Tolérance au panne . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Auto Stabilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.1 Token ring de Dijkstra . . . . . . . . . . . . . . . . . . . . . . 9
1.5.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.3 Inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.4 Démon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Le clustering dans les réseaux ad-hoc et les ensembles indépendants 14
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Réseau ad hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 La communication dans les réseaux ad hoc . . . . . . . . . . 15
2.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 Formation de clusters . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 Élection de cluster-head . . . . . . . . . . . . . . . . . . . . . 17
2.2.5 Maintenance des clusters . . . . . . . . . . . . . . . . . . . . . 17
2.2.6 Quelques approches de Clustering . . . . . . . . . . . . . . . . 17
2.3 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Les ensembles indépendants . . . . . . . . . . . . . . . . . . . 18
2.3.2 L'utilisation des ensembles indépendants maximaux (MIS) dans
le clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Algorithme de Shukla et al . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Algorithme de Shi et al . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 21
2.3.6 Algorithme de Turau . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.7 Algorithme de Goddard et al . . . . . . . . . . . . . . . . . . 23
2.3.8 Algorithme de Yen et Huang . . . . . . . . . . . . . . . . . . . 23
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Implémentation de l'algorithme d'Ikeda dans un réseau réel 27
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Proposition d'une solution pour l'utilisation de l'algorithme d'Ikeda
dans les réseaux réels . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Algorithme transformé . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Description de notre travail . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Modélisation avec UML . . . . . . . . . . . . . . . . . . . . . 30
3.4 Description du code Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.1 Le language Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.2 Socket . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.3 La classe ServeurdeNom . . . . . . . . . . . . . . . . . . . . . 36
3.4.4 La classe Résultat . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.5 Classe InfoVoisin . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.6 Classe N÷ud . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Description de l'application . . . . . . . . . . . . . . . . . . . . . . . 41
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Conclusion générale 46Côte titre : MAI/0167 En ligne : https://drive.google.com/file/d/1OksvpU1oZBqDtH_YvMgebD-KIYf8bper/view?usp=shari [...] Format de la ressource électronique : Implémentation d'un algorithme auto-stabilisant pour le calcul d'un ensemble indépendant en utilisant la communication par messages [texte imprimé] / Bessou, mouhamed ; GUELLATI, N, Directeur de thèse . - [S.l.] : Setif:UFA, 2017 . - 1 vol (50f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Réseaux
Systèmes Distribués
systèmes distribués
toléranceauxpannes
auto-stabilisation
clustering
ensemble indépendant maximalIndex. décimale : 004 Informatique Résumé : Résumé
Les progrès remarquables des équipements informatiques et de télécommunications durant ces dernières années ont permis une forte évolution de l'environnement distribué qui
les utilise. On est ainsi passé de réseaux locaux de stations de travail à des réseaux Ã
grande échelle. Cette avancée des équipements a permis de répondre plus ecacement aux
besoins des diérents domaines. La tolérance aux pannes dans les systèmes distribués est
un sujet qui a été largement étudié. La tolérance aux pannes fait référence à la capacité
d'un système de continuer à fonctionner lorsqu'une partie de celui-ci tombe en panne. Une
des solutions proposées pour la tolérance aux pannes est l'auto-stabilisation.
Ce mémoire étudie les algorithmes auto-stabilisants dans le cadre des systèmes distribués. Elle s'intéresse plus particulièrement à l'implémentation de ces algorithmes dans les
réseaux réels.
Dans la première partie, nous présentons le domaine des systèmes distribués, nous citons
leurs objectifs et les types des pannes qui les menaces. Nous présentons aussi l'approche
de l'auto-stabilisation en citons quelques-unes de ses avantages et ses limites.
Dans la deuxième partie, nous présentons les réseaux ad hoc, le clustering dans les
réseaux ad hoc et nous présentons aussi les ensembles indépendants en citons leur utilité
dans les réseaux. Nous terminons cette partie par la présentation de quelques algorithmes
auto-stabilisants permettant de calculés les ensembles indépendants maximaux.
Dans la troisième partie, nous essayons de surpasser les hypothèses fortes des algorithmes auto-stabilisants, pour cela nous proposons une solution pour utiliser l'algorithme
auto-stabilisant d'Ikeda dans un réseau réel. Finalement nous l'implémentons en langage
Java en utilisant les sockets.
Note de contenu : Table des matières
Introduction générale 1
1 Systèmes Distribués et Auto-Stabilisation 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Systèmes distribués . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Objectifs des systèmes distribués . . . . . . . . . . . . . . . . 4
1.2.2 Algorithme distribué . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Problème classique en algorithmique distribuée . . . . . . . . 5
1.3 Modèles de communications . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Tolérance au panne . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Auto Stabilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.1 Token ring de Dijkstra . . . . . . . . . . . . . . . . . . . . . . 9
1.5.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.3 Inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.4 Démon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Le clustering dans les réseaux ad-hoc et les ensembles indépendants 14
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Réseau ad hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 La communication dans les réseaux ad hoc . . . . . . . . . . 15
2.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 Formation de clusters . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 Élection de cluster-head . . . . . . . . . . . . . . . . . . . . . 17
2.2.5 Maintenance des clusters . . . . . . . . . . . . . . . . . . . . . 17
2.2.6 Quelques approches de Clustering . . . . . . . . . . . . . . . . 17
2.3 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Les ensembles indépendants . . . . . . . . . . . . . . . . . . . 18
2.3.2 L'utilisation des ensembles indépendants maximaux (MIS) dans
le clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Algorithme de Shukla et al . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Algorithme de Shi et al . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 21
2.3.6 Algorithme de Turau . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.7 Algorithme de Goddard et al . . . . . . . . . . . . . . . . . . 23
2.3.8 Algorithme de Yen et Huang . . . . . . . . . . . . . . . . . . . 23
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Implémentation de l'algorithme d'Ikeda dans un réseau réel 27
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Proposition d'une solution pour l'utilisation de l'algorithme d'Ikeda
dans les réseaux réels . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Algorithme transformé . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Description de notre travail . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Modélisation avec UML . . . . . . . . . . . . . . . . . . . . . 30
3.4 Description du code Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.1 Le language Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.2 Socket . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.3 La classe ServeurdeNom . . . . . . . . . . . . . . . . . . . . . 36
3.4.4 La classe Résultat . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.5 Classe InfoVoisin . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.6 Classe N÷ud . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Description de l'application . . . . . . . . . . . . . . . . . . . . . . . 41
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Conclusion générale 46Côte titre : MAI/0167 En ligne : https://drive.google.com/file/d/1OksvpU1oZBqDtH_YvMgebD-KIYf8bper/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0167 MAI/0167 Mémoire Bibliothéque des sciences Français Disponible
DisponibleImplémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce / Bensedira, Ayoub
Titre : Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce Type de document : texte imprimé Auteurs : Bensedira, Ayoub, Auteur ; Nasri,Khaled, Directeur de thèse Editeur : Setif:UFA Année de publication : 2018 Importance : 1 vol (69 f .) Format : 29 cm Langues : Français (fre) Langues originales : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data
Data Mining
Hadoop
MapReduceIndex. décimale : 004 Informatique Résumé : Résumé
Les données sont devenues aujourd'hui le nouveau champ de bataille concurrentielle
entre les entreprises, notamment avec la prolifération massive des données dans
un contexte Big Data où l'intégration des données en tant qu'une discipline s'impose
de plus en plus comme un dé opérationnel majeur et inédit.
Le datamining est déni comme étant le processus d'extraction de connaissances
à partir de grandes masses de données, il est utilisé dans plusieurs domaines :
médecine, marketing, industrie, recherche opérationnelle entre autres.
Plusieurs entreprises pionnières et chercheurs dans le domaine commencent à faire
face à ce dé de taille par la proposition de nouvelles approches conceptuelles et algorithmiques
an de remédier à cette problématique imposée par un environnement
extérieur émouvant, des approches qui prennent en considération la monté en puissance
et en popularité des réseaux sociaux, Internet Of Things (IoT) et les analyses
Big Data.
Des débats intensifs se sont orientés et concentrés sur la pertinence des anciennes
méthodes traditionnelles et l'introduction de nouvelles méthodes plus exibles
qui s'adaptent à la vélocité, variété et volume des données qui parviennent de
l'environnement. A traves ce projets nous voulons répondre à un certain nombre de
problématiques tel que :
Quels sont les outils et les techniques utilisées dans le domaine de Big Data
pour analyser les données et extraire des connaissances.
Comment introduire la notion de parallélisme pour implémenter un algorithmes
de Data Mining selon le modèle de programmation MapReduce.Note de contenu : Sommaire
Abstract i
Acknowledgement iii
Contents iv
List of Figures vii
Introduction 1
1 Objective: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Big Data 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Data Evolution: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Denitions of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Sources of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Big Data Vs small data: . . . . . . . . . . . . . . . . . . . . . . . . . 7
6 Data structure: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.1 Structured: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 Semi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3 Quasi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4 Unstructured: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.5 Combination of the Four Groups: . . . . . . . . . . . . . . . . 9
7 Big Data ecosystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Big Data Lifecycle: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.1 Data collection phase . . . . . . . . . . . . . . . . . . . . . . . 12
8.2 Data storage phase: . . . . . . . . . . . . . . . . . . . . . . . . 13
8.3 Data analytics phase: . . . . . . . . . . . . . . . . . . . . . . 13
8.4 Knowledge creation phase: . . . . . . . . . . . . . . . . . . . . 13
9 Data scientists: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
10 Big Data and related technologies: . . . . . . . . . . . . . . . . . . . . 15
10.1 Hadoop: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
10.1.1 Hadoop architecture: . . . . . . . . . . . . . . . . . . 16
10.1.1.1 HDFS (Hadoop Distributed File System): . . . . . . 16
10.1.1.2 MapReduce: . . . . . . . . . . . . . . . . . . . . . . . 17
10.2 Cloud Computing: . . . . . . . . . . . . . . . . . . . . . . . . 19
10.3 NoSQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11 Big Data applications: . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Challenges of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 23
13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Data Mining in Big Data 26
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Data Mining overview: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Data Mining denition: . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Machine learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Machine Learning techniques: . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Supervised Learning: . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Unsupervised Learning: . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Reinforcement Learning: . . . . . . . . . . . . . . . . . . . . . 31
6 Machine Learning process: . . . . . . . . . . . . . . . . . . . . . . . . 31
7 Literature review: Data mining in Big Data . . . . . . . . . . . . . . 32
8 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning for Big Data 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Train Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1 Regularization: . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Weight initialization: . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Activation function: . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Loss function: . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Backpropagation: . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Deep Architectures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Feed forward neural networks: . . . . . . . . . . . . . . . . . . 40
4.2 Convolutional neural networks: . . . . . . . . . . . . . . . . . 40
4.3 Recurrent neural networks: . . . . . . . . . . . . . . . . . . . . 42
5 Deep learning and big data: . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Challenges: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Some recent work: Deep learning in big data . . . . . . . . . . 45
6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Realized Work 47
1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Proposed Architecture: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Implementation Environment: . . . . . . . . . . . . . . . . . . . . . . 48
3.1 Jupyter Notebook: . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Python 2.7: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Keras backend TensorFlow: . . . . . . . . . . . . . . . . . . . 49
3.4 h5py: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Hadoop 2.8.4: . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Hadoop Streaming: . . . . . . . . . . . . . . . . . . . 50
3.5.2 Installation and conguration of Hadoop: . . . . . . 51
4 Dataset: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Building the Model: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 MapReduce test and evaluation: . . . . . . . . . . . . . . . . . . . . . 60
6.1 Prepare data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Upload CSV le to HDFS: . . . . . . . . . . . . . . . . . . . . 60
6.3 MapReduce code in python: . . . . . . . . . . . . . . . . . . . 61
6.3.1 Mapper: . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3.2 Reducer: . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Run the MapReduce job: . . . . . . . . . . . . . . . . . . . . . 63
7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion 64
Bibliography 66Côte titre : MAI/0266 En ligne : https://drive.google.com/file/d/1eqC_-rS8sX7jpUH4A3vdgJserTuUGgX4/view?usp=shari [...] Format de la ressource électronique : Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce [texte imprimé] / Bensedira, Ayoub, Auteur ; Nasri,Khaled, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (69 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Big Data
Data Mining
Hadoop
MapReduceIndex. décimale : 004 Informatique Résumé : Résumé
Les données sont devenues aujourd'hui le nouveau champ de bataille concurrentielle
entre les entreprises, notamment avec la prolifération massive des données dans
un contexte Big Data où l'intégration des données en tant qu'une discipline s'impose
de plus en plus comme un dé opérationnel majeur et inédit.
Le datamining est déni comme étant le processus d'extraction de connaissances
à partir de grandes masses de données, il est utilisé dans plusieurs domaines :
médecine, marketing, industrie, recherche opérationnelle entre autres.
Plusieurs entreprises pionnières et chercheurs dans le domaine commencent à faire
face à ce dé de taille par la proposition de nouvelles approches conceptuelles et algorithmiques
an de remédier à cette problématique imposée par un environnement
extérieur émouvant, des approches qui prennent en considération la monté en puissance
et en popularité des réseaux sociaux, Internet Of Things (IoT) et les analyses
Big Data.
Des débats intensifs se sont orientés et concentrés sur la pertinence des anciennes
méthodes traditionnelles et l'introduction de nouvelles méthodes plus exibles
qui s'adaptent à la vélocité, variété et volume des données qui parviennent de
l'environnement. A traves ce projets nous voulons répondre à un certain nombre de
problématiques tel que :
Quels sont les outils et les techniques utilisées dans le domaine de Big Data
pour analyser les données et extraire des connaissances.
Comment introduire la notion de parallélisme pour implémenter un algorithmes
de Data Mining selon le modèle de programmation MapReduce.Note de contenu : Sommaire
Abstract i
Acknowledgement iii
Contents iv
List of Figures vii
Introduction 1
1 Objective: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Big Data 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Data Evolution: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Denitions of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Sources of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Big Data Vs small data: . . . . . . . . . . . . . . . . . . . . . . . . . 7
6 Data structure: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.1 Structured: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 Semi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3 Quasi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4 Unstructured: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.5 Combination of the Four Groups: . . . . . . . . . . . . . . . . 9
7 Big Data ecosystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Big Data Lifecycle: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.1 Data collection phase . . . . . . . . . . . . . . . . . . . . . . . 12
8.2 Data storage phase: . . . . . . . . . . . . . . . . . . . . . . . . 13
8.3 Data analytics phase: . . . . . . . . . . . . . . . . . . . . . . 13
8.4 Knowledge creation phase: . . . . . . . . . . . . . . . . . . . . 13
9 Data scientists: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
10 Big Data and related technologies: . . . . . . . . . . . . . . . . . . . . 15
10.1 Hadoop: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
10.1.1 Hadoop architecture: . . . . . . . . . . . . . . . . . . 16
10.1.1.1 HDFS (Hadoop Distributed File System): . . . . . . 16
10.1.1.2 MapReduce: . . . . . . . . . . . . . . . . . . . . . . . 17
10.2 Cloud Computing: . . . . . . . . . . . . . . . . . . . . . . . . 19
10.3 NoSQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11 Big Data applications: . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Challenges of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 23
13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Data Mining in Big Data 26
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Data Mining overview: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Data Mining denition: . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Machine learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Machine Learning techniques: . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Supervised Learning: . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Unsupervised Learning: . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Reinforcement Learning: . . . . . . . . . . . . . . . . . . . . . 31
6 Machine Learning process: . . . . . . . . . . . . . . . . . . . . . . . . 31
7 Literature review: Data mining in Big Data . . . . . . . . . . . . . . 32
8 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning for Big Data 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Train Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1 Regularization: . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Weight initialization: . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Activation function: . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Loss function: . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Backpropagation: . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Deep Architectures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Feed forward neural networks: . . . . . . . . . . . . . . . . . . 40
4.2 Convolutional neural networks: . . . . . . . . . . . . . . . . . 40
4.3 Recurrent neural networks: . . . . . . . . . . . . . . . . . . . . 42
5 Deep learning and big data: . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Challenges: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Some recent work: Deep learning in big data . . . . . . . . . . 45
6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Realized Work 47
1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Proposed Architecture: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Implementation Environment: . . . . . . . . . . . . . . . . . . . . . . 48
3.1 Jupyter Notebook: . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Python 2.7: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Keras backend TensorFlow: . . . . . . . . . . . . . . . . . . . 49
3.4 h5py: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Hadoop 2.8.4: . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Hadoop Streaming: . . . . . . . . . . . . . . . . . . . 50
3.5.2 Installation and conguration of Hadoop: . . . . . . 51
4 Dataset: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Building the Model: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 MapReduce test and evaluation: . . . . . . . . . . . . . . . . . . . . . 60
6.1 Prepare data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Upload CSV le to HDFS: . . . . . . . . . . . . . . . . . . . . 60
6.3 MapReduce code in python: . . . . . . . . . . . . . . . . . . . 61
6.3.1 Mapper: . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3.2 Reducer: . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Run the MapReduce job: . . . . . . . . . . . . . . . . . . . . . 63
7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion 64
Bibliography 66Côte titre : MAI/0266 En ligne : https://drive.google.com/file/d/1eqC_-rS8sX7jpUH4A3vdgJserTuUGgX4/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0266 MAI/0266 Mémoire Bibliothéque des sciences Français Disponible
DisponibleImplémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes / Sarri,Racha
Titre : Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes Type de document : texte imprimé Auteurs : Sarri,Racha, Auteur ; Sadik Bessou, Directeur de thèse Editeur : Setif:UFA Année de publication : 2018 Importance : 1 vol (59 f .) Format : 29 cm Langues : Français (fre) Langues originales : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Classification de texte
Apprentissage automatique
Extraction de caractéristiquesIndex. décimale : 004 - Informatique Résumé : Résumé
L’identification automatique de la langue (IAL) est la première étape nécessaire pour effectuer
une tâche de traitement du langage naturel dépendant de la langue. C’est l’identification du langage
naturel du contenu d’entrée par une machine. Étant une tâche bien établie en linguistique computationnelle
depuis le début des années 1960, diverses méthodes ont été appliquées avec succès à un
large éventail de langues. Les identifiants de langage automatiques de pointe sont basés sur des modèles
n-gram de caractères formés sur d’énormes corpus. Cependant, il existe de nombreuses langues
naturelles qui ne sont pas encore traitées automatiquement. Par exemple, les langues minoritaires
ou les formes informelles de langues standard (langues à usage général utilisées uniquement dans les
médias). Certaines de ces langues sont seulement parlées et n’existent pas dans un format écrit.
L’utilisation des plateformes de médias sociaux et des nouvelles technologies a facilité l’émergence
d’un format écrit pour ces langues parlées en fonction de la prononciation. Ces nouvelles langues
écrites sont sous-financées, par conséquent les outils IAL actuels ne parviennent pas à les reconnaître
correctement.
Dans cette étude, nous revisitons le problème de l’IAL en mettant l’accent sur la discrimination
entre les langues similaires. Nous traitons du cas des variétés arabes (arabe standard moderne
avec les variétés informelles arabes), et nous considérons chaque variété arabe comme une langue autonome.
Notre objectif principal est de nous concentrer sur la classification des textes arabes en arabe
moderne standard, en dialecte de gulf, lévantine, égyptien ou nord-africain en utilisant des techniques
d’apprentissage machine comme les machines à vecteur de support (SVM), la régression logistique
(LR) et Naive Bayes (NB) classificateur. En outre, un modèle N-gram a été proposé où les documents
sont classés sur la base d’une combinaison d’unigrammes, bigrammes de mots avec unigramme,
bigramme et trigramme de caractères dans une phrase. L’ensemble de données considéré pour cette
étude est un ensemble de données étiqueté où chaque fichier contient un enorme nombre de phrases.
Enfin, la précision de prédiction des algorithmes d’apprentissage automatique mentionnés ci-dessus
dans différentes manipulations de l’ensemble de données est étudiée et une analyse comparative a été
effectuée.Note de contenu :
Sommaire
List of Figures 10
List of Tables 12
1 Introduction 1
1.1 Introducton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Goals and contributions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Thesis organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Natural Language Processing 5
2.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Natural Language Processing (NLP): . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Classification of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Branches of Natural Language Processing: . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Sentiment Analysis: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Text Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.3 Text Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.4 Parts-of-speech Tagging (POS): . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Applications of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.1 Machine Translation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Text Categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.3 Spam Filtering: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Information Extraction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.5 Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.6 Dialogue System: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.7 Medicine: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Arabic language 12
3.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Arabic Linguistic Background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Arabic varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Arabic dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Origins of Arabic dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 The dialectal varieties of arabic: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Differences between MSA and the regional dialects . . . . . . . . . . . . . . . . . . . . 15
3.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Arabic language processing 17
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Automatic Language Identification (ALI): . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Dialect Identification (DID): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4 Arabic Dialect Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 The Difficulty of Arabic DID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6 Applications of Dialect Identification: . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Machine learning 22
5.1 Introduction:: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 Machine Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 Basic notions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4 Machine Learning categories: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Text Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.6 Common learning algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.6.1 Naive Bayes Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6.1.1 Multinomial Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.1.2 Bernoulli Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.2 Logistic Regression: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.3 Support Vector Machines: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.7 Text representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7.1 Bag of words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7.2 Term weighting: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.8 Extraction of features: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1 N-grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.1 Word N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.2 Character N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.9 Performance Measures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.1 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.2 Precision and Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.9.1.3 F-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.10 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Data set and implementation frameworks 33
6.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2 Steps of our Arabic Varieties Recognition System: . . . . . . . . . . . . . . . . . . . . 33
6.3 Development tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4 Proposed System implementation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1 Corpus of data: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1.1 Dataset statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4.3 Creating the training and test sets . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4.4 Feature extraction and vectorization . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.1 Extraction of features . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.2 vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4.5 Application of machine learning algorithms: . . . . . . . . . . . . . . . . . . . . 45
6.4.6 Testing classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Experiments and Results 47
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2 classifiers comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1 Results using classifiers with CountVectorizer . . . . . . . . . . . . . . . . . . . 47
7.2.1.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.4 Summary of results using CountVectorizer: . . . . . . . . . . . . . . . 49
7.2.2 Results using classifiers with TfidfVectorizer: . . . . . . . . . . . . . . . . . . . 49
7.2.2.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2.2.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.4 Summary of the results using TfidfVectorizer: . . . . . . . . . . . . . . 50
7.2.3 Choice of the best classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.3.1 Classification report: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.4 Testing the classifier: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8 Conclusions 56
8.1 General findings: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Future directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
BibliographyCôte titre : MAI/0240 En ligne : https://drive.google.com/file/d/10_0jIuZ0flMcP81ZPhmGVofgv1khSGyT/view?usp=shari [...] Format de la ressource électronique : Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes [texte imprimé] / Sarri,Racha, Auteur ; Sadik Bessou, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Classification de texte
Apprentissage automatique
Extraction de caractéristiquesIndex. décimale : 004 - Informatique Résumé : Résumé
L’identification automatique de la langue (IAL) est la première étape nécessaire pour effectuer
une tâche de traitement du langage naturel dépendant de la langue. C’est l’identification du langage
naturel du contenu d’entrée par une machine. Étant une tâche bien établie en linguistique computationnelle
depuis le début des années 1960, diverses méthodes ont été appliquées avec succès à un
large éventail de langues. Les identifiants de langage automatiques de pointe sont basés sur des modèles
n-gram de caractères formés sur d’énormes corpus. Cependant, il existe de nombreuses langues
naturelles qui ne sont pas encore traitées automatiquement. Par exemple, les langues minoritaires
ou les formes informelles de langues standard (langues à usage général utilisées uniquement dans les
médias). Certaines de ces langues sont seulement parlées et n’existent pas dans un format écrit.
L’utilisation des plateformes de médias sociaux et des nouvelles technologies a facilité l’émergence
d’un format écrit pour ces langues parlées en fonction de la prononciation. Ces nouvelles langues
écrites sont sous-financées, par conséquent les outils IAL actuels ne parviennent pas à les reconnaître
correctement.
Dans cette étude, nous revisitons le problème de l’IAL en mettant l’accent sur la discrimination
entre les langues similaires. Nous traitons du cas des variétés arabes (arabe standard moderne
avec les variétés informelles arabes), et nous considérons chaque variété arabe comme une langue autonome.
Notre objectif principal est de nous concentrer sur la classification des textes arabes en arabe
moderne standard, en dialecte de gulf, lévantine, égyptien ou nord-africain en utilisant des techniques
d’apprentissage machine comme les machines à vecteur de support (SVM), la régression logistique
(LR) et Naive Bayes (NB) classificateur. En outre, un modèle N-gram a été proposé où les documents
sont classés sur la base d’une combinaison d’unigrammes, bigrammes de mots avec unigramme,
bigramme et trigramme de caractères dans une phrase. L’ensemble de données considéré pour cette
étude est un ensemble de données étiqueté où chaque fichier contient un enorme nombre de phrases.
Enfin, la précision de prédiction des algorithmes d’apprentissage automatique mentionnés ci-dessus
dans différentes manipulations de l’ensemble de données est étudiée et une analyse comparative a été
effectuée.Note de contenu :
Sommaire
List of Figures 10
List of Tables 12
1 Introduction 1
1.1 Introducton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Goals and contributions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Thesis organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Natural Language Processing 5
2.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Natural Language Processing (NLP): . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Classification of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Branches of Natural Language Processing: . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Sentiment Analysis: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Text Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.3 Text Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.4 Parts-of-speech Tagging (POS): . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Applications of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.1 Machine Translation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Text Categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.3 Spam Filtering: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Information Extraction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.5 Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.6 Dialogue System: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.7 Medicine: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Arabic language 12
3.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Arabic Linguistic Background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Arabic varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Arabic dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Origins of Arabic dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 The dialectal varieties of arabic: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Differences between MSA and the regional dialects . . . . . . . . . . . . . . . . . . . . 15
3.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Arabic language processing 17
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Automatic Language Identification (ALI): . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Dialect Identification (DID): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4 Arabic Dialect Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 The Difficulty of Arabic DID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6 Applications of Dialect Identification: . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Machine learning 22
5.1 Introduction:: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 Machine Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 Basic notions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4 Machine Learning categories: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Text Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.6 Common learning algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.6.1 Naive Bayes Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6.1.1 Multinomial Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.1.2 Bernoulli Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.2 Logistic Regression: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.3 Support Vector Machines: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.7 Text representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7.1 Bag of words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7.2 Term weighting: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.8 Extraction of features: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1 N-grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.1 Word N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.2 Character N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.9 Performance Measures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.1 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.2 Precision and Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.9.1.3 F-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.10 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Data set and implementation frameworks 33
6.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2 Steps of our Arabic Varieties Recognition System: . . . . . . . . . . . . . . . . . . . . 33
6.3 Development tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4 Proposed System implementation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1 Corpus of data: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1.1 Dataset statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4.3 Creating the training and test sets . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4.4 Feature extraction and vectorization . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.1 Extraction of features . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.2 vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4.5 Application of machine learning algorithms: . . . . . . . . . . . . . . . . . . . . 45
6.4.6 Testing classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Experiments and Results 47
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2 classifiers comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1 Results using classifiers with CountVectorizer . . . . . . . . . . . . . . . . . . . 47
7.2.1.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.4 Summary of results using CountVectorizer: . . . . . . . . . . . . . . . 49
7.2.2 Results using classifiers with TfidfVectorizer: . . . . . . . . . . . . . . . . . . . 49
7.2.2.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2.2.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.4 Summary of the results using TfidfVectorizer: . . . . . . . . . . . . . . 50
7.2.3 Choice of the best classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.3.1 Classification report: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.4 Testing the classifier: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8 Conclusions 56
8.1 General findings: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Future directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
BibliographyCôte titre : MAI/0240 En ligne : https://drive.google.com/file/d/10_0jIuZ0flMcP81ZPhmGVofgv1khSGyT/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0240 MAI/0240 Mémoire Bibliothéque des sciences Français Disponible
DisponibleImplémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes / Soualhi,Sabrina
Titre : Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes Type de document : texte imprimé Auteurs : Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse Editeur : Setif:UFA Année de publication : 2019 Importance : 1 vol (59 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique.Résumé : La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux deNote de contenu : Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LISTCôte titre : MAI/0296 En ligne : https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...] Format de la ressource électronique : Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes [texte imprimé] / Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique.Résumé : La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux deNote de contenu : Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LISTCôte titre : MAI/0296 En ligne : https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0296 MAI/0296 Mémoire Bibliothéque des sciences Français Disponible
DisponibleImplémentation des deux algorithmes AAA et GGPB dans le système de planification Eclipse pour les faisceaux de photons et électrons / Saad Khoudri
Titre : Implémentation des deux algorithmes AAA et GGPB dans le système de planification Eclipse pour les faisceaux de photons et électrons Type de document : texte imprimé Auteurs : Saad Khoudri ; Fayçal Kharfi, Directeur de thèse Editeur : Setif:UFA Année de publication : 2015/2016 Importance : 1 vol (108 f.) Catégories : Thèses & Mémoires:Physique Mots-clés : Imagerie et Ingénierie Biomédicale
TPS
AAA
GGPB
Contrôle de QualitéRésumé : Résumé :
Les Systèmes de Planification des Traitements (Treatment Planning System - TPS) occupent une position clé au sein du service de radiothérapie : ils réalisent le calcul prévisionnel de la distribution de la dose et des temps de traitement. Traditionnellement, le contrôle qualité des distributions de dose calculées par les TPS s’appuie sur leurs comparaisons avec des distributions de dose mesurées sous l’appareil de traitement. L’objectif de ce travail, de procéder aux paramétrage des deux algorithmes AAA et GGPB afin de les validés et utilisés en routine pour la planification des traitements. Les comparaisons effectuées entre les rendements en profondeur, les profils de dose mesurés et calculés par le TPS montrent de bons résultats
Côte titre : MAPH/0157 En ligne : https://drive.google.com/file/d/1urPYy-kKNXXjDLNh2Ymleqe15Li4rit8/view?usp=shari [...] Format de la ressource électronique : doc Implémentation des deux algorithmes AAA et GGPB dans le système de planification Eclipse pour les faisceaux de photons et électrons [texte imprimé] / Saad Khoudri ; Fayçal Kharfi, Directeur de thèse . - [S.l.] : Setif:UFA, 2015/2016 . - 1 vol (108 f.).
Catégories : Thèses & Mémoires:Physique Mots-clés : Imagerie et Ingénierie Biomédicale
TPS
AAA
GGPB
Contrôle de QualitéRésumé : Résumé :
Les Systèmes de Planification des Traitements (Treatment Planning System - TPS) occupent une position clé au sein du service de radiothérapie : ils réalisent le calcul prévisionnel de la distribution de la dose et des temps de traitement. Traditionnellement, le contrôle qualité des distributions de dose calculées par les TPS s’appuie sur leurs comparaisons avec des distributions de dose mesurées sous l’appareil de traitement. L’objectif de ce travail, de procéder aux paramétrage des deux algorithmes AAA et GGPB afin de les validés et utilisés en routine pour la planification des traitements. Les comparaisons effectuées entre les rendements en profondeur, les profils de dose mesurés et calculés par le TPS montrent de bons résultats
Côte titre : MAPH/0157 En ligne : https://drive.google.com/file/d/1urPYy-kKNXXjDLNh2Ymleqe15Li4rit8/view?usp=shari [...] Format de la ressource électronique : doc Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAPH/0157 MAPH/0157 Mémoire Bibliothéque des sciences Français Disponible
DisponibleImplémentation de la neutronographie statique de transfert et de la tomographie autour du réacteur de recherche Es-Salam / Fayçal Kharfi
PermalinkImplémentation numérique d’un algorithme pour résoudre le problème des moindres carrés semi-défini à contraintes linéaires / Kheireddine Dilmi
PermalinkImplémentation numérique d'une méthode barrière logarithmique pour la programmation linéaire / Soraya Chaghoub
PermalinkImplémentation numérique d'une méthode de trajectoire centrale avec poids pour la programmation linéaire / Lamia Sebia
PermalinkPermalinkImplémentation d'un outil d'aide aux études anthroponymiques et onomastiques / AL-Absi Suhail,Abdulaziz
PermalinkPermalinkImplémentation de quelques méthodes de segmentation automatique pour la reconnaissance des chiffres manuscrits / Hireche ,Hiba
PermalinkPermalinkPermalinkImportance de l’étude des effets du second ordre dans les réactions de double ionisation : Application à la molécule H?O / Roumaissa Boumaza
PermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkPermalinkInflation de l’univers à travers une approche de la mécanique quantique / Bochra Chibani
PermalinkPermalink