Catalogue en ligne

University Sétif 1 FERHAT ABBAS Faculty of Sciences

Détail de l'éditeur

Setif:UFA

Documents disponibles chez cet éditeur

Ajouter le résultat dans votre panier Affiner la recherche

Implémentation d'un algorithme auto-stabilisant pour le calcul d'un ensemble indépendant en utilisant la communication par messages / Bessou, mouhamed

Public

ISBD

Titre : Implémentation d'un algorithme auto-stabilisant pour le calcul d'un ensemble indépendant en utilisant la communication par messages
Type de document : texte imprimé
Auteurs : Bessou, mouhamed ; GUELLATI, N, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2017
Importance : 1 vol (50f.)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Réseaux
Systèmes Distribués
systèmes distribués
toléranceauxpannes
auto-stabilisation
clustering
ensemble indépendant maximal
Index. décimale : 004 Informatique
Résumé : Résumé
Les progrès remarquables des équipements informatiques et de télécommunications durant ces dernières années ont permis une forte évolution de l'environnement distribué qui
les utilise. On est ainsi passé de réseaux locaux de stations de travail à des réseaux à
grande échelle. Cette avancée des équipements a permis de répondre plus ecacement aux
besoins des diérents domaines. La tolérance aux pannes dans les systèmes distribués est
un sujet qui a été largement étudié. La tolérance aux pannes fait référence à la capacité
d'un système de continuer à fonctionner lorsqu'une partie de celui-ci tombe en panne. Une
des solutions proposées pour la tolérance aux pannes est l'auto-stabilisation.
Ce mémoire étudie les algorithmes auto-stabilisants dans le cadre des systèmes distribués. Elle s'intéresse plus particulièrement à l'implémentation de ces algorithmes dans les
réseaux réels.
Dans la première partie, nous présentons le domaine des systèmes distribués, nous citons
leurs objectifs et les types des pannes qui les menaces. Nous présentons aussi l'approche
de l'auto-stabilisation en citons quelques-unes de ses avantages et ses limites.
Dans la deuxième partie, nous présentons les réseaux ad hoc, le clustering dans les
réseaux ad hoc et nous présentons aussi les ensembles indépendants en citons leur utilité
dans les réseaux. Nous terminons cette partie par la présentation de quelques algorithmes
auto-stabilisants permettant de calculés les ensembles indépendants maximaux.
Dans la troisième partie, nous essayons de surpasser les hypothèses fortes des algorithmes auto-stabilisants, pour cela nous proposons une solution pour utiliser l'algorithme
auto-stabilisant d'Ikeda dans un réseau réel. Finalement nous l'implémentons en langage
Java en utilisant les sockets.

Note de contenu : Table des matières
Introduction générale 1
1 Systèmes Distribués et Auto-Stabilisation 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Systèmes distribués . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Objectifs des systèmes distribués . . . . . . . . . . . . . . . . 4
1.2.2 Algorithme distribué . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Problème classique en algorithmique distribuée . . . . . . . . 5
1.3 Modèles de communications . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Tolérance au panne . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Auto Stabilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.1 Token ring de Dijkstra . . . . . . . . . . . . . . . . . . . . . . 9
1.5.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.3 Inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.4 Démon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Le clustering dans les réseaux ad-hoc et les ensembles indépendants 14
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Réseau ad hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 La communication dans les réseaux ad hoc . . . . . . . . . . 15
2.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 Formation de clusters . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 Élection de cluster-head . . . . . . . . . . . . . . . . . . . . . 17
2.2.5 Maintenance des clusters . . . . . . . . . . . . . . . . . . . . . 17
2.2.6 Quelques approches de Clustering . . . . . . . . . . . . . . . . 17
2.3 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Les ensembles indépendants . . . . . . . . . . . . . . . . . . . 18
2.3.2 L'utilisation des ensembles indépendants maximaux (MIS) dans
le clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Algorithme de Shukla et al . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Algorithme de Shi et al . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 21
2.3.6 Algorithme de Turau . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.7 Algorithme de Goddard et al . . . . . . . . . . . . . . . . . . 23
2.3.8 Algorithme de Yen et Huang . . . . . . . . . . . . . . . . . . . 23
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Implémentation de l'algorithme d'Ikeda dans un réseau réel 27
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Proposition d'une solution pour l'utilisation de l'algorithme d'Ikeda
dans les réseaux réels . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Algorithme transformé . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Description de notre travail . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Modélisation avec UML . . . . . . . . . . . . . . . . . . . . . 30
3.4 Description du code Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.1 Le language Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.2 Socket . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.3 La classe ServeurdeNom . . . . . . . . . . . . . . . . . . . . . 36
3.4.4 La classe Résultat . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.5 Classe InfoVoisin . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.6 Classe N÷ud . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Description de l'application . . . . . . . . . . . . . . . . . . . . . . . 41
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Conclusion générale 46
Côte titre : MAI/0167
En ligne : https://drive.google.com/file/d/1OksvpU1oZBqDtH_YvMgebD-KIYf8bper/view?usp=shari [...]
Format de la ressource électronique : pdf

Implémentation d'un algorithme auto-stabilisant pour le calcul d'un ensemble indépendant en utilisant la communication par messages [texte imprimé] / Bessou, mouhamed ; GUELLATI, N, Directeur de thèse . - [S.l.] : Setif:UFA, 2017 . - 1 vol (50f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Réseaux
Systèmes Distribués
systèmes distribués
toléranceauxpannes
auto-stabilisation
clustering
ensemble indépendant maximal
Index. décimale : 004 Informatique
Résumé : Résumé
Les progrès remarquables des équipements informatiques et de télécommunications durant ces dernières années ont permis une forte évolution de l'environnement distribué qui
les utilise. On est ainsi passé de réseaux locaux de stations de travail à des réseaux à
grande échelle. Cette avancée des équipements a permis de répondre plus ecacement aux
besoins des diérents domaines. La tolérance aux pannes dans les systèmes distribués est
un sujet qui a été largement étudié. La tolérance aux pannes fait référence à la capacité
d'un système de continuer à fonctionner lorsqu'une partie de celui-ci tombe en panne. Une
des solutions proposées pour la tolérance aux pannes est l'auto-stabilisation.
Ce mémoire étudie les algorithmes auto-stabilisants dans le cadre des systèmes distribués. Elle s'intéresse plus particulièrement à l'implémentation de ces algorithmes dans les
réseaux réels.
Dans la première partie, nous présentons le domaine des systèmes distribués, nous citons
leurs objectifs et les types des pannes qui les menaces. Nous présentons aussi l'approche
de l'auto-stabilisation en citons quelques-unes de ses avantages et ses limites.
Dans la deuxième partie, nous présentons les réseaux ad hoc, le clustering dans les
réseaux ad hoc et nous présentons aussi les ensembles indépendants en citons leur utilité
dans les réseaux. Nous terminons cette partie par la présentation de quelques algorithmes
auto-stabilisants permettant de calculés les ensembles indépendants maximaux.
Dans la troisième partie, nous essayons de surpasser les hypothèses fortes des algorithmes auto-stabilisants, pour cela nous proposons une solution pour utiliser l'algorithme
auto-stabilisant d'Ikeda dans un réseau réel. Finalement nous l'implémentons en langage
Java en utilisant les sockets.

Note de contenu : Table des matières
Introduction générale 1
1 Systèmes Distribués et Auto-Stabilisation 3
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Systèmes distribués . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Objectifs des systèmes distribués . . . . . . . . . . . . . . . . 4
1.2.2 Algorithme distribué . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Problème classique en algorithmique distribuée . . . . . . . . 5
1.3 Modèles de communications . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Tolérance au panne . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Auto Stabilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.1 Token ring de Dijkstra . . . . . . . . . . . . . . . . . . . . . . 9
1.5.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.3 Inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.4 Démon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Le clustering dans les réseaux ad-hoc et les ensembles indépendants 14
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Réseau ad hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 La communication dans les réseaux ad hoc . . . . . . . . . . 15
2.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 Formation de clusters . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 Élection de cluster-head . . . . . . . . . . . . . . . . . . . . . 17
2.2.5 Maintenance des clusters . . . . . . . . . . . . . . . . . . . . . 17
2.2.6 Quelques approches de Clustering . . . . . . . . . . . . . . . . 17
2.3 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Les ensembles indépendants . . . . . . . . . . . . . . . . . . . 18
2.3.2 L'utilisation des ensembles indépendants maximaux (MIS) dans
le clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Algorithme de Shukla et al . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Algorithme de Shi et al . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 21
2.3.6 Algorithme de Turau . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.7 Algorithme de Goddard et al . . . . . . . . . . . . . . . . . . 23
2.3.8 Algorithme de Yen et Huang . . . . . . . . . . . . . . . . . . . 23
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Implémentation de l'algorithme d'Ikeda dans un réseau réel 27
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Proposition d'une solution pour l'utilisation de l'algorithme d'Ikeda
dans les réseaux réels . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Algorithme d'Ikeda et al . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Algorithme transformé . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Description de notre travail . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Modélisation avec UML . . . . . . . . . . . . . . . . . . . . . 30
3.4 Description du code Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.1 Le language Java . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.2 Socket . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.3 La classe ServeurdeNom . . . . . . . . . . . . . . . . . . . . . 36
3.4.4 La classe Résultat . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.5 Classe InfoVoisin . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.6 Classe N÷ud . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Description de l'application . . . . . . . . . . . . . . . . . . . . . . . 41
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Conclusion générale 46
Côte titre : MAI/0167
En ligne : https://drive.google.com/file/d/1OksvpU1oZBqDtH_YvMgebD-KIYf8bper/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0167 MAI/0167 Mémoire Bibliothéque des sciences Français Disponible
Disponible

Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce / Bensedira, Ayoub

Public

ISBD

Titre : Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce
Type de document : texte imprimé
Auteurs : Bensedira, Ayoub, Auteur ; Nasri,Khaled, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2018
Importance : 1 vol (69 f .)
Format : 29 cm
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big Data
Data Mining
Hadoop
MapReduce
Index. décimale : 004 Informatique
Résumé : Résumé
Les données sont devenues aujourd'hui le nouveau champ de bataille concurrentielle
entre les entreprises, notamment avec la prolifération massive des données dans
un contexte Big Data où l'intégration des données en tant qu'une discipline s'impose
de plus en plus comme un dé opérationnel majeur et inédit.
Le datamining est déni comme étant le processus d'extraction de connaissances
à partir de grandes masses de données, il est utilisé dans plusieurs domaines :
médecine, marketing, industrie, recherche opérationnelle entre autres.
Plusieurs entreprises pionnières et chercheurs dans le domaine commencent à faire
face à ce dé de taille par la proposition de nouvelles approches conceptuelles et algorithmiques
an de remédier à cette problématique imposée par un environnement
extérieur émouvant, des approches qui prennent en considération la monté en puissance
et en popularité des réseaux sociaux, Internet Of Things (IoT) et les analyses
Big Data.
Des débats intensifs se sont orientés et concentrés sur la pertinence des anciennes
méthodes traditionnelles et l'introduction de nouvelles méthodes plus exibles
qui s'adaptent à la vélocité, variété et volume des données qui parviennent de
l'environnement. A traves ce projets nous voulons répondre à un certain nombre de
problématiques tel que :
Quels sont les outils et les techniques utilisées dans le domaine de Big Data
pour analyser les données et extraire des connaissances.
Comment introduire la notion de parallélisme pour implémenter un algorithmes
de Data Mining selon le modèle de programmation MapReduce.
Note de contenu : Sommaire
Abstract i
Acknowledgement iii
Contents iv
List of Figures vii
Introduction 1
1 Objective: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Big Data 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Data Evolution: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Denitions of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Sources of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Big Data Vs small data: . . . . . . . . . . . . . . . . . . . . . . . . . 7
6 Data structure: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.1 Structured: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 Semi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3 Quasi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4 Unstructured: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.5 Combination of the Four Groups: . . . . . . . . . . . . . . . . 9
7 Big Data ecosystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Big Data Lifecycle: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.1 Data collection phase . . . . . . . . . . . . . . . . . . . . . . . 12
8.2 Data storage phase: . . . . . . . . . . . . . . . . . . . . . . . . 13
8.3 Data analytics phase: . . . . . . . . . . . . . . . . . . . . . . 13
8.4 Knowledge creation phase: . . . . . . . . . . . . . . . . . . . . 13
9 Data scientists: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
10 Big Data and related technologies: . . . . . . . . . . . . . . . . . . . . 15
10.1 Hadoop: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
10.1.1 Hadoop architecture: . . . . . . . . . . . . . . . . . . 16
10.1.1.1 HDFS (Hadoop Distributed File System): . . . . . . 16
10.1.1.2 MapReduce: . . . . . . . . . . . . . . . . . . . . . . . 17
10.2 Cloud Computing: . . . . . . . . . . . . . . . . . . . . . . . . 19
10.3 NoSQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11 Big Data applications: . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Challenges of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 23
13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Data Mining in Big Data 26
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Data Mining overview: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Data Mining denition: . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Machine learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Machine Learning techniques: . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Supervised Learning: . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Unsupervised Learning: . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Reinforcement Learning: . . . . . . . . . . . . . . . . . . . . . 31
6 Machine Learning process: . . . . . . . . . . . . . . . . . . . . . . . . 31
7 Literature review: Data mining in Big Data . . . . . . . . . . . . . . 32
8 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning for Big Data 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Train Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1 Regularization: . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Weight initialization: . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Activation function: . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Loss function: . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Backpropagation: . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Deep Architectures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Feed forward neural networks: . . . . . . . . . . . . . . . . . . 40
4.2 Convolutional neural networks: . . . . . . . . . . . . . . . . . 40
4.3 Recurrent neural networks: . . . . . . . . . . . . . . . . . . . . 42
5 Deep learning and big data: . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Challenges: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Some recent work: Deep learning in big data . . . . . . . . . . 45
6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Realized Work 47
1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Proposed Architecture: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Implementation Environment: . . . . . . . . . . . . . . . . . . . . . . 48
3.1 Jupyter Notebook: . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Python 2.7: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Keras backend TensorFlow: . . . . . . . . . . . . . . . . . . . 49
3.4 h5py: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Hadoop 2.8.4: . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Hadoop Streaming: . . . . . . . . . . . . . . . . . . . 50
3.5.2 Installation and conguration of Hadoop: . . . . . . 51
4 Dataset: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Building the Model: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 MapReduce test and evaluation: . . . . . . . . . . . . . . . . . . . . . 60
6.1 Prepare data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Upload CSV le to HDFS: . . . . . . . . . . . . . . . . . . . . 60
6.3 MapReduce code in python: . . . . . . . . . . . . . . . . . . . 61
6.3.1 Mapper: . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3.2 Reducer: . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Run the MapReduce job: . . . . . . . . . . . . . . . . . . . . . 63
7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion 64
Bibliography 66
Côte titre : MAI/0266
En ligne : https://drive.google.com/file/d/1eqC_-rS8sX7jpUH4A3vdgJserTuUGgX4/view?usp=shari [...]
Format de la ressource électronique : pdf

Implémentation d'un algorithme de Data Mining dans le modèle de programmation MapReduce [texte imprimé] / Bensedira, Ayoub, Auteur ; Nasri,Khaled, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (69 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Big Data
Data Mining
Hadoop
MapReduce
Index. décimale : 004 Informatique
Résumé : Résumé
Les données sont devenues aujourd'hui le nouveau champ de bataille concurrentielle
entre les entreprises, notamment avec la prolifération massive des données dans
un contexte Big Data où l'intégration des données en tant qu'une discipline s'impose
de plus en plus comme un dé opérationnel majeur et inédit.
Le datamining est déni comme étant le processus d'extraction de connaissances
à partir de grandes masses de données, il est utilisé dans plusieurs domaines :
médecine, marketing, industrie, recherche opérationnelle entre autres.
Plusieurs entreprises pionnières et chercheurs dans le domaine commencent à faire
face à ce dé de taille par la proposition de nouvelles approches conceptuelles et algorithmiques
an de remédier à cette problématique imposée par un environnement
extérieur émouvant, des approches qui prennent en considération la monté en puissance
et en popularité des réseaux sociaux, Internet Of Things (IoT) et les analyses
Big Data.
Des débats intensifs se sont orientés et concentrés sur la pertinence des anciennes
méthodes traditionnelles et l'introduction de nouvelles méthodes plus exibles
qui s'adaptent à la vélocité, variété et volume des données qui parviennent de
l'environnement. A traves ce projets nous voulons répondre à un certain nombre de
problématiques tel que :
Quels sont les outils et les techniques utilisées dans le domaine de Big Data
pour analyser les données et extraire des connaissances.
Comment introduire la notion de parallélisme pour implémenter un algorithmes
de Data Mining selon le modèle de programmation MapReduce.
Note de contenu : Sommaire
Abstract i
Acknowledgement iii
Contents iv
List of Figures vii
Introduction 1
1 Objective: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Big Data 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Data Evolution: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Denitions of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Sources of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Big Data Vs small data: . . . . . . . . . . . . . . . . . . . . . . . . . 7
6 Data structure: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.1 Structured: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 Semi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3 Quasi-structured: . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4 Unstructured: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.5 Combination of the Four Groups: . . . . . . . . . . . . . . . . 9
7 Big Data ecosystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Big Data Lifecycle: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.1 Data collection phase . . . . . . . . . . . . . . . . . . . . . . . 12
8.2 Data storage phase: . . . . . . . . . . . . . . . . . . . . . . . . 13
8.3 Data analytics phase: . . . . . . . . . . . . . . . . . . . . . . 13
8.4 Knowledge creation phase: . . . . . . . . . . . . . . . . . . . . 13
9 Data scientists: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
10 Big Data and related technologies: . . . . . . . . . . . . . . . . . . . . 15
10.1 Hadoop: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
10.1.1 Hadoop architecture: . . . . . . . . . . . . . . . . . . 16
10.1.1.1 HDFS (Hadoop Distributed File System): . . . . . . 16
10.1.1.2 MapReduce: . . . . . . . . . . . . . . . . . . . . . . . 17
10.2 Cloud Computing: . . . . . . . . . . . . . . . . . . . . . . . . 19
10.3 NoSQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11 Big Data applications: . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Challenges of Big Data: . . . . . . . . . . . . . . . . . . . . . . . . . 23
13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Data Mining in Big Data 26
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Data Mining overview: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Data Mining denition: . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Machine learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Machine Learning techniques: . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Supervised Learning: . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Unsupervised Learning: . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Reinforcement Learning: . . . . . . . . . . . . . . . . . . . . . 31
6 Machine Learning process: . . . . . . . . . . . . . . . . . . . . . . . . 31
7 Literature review: Data mining in Big Data . . . . . . . . . . . . . . 32
8 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Deep Learning for Big Data 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Train Deep Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1 Regularization: . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Weight initialization: . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Activation function: . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Loss function: . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Backpropagation: . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Deep Architectures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Feed forward neural networks: . . . . . . . . . . . . . . . . . . 40
4.2 Convolutional neural networks: . . . . . . . . . . . . . . . . . 40
4.3 Recurrent neural networks: . . . . . . . . . . . . . . . . . . . . 42
5 Deep learning and big data: . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Challenges: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Some recent work: Deep learning in big data . . . . . . . . . . 45
6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Realized Work 47
1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Proposed Architecture: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Implementation Environment: . . . . . . . . . . . . . . . . . . . . . . 48
3.1 Jupyter Notebook: . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Python 2.7: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Keras backend TensorFlow: . . . . . . . . . . . . . . . . . . . 49
3.4 h5py: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Hadoop 2.8.4: . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Hadoop Streaming: . . . . . . . . . . . . . . . . . . . 50
3.5.2 Installation and conguration of Hadoop: . . . . . . 51
4 Dataset: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Building the Model: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 MapReduce test and evaluation: . . . . . . . . . . . . . . . . . . . . . 60
6.1 Prepare data: . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Upload CSV le to HDFS: . . . . . . . . . . . . . . . . . . . . 60
6.3 MapReduce code in python: . . . . . . . . . . . . . . . . . . . 61
6.3.1 Mapper: . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3.2 Reducer: . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Run the MapReduce job: . . . . . . . . . . . . . . . . . . . . . 63
7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion 64
Bibliography 66
Côte titre : MAI/0266
En ligne : https://drive.google.com/file/d/1eqC_-rS8sX7jpUH4A3vdgJserTuUGgX4/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0266 MAI/0266 Mémoire Bibliothéque des sciences Français Disponible
Disponible

Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes / Sarri,Racha

Public

ISBD

Titre : Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes
Type de document : texte imprimé
Auteurs : Sarri,Racha, Auteur ; Sadik Bessou, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2018
Importance : 1 vol (59 f .)
Format : 29 cm
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Traitement du langage naturel
Classification de texte
Apprentissage automatique
Extraction de caractéristiques
Index. décimale : 004 - Informatique
Résumé : Résumé
L’identification automatique de la langue (IAL) est la première étape nécessaire pour effectuer
une tâche de traitement du langage naturel dépendant de la langue. C’est l’identification du langage
naturel du contenu d’entrée par une machine. Étant une tâche bien établie en linguistique computationnelle
depuis le début des années 1960, diverses méthodes ont été appliquées avec succès à un
large éventail de langues. Les identifiants de langage automatiques de pointe sont basés sur des modèles
n-gram de caractères formés sur d’énormes corpus. Cependant, il existe de nombreuses langues
naturelles qui ne sont pas encore traitées automatiquement. Par exemple, les langues minoritaires
ou les formes informelles de langues standard (langues à usage général utilisées uniquement dans les
médias). Certaines de ces langues sont seulement parlées et n’existent pas dans un format écrit.
L’utilisation des plateformes de médias sociaux et des nouvelles technologies a facilité l’émergence
d’un format écrit pour ces langues parlées en fonction de la prononciation. Ces nouvelles langues
écrites sont sous-financées, par conséquent les outils IAL actuels ne parviennent pas à les reconnaître
correctement.
Dans cette étude, nous revisitons le problème de l’IAL en mettant l’accent sur la discrimination
entre les langues similaires. Nous traitons du cas des variétés arabes (arabe standard moderne
avec les variétés informelles arabes), et nous considérons chaque variété arabe comme une langue autonome.
Notre objectif principal est de nous concentrer sur la classification des textes arabes en arabe
moderne standard, en dialecte de gulf, lévantine, égyptien ou nord-africain en utilisant des techniques
d’apprentissage machine comme les machines à vecteur de support (SVM), la régression logistique
(LR) et Naive Bayes (NB) classificateur. En outre, un modèle N-gram a été proposé où les documents
sont classés sur la base d’une combinaison d’unigrammes, bigrammes de mots avec unigramme,
bigramme et trigramme de caractères dans une phrase. L’ensemble de données considéré pour cette
étude est un ensemble de données étiqueté où chaque fichier contient un enorme nombre de phrases.
Enfin, la précision de prédiction des algorithmes d’apprentissage automatique mentionnés ci-dessus
dans différentes manipulations de l’ensemble de données est étudiée et une analyse comparative a été
effectuée.
Note de contenu :
Sommaire
List of Figures 10
List of Tables 12
1 Introduction 1
1.1 Introducton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Goals and contributions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Thesis organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Natural Language Processing 5
2.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Natural Language Processing (NLP): . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Classification of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Branches of Natural Language Processing: . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Sentiment Analysis: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Text Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.3 Text Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.4 Parts-of-speech Tagging (POS): . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Applications of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.1 Machine Translation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Text Categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.3 Spam Filtering: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Information Extraction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.5 Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.6 Dialogue System: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.7 Medicine: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Arabic language 12
3.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Arabic Linguistic Background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Arabic varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Arabic dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Origins of Arabic dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 The dialectal varieties of arabic: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Differences between MSA and the regional dialects . . . . . . . . . . . . . . . . . . . . 15
3.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Arabic language processing 17
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Automatic Language Identification (ALI): . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Dialect Identification (DID): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4 Arabic Dialect Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 The Difficulty of Arabic DID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6 Applications of Dialect Identification: . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Machine learning 22
5.1 Introduction:: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 Machine Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 Basic notions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4 Machine Learning categories: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Text Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.6 Common learning algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.6.1 Naive Bayes Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6.1.1 Multinomial Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.1.2 Bernoulli Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.2 Logistic Regression: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.3 Support Vector Machines: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.7 Text representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7.1 Bag of words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7.2 Term weighting: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.8 Extraction of features: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1 N-grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.1 Word N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.2 Character N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.9 Performance Measures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.1 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.2 Precision and Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.9.1.3 F-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.10 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Data set and implementation frameworks 33
6.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2 Steps of our Arabic Varieties Recognition System: . . . . . . . . . . . . . . . . . . . . 33
6.3 Development tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4 Proposed System implementation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1 Corpus of data: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1.1 Dataset statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4.3 Creating the training and test sets . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4.4 Feature extraction and vectorization . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.1 Extraction of features . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.2 vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4.5 Application of machine learning algorithms: . . . . . . . . . . . . . . . . . . . . 45
6.4.6 Testing classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Experiments and Results 47
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2 classifiers comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1 Results using classifiers with CountVectorizer . . . . . . . . . . . . . . . . . . . 47
7.2.1.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.4 Summary of results using CountVectorizer: . . . . . . . . . . . . . . . 49
7.2.2 Results using classifiers with TfidfVectorizer: . . . . . . . . . . . . . . . . . . . 49
7.2.2.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2.2.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.4 Summary of the results using TfidfVectorizer: . . . . . . . . . . . . . . 50
7.2.3 Choice of the best classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.3.1 Classification report: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.4 Testing the classifier: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8 Conclusions 56
8.1 General findings: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Future directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Bibliography
Côte titre : MAI/0240
En ligne : https://drive.google.com/file/d/10_0jIuZ0flMcP81ZPhmGVofgv1khSGyT/view?usp=shari [...]
Format de la ressource électronique : pdf

Implémentation d’une application d’identification de langue dialectale ou pérenne pour les textes arabes [texte imprimé] / Sarri,Racha, Auteur ; Sadik Bessou, Directeur de thèse . - [S.l.] : Setif:UFA, 2018 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre) Langues originales : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Traitement du langage naturel
Classification de texte
Apprentissage automatique
Extraction de caractéristiques
Index. décimale : 004 - Informatique
Résumé : Résumé
L’identification automatique de la langue (IAL) est la première étape nécessaire pour effectuer
une tâche de traitement du langage naturel dépendant de la langue. C’est l’identification du langage
naturel du contenu d’entrée par une machine. Étant une tâche bien établie en linguistique computationnelle
depuis le début des années 1960, diverses méthodes ont été appliquées avec succès à un
large éventail de langues. Les identifiants de langage automatiques de pointe sont basés sur des modèles
n-gram de caractères formés sur d’énormes corpus. Cependant, il existe de nombreuses langues
naturelles qui ne sont pas encore traitées automatiquement. Par exemple, les langues minoritaires
ou les formes informelles de langues standard (langues à usage général utilisées uniquement dans les
médias). Certaines de ces langues sont seulement parlées et n’existent pas dans un format écrit.
L’utilisation des plateformes de médias sociaux et des nouvelles technologies a facilité l’émergence
d’un format écrit pour ces langues parlées en fonction de la prononciation. Ces nouvelles langues
écrites sont sous-financées, par conséquent les outils IAL actuels ne parviennent pas à les reconnaître
correctement.
Dans cette étude, nous revisitons le problème de l’IAL en mettant l’accent sur la discrimination
entre les langues similaires. Nous traitons du cas des variétés arabes (arabe standard moderne
avec les variétés informelles arabes), et nous considérons chaque variété arabe comme une langue autonome.
Notre objectif principal est de nous concentrer sur la classification des textes arabes en arabe
moderne standard, en dialecte de gulf, lévantine, égyptien ou nord-africain en utilisant des techniques
d’apprentissage machine comme les machines à vecteur de support (SVM), la régression logistique
(LR) et Naive Bayes (NB) classificateur. En outre, un modèle N-gram a été proposé où les documents
sont classés sur la base d’une combinaison d’unigrammes, bigrammes de mots avec unigramme,
bigramme et trigramme de caractères dans une phrase. L’ensemble de données considéré pour cette
étude est un ensemble de données étiqueté où chaque fichier contient un enorme nombre de phrases.
Enfin, la précision de prédiction des algorithmes d’apprentissage automatique mentionnés ci-dessus
dans différentes manipulations de l’ensemble de données est étudiée et une analyse comparative a été
effectuée.
Note de contenu :
Sommaire
List of Figures 10
List of Tables 12
1 Introduction 1
1.1 Introducton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Goals and contributions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Thesis organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Natural Language Processing 5
2.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Natural Language Processing (NLP): . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Classification of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Branches of Natural Language Processing: . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Sentiment Analysis: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Text Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.3 Text Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.4 Parts-of-speech Tagging (POS): . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Applications of NLP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.1 Machine Translation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Text Categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.3 Spam Filtering: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Information Extraction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.5 Summarization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.6 Dialogue System: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.7 Medicine: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Arabic language 12
3.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Arabic Linguistic Background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Arabic varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Arabic dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Origins of Arabic dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 The dialectal varieties of arabic: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Differences between MSA and the regional dialects . . . . . . . . . . . . . . . . . . . . 15
3.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Arabic language processing 17
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Automatic Language Identification (ALI): . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Dialect Identification (DID): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4 Arabic Dialect Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 The Difficulty of Arabic DID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6 Applications of Dialect Identification: . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.7 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Machine learning 22
5.1 Introduction:: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 Machine Learning: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 Basic notions: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4 Machine Learning categories: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Text Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.6 Common learning algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.6.1 Naive Bayes Classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6.1.1 Multinomial Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.1.2 Bernoulli Naive Bayes: . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.2 Logistic Regression: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.6.3 Support Vector Machines: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.7 Text representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7.1 Bag of words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7.2 Term weighting: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.8 Extraction of features: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1 N-grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.1 Word N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.8.1.2 Character N-gram: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.9 Performance Measures: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.1 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.9.1.2 Precision and Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.9.1.3 F-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.10 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Data set and implementation frameworks 33
6.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2 Steps of our Arabic Varieties Recognition System: . . . . . . . . . . . . . . . . . . . . 33
6.3 Development tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4 Proposed System implementation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1 Corpus of data: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.4.1.1 Dataset statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4.3 Creating the training and test sets . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4.4 Feature extraction and vectorization . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.1 Extraction of features . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.4.2 vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4.5 Application of machine learning algorithms: . . . . . . . . . . . . . . . . . . . . 45
6.4.6 Testing classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Conclusion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Experiments and Results 47
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2 classifiers comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1 Results using classifiers with CountVectorizer . . . . . . . . . . . . . . . . . . . 47
7.2.1.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2.1.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2.1.4 Summary of results using CountVectorizer: . . . . . . . . . . . . . . . 49
7.2.2 Results using classifiers with TfidfVectorizer: . . . . . . . . . . . . . . . . . . . 49
7.2.2.1 Classifiers performance: . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2.2.2 Training time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.3 Misclassified sentences: . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2.4 Summary of the results using TfidfVectorizer: . . . . . . . . . . . . . . 50
7.2.3 Choice of the best classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.3.1 Classification report: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2.4 Testing the classifier: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8 Conclusions 56
8.1 General findings: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Future directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Bibliography
Côte titre : MAI/0240
En ligne : https://drive.google.com/file/d/10_0jIuZ0flMcP81ZPhmGVofgv1khSGyT/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0240 MAI/0240 Mémoire Bibliothéque des sciences Français Disponible
Disponible

Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes / Soualhi,Sabrina

Public

ISBD

Titre : Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes
Type de document : texte imprimé
Auteurs : Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2019
Importance : 1 vol (59 f .)
Format : 29 cm
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique.
Résumé : La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux de
Note de contenu : Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LIST
Côte titre : MAI/0296
En ligne : https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...]
Format de la ressource électronique : pdf

Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes [texte imprimé] / Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse . - [S.l.] : Setif:UFA, 2019 . - 1 vol (59 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique

Mots-clés : Traitement du langage naturel
Dialecte arabe
Classification du texte
Apprentissage
automatique.
Résumé : La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne
standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les
autres variantes sont des dialectes parlés informels par des arabophones comme moyen de
communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres
années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et
les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix
lexical et de syntaxe.
Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé
supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA,
algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu
de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en
ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les
vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour
obtenir la performance.
Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les
classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux
fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement.
Nous avons comparé les performances des algorithmes précédents avec une architecture de
réseaux de
Note de contenu : Sommaire
List of Tables ix
List of Figures xi
1 Theoretical background 3
1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 State of The Art and Related Works 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
TABLE OF CONTENTS
2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Dataset and implementation frameworks 27
3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Experiments and results 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliography 59
v
LIST
Côte titre : MAI/0296
En ligne : https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...]
Format de la ressource électronique : pdf

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAI/0296 MAI/0296 Mémoire Bibliothéque des sciences Français Disponible
Disponible

Implémentation des deux algorithmes AAA et GGPB dans le système de planification Eclipse pour les faisceaux de photons et électrons / Saad Khoudri

Public

ISBD

Titre : Implémentation des deux algorithmes AAA et GGPB dans le système de planification Eclipse pour les faisceaux de photons et électrons
Type de document : texte imprimé
Auteurs : Saad Khoudri ; Fayçal Kharfi, Directeur de thèse
Editeur : Setif:UFA
Année de publication : 2015/2016
Importance : 1 vol (108 f.)
Catégories : Thèses & Mémoires:Physique

Mots-clés : Imagerie et Ingénierie Biomédicale
TPS
AAA
GGPB
Contrôle de Qualité
Résumé : Résumé :

Les Systèmes de Planification des Traitements (Treatment Planning System - TPS) occupent une position clé au sein du service de radiothérapie : ils réalisent le calcul prévisionnel de la distribution de la dose et des temps de traitement. Traditionnellement, le contrôle qualité des distributions de dose calculées par les TPS s’appuie sur leurs comparaisons avec des distributions de dose mesurées sous l’appareil de traitement. L’objectif de ce travail, de procéder aux paramétrage des deux algorithmes AAA et GGPB afin de les validés et utilisés en routine pour la planification des traitements. Les comparaisons effectuées entre les rendements en profondeur, les profils de dose mesurés et calculés par le TPS montrent de bons résultats

Côte titre : MAPH/0157
En ligne : https://drive.google.com/file/d/1urPYy-kKNXXjDLNh2Ymleqe15Li4rit8/view?usp=shari [...]
Format de la ressource électronique : doc

Implémentation des deux algorithmes AAA et GGPB dans le système de planification Eclipse pour les faisceaux de photons et électrons [texte imprimé] / Saad Khoudri ; Fayçal Kharfi, Directeur de thèse . - [S.l.] : Setif:UFA, 2015/2016 . - 1 vol (108 f.).
Catégories : Thèses & Mémoires:Physique

Mots-clés : Imagerie et Ingénierie Biomédicale
TPS
AAA
GGPB
Contrôle de Qualité
Résumé : Résumé :

Les Systèmes de Planification des Traitements (Treatment Planning System - TPS) occupent une position clé au sein du service de radiothérapie : ils réalisent le calcul prévisionnel de la distribution de la dose et des temps de traitement. Traditionnellement, le contrôle qualité des distributions de dose calculées par les TPS s’appuie sur leurs comparaisons avec des distributions de dose mesurées sous l’appareil de traitement. L’objectif de ce travail, de procéder aux paramétrage des deux algorithmes AAA et GGPB afin de les validés et utilisés en routine pour la planification des traitements. Les comparaisons effectuées entre les rendements en profondeur, les profils de dose mesurés et calculés par le TPS montrent de bons résultats

Côte titre : MAPH/0157
En ligne : https://drive.google.com/file/d/1urPYy-kKNXXjDLNh2Ymleqe15Li4rit8/view?usp=shari [...]
Format de la ressource électronique : doc

Exemplaires (1)

Code-barres Cote Support Localisation Section Disponibilité
MAPH/0157 MAPH/0157 Mémoire Bibliothéque des sciences Français Disponible
Disponible

Implémentation de la neutronographie statique de transfert et de la tomographie autour du réacteur de recherche Es-Salam / Fayçal Kharfi

Permalink
Implémentation numérique d’un algorithme pour résoudre le problème des moindres carrés semi-défini à contraintes linéaires / Kheireddine Dilmi

Permalink
Implémentation numérique d'une méthode barrière logarithmique pour la programmation linéaire / Soraya Chaghoub

Permalink
Implémentation numérique d'une méthode de trajectoire centrale avec poids pour la programmation linéaire / Lamia Sebia

Permalink
Implementation of a Parallel Genetic Algorithm on Hadoop MapReduce / Chikhi ,Rima

Permalink
Implémentation d'un outil d'aide aux études anthroponymiques et onomastiques / AL-Absi Suhail,Abdulaziz

Permalink
IMPLEMENTATION DU PROTOCOLE MULTI-HOP EMERGENCY CALL / Gadaoui,nour elhouda

Permalink
Implémentation de quelques méthodes de segmentation automatique pour la reconnaissance des chiffres manuscrits / Hireche ,Hiba

Permalink
Implémentation et Simulation de protocole RBS / LAALAOUI, Affef

Permalink
Implication des Méta-heuristiques en cryptographie / Haddadi ,Fatima Zohra

Permalink
Importance de l’étude des effets du second ordre dans les réactions de double ionisation : Application à la molécule H?O / Roumaissa Boumaza

Permalink
In vivo dosimetry in external Beam radiotherapy / Serine Sarra Bouacid

Permalink
Indexation des bases de données images / Hadi, Fairouz

Permalink
Indexation et recherche d’images par le contenu / Benimeur,Leila

Permalink
Indexation sémantique des documents pédagogiques / Le kired, leila

Permalink
Les indices des algèbres de lie et algèbres Hom-Lie / Adimi,hadjer

Permalink
Inégalités différentielles Lemme de Grönwall et applications / Aymen Laib

Permalink
Inference of gene regulatory networks using genetic algorithm / Salah Eddine Merzougui

Permalink
Inflation de l’univers à travers une approche de la mécanique quantique / Bochra Chibani

Permalink
Influence de la concentration du Sn sur la phase CZTS / Ferhat,Zeyneb

Permalink

University Sétif 1 FERHAT ABBAS Faculty of Sciences

Détail de l'éditeur

Setif:UFA

Documents disponibles chez cet éditeur

Exemplaires (1)

Exemplaires (1)

Exemplaires (1)

Exemplaires (1)

Exemplaires (1)

Accueil

Sélection de la langue

Se connecter

Adresse

Horaires d'ouverture :