Catalogue en ligne

University Sétif 1 FERHAT ABBAS Faculty of Sciences

Nouvelle recherche

Document: texte imprimé

Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes / Soualhi,Sabrina

pdf

Public
ISBD

Titre :	Implémentation d'une application d'identification de langue dialectale ou pérenne pour les textes arabes
Type de document :	texte imprimé
Auteurs :	Soualhi,Sabrina, Auteur ; Aliouat ,Zibouda, Directeur de thèse
Editeur :	Setif:UFA
Année de publication :	2019
Importance :	1 vol (59 f .)
Format :	29 cm
Langues :	Français (fre)
Catégories :	Thèses & Mémoires:Informatique
Mots-clés :	Traitement du langage naturel Dialecte arabe Classification du texte Apprentissage automatique.
Résumé :	La langue arabe est une collection de multiples variantes, parmi lesquelles l’arabe moderne standard (MSA) a un statut particulier en tant que langue standard écrite formelle. les autres variantes sont des dialectes parlés informels par des arabophones comme moyen de communication pour la vie quotidienne (langue maternelle). Cependant, au cours des derniéres années, avec l’apparition des médias sociaux, les dialectes arabes ont acquis une forme écrite et les différences entre MSA et AD apparaissent en termes de phonologie, de morphologie, de choix lexical et de syntaxe. Le but de cette étude est d’évaluer les performances de six méthodes d’apprentissage automatisé supervisées en vue de l’identification automatique de textes en dialectes arabes (MSA, algériens, tunisiens, égyptiens, syriens, palestiniens, saoudiens et koweitiens) á l’aide d’un jeu de données divisé en cinq principaux. classes collectées sur les réseaux sociaux, les journaux en ligne, les romans, etc. Comme les algorithmes d’apprentissage automatique n’acceptent que les vecteurs de nombres, nous avons utilisé deux méthodes d’extraction á 2 caractéristiques pour obtenir la performance. Sur les six méthodes d’apprentissage automatique testées, nous pouvons conclure que les classificateurs bayésiens multinomiaux naifs sont généralement les plus efficaces avec les deux fonctions d’extraction, avec une précision de 84,44% et 88,5% respectivement. Nous avons comparé les performances des algorithmes précédents avec une architecture de réseaux de
Note de contenu :	Sommaire List of Tables ix List of Figures xi 1 Theoretical background 3 1.1 Introduction: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Arabic linguistic background: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Arabic language varieties: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3.1 Modern Standard Arabic (MSA): . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3.2 Arabic Dialects (AD): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 The Emergence of Arabic Dialects: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.5 The differences between MSA and Arabic dialects: . . . . . . . . . . . . . . . . . . . 7 1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 State of The Art and Related Works 9 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 Deep learning and neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.1 Artificial neural networks (ANN) . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.2 Deep nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4.1 Techniques of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4.2 Applications of NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5 Text categorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.6 Features extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.6.1 Bag of Words model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.2 N-grams model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.3 TF IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 iv TABLE OF CONTENTS 2.7 Related works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3 Dataset and implementation frameworks 27 3.1 Dataset description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2 Dataset pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.1 Noise removal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.2 Removing the non-arabic texts . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2.3 Stop words elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3 Feature extraction and vectorization: . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.1 N-Grams: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.2 Bag of words: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.4 Implementation tools and frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.4.1 soft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.4.2 Hard tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.5 Evaluation metrics: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.5.1 Confusion Matrix: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.5.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5.3 Recall: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5.4 Accuracy: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5.5 F1 score: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.6 Proposed implementation systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.6.1 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.6.2 Deep learning approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4 Experiments and results 41 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.2 Machine learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.2.1 CountVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . 41 4.2.2 TfidfVectorizer vectors experiments . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.3 Testing classifiers: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.3 Deep learning approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.4 Results comparisons: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Bibliography 59 v LIST
Côte titre :	MAI/0296
En ligne :	https://drive.google.com/file/d/1utXLbtut7MxRSdC78Tzl_z8PqJ-DrLOq/view?usp=shari [...]
Format de la ressource électronique :	pdf

Exemplaires (1)

Code-barres	Cote	Support	Localisation	Section	Disponibilité
MAI/0296	MAI/0296	Mémoire	Bibliothéque des sciences	Français	Disponible Disponible

A-
A
A+

Accueil

Se connecter

Mot de passe oublié ?

Adresse

Université Sétif -1- faculté des sciences el bez Sétif
19000 Sétif
Algérie

Horaires d'ouverture :

Dimanche:  8:00h-16h30
Lundi:         8:00h-16h30
Mardi:         8:00h-16h30
Mercredi:    8:00h-16h30
Jeudi:         8:00h-16h30