University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Mahmoud Mouhib Eddine Boucenna |
Documents disponibles écrits par cet auteur



Approche basée sur le Deep Learning pour l’Étiquetage Sémantique des Rôles en Arabe / Hadjer Chergui
Titre : Approche basée sur le Deep Learning pour l’Étiquetage Sémantique des Rôles en Arabe Type de document : document électronique Auteurs : Hadjer Chergui, Auteur ; Mahmoud Mouhib Eddine Boucenna, Auteur ; Lakhfif, Abdelaziz, Directeur de thèse Editeur : Sétif:UFA1 Année de publication : 2024 Importance : 1 vol (69 f .) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Deep Learning
Étiquetage des Rôles Sémantiques
Arabe
TAL
RNN,
BERTIndex. décimale : 004 Informatique Résumé :
Ce mémoire explore l’application du deep learning à l’étiquetage des rôles sémantiques
(SRL) en arabe, une tâche fondamentale du traitement automatique du langage naturel
(TAL). L’étiquetage des rôles sémantiques consiste à identifier les rôles sémantiques que
jouent les mots ou les expressions au sein d’une phrase, ce qui est crucial pour comprendre
le sens du texte au-delà de sa simple structure syntaxique.
Étant donné la complexité linguistique de l’arabe, notamment sa riche morphologie et
la diversité de ses dialectes, l’étiquetage des rôles sémantiques présente des défis uniques.
Ce travail adopte une approche basée sur le deep learning, en exploitant des architectures
avancées telles que les réseaux de neurones récurrents (RNN) et le Transformateur
(BERT). L’étude applique ces techniques pour améliorer les performances de l’étiquetage
des rôles sémantiques en arabe en identifiant avec précision des rôles tels que l’agent, le
thème ou le bénéficiaire.
Grâce à la mise en oeuvre de modèles de deep learning et à une évaluation rigoureuse,
ce mémoire démontre l’efficacité des techniques d’apprentissage automatique modernes
pour relever les défis spécifiques à la langue arabe. Les résultats mettent en évidence l’efficacité
de ces modèles pour améliorer les tâches de SRL, ouvrant la voie à des recherches
et développements supplémentaires dans le domaine du TAL en arabe.Note de contenu : Sommaire
1 L’étiquetage des rôles sémantiques arabes 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 L’étiquetage des rôles sémantiques . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Composantes de l’étiquetage des rôles sémantiques : . . . . . . . . . 3
1.2.2 L’importance du SRL dans le traitement automatique des langues : 4
1.3 Particularités de la langue arabe . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Écriture et Alphabet : . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Morphologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.3 Syntaxe et Grammaire : . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.4 Dialectes : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 FrameNet : Un Outil pour l’étiquetage des rôles sémantiques . . . . . . . . 6
1.4.1 Cadres Sémantiques : . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Corpus Annoté : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Approches Traditionnelles pour l’Étiquetage des Rôles Sémantiques en Arabe 7
1.5.1 Approches Basées sur des Règles . . . . . . . . . . . . . . . . . . . 7
1.5.2 Approches Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.3 Approches Basées sur l’Apprentissage Automatique . . . . . . . . . 8
1.6 Travaux connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Deep Learning 12
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Le deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 L’importance de deep Learning dans l’SRL . . . . . . . . . . . . . . . . . . 13
2.4 Fondements du Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Réseaux de Neurones Artificiels (ANNs) . . . . . . . . . . . . . . . 14
2.4.2 Perceptron Multicouche (MLP) . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Algorithme de Rétropropagation . . . . . . . . . . . . . . . . . . . 15
2.4.4 Apprentissage Supervisé et Non Supervisé . . . . . . . . . . . . . . 15
2.4.5 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 16
2.4.6 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . 16
2.4.7 Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.8 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.9 Optimisation et Régularisation . . . . . . . . . . . . . . . . . . . . 22
2.5 Entraînement et Optimisation des Modèles de Deep Learning . . . . . . . 22
2.5.1 Fonction de Coût (Loss Function) . . . . . . . . . . . . . . . . . . . 23
2.5.2 Algorithmes d’Optimisation . . . . . . . . . . . . . . . . . . . . . . 23
2.5.3 La régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.4 Ensemble de Données d’Entraînement et de Validation . . . . . . . 25
2.6 Évaluation des modèles de Deep Learning . . . . . . . . . . . . . . . . . . 27
2.6.1 Métriques d’Évaluation . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2 Courbes d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.3 Tests de Significativité Statistique . . . . . . . . . . . . . . . . . . . 28
2.6.4 Évaluation Post-Production . . . . . . . . . . . . . . . . . . . . . . 29
2.7 Applications du l’pprentissage en profondeur dans TAL . . . . . . . . . . . 29
2.8 L’impact de l’apprentissage profond sur le SRL . . . . . . . . . . . . . . . 29
2.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Analyse Expérimentale et Évaluation des Modèles 32
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Frameworks et outils d’implémentation . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.3 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.4 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Paramètres expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.1 Métriques d’évaluation des modèles . . . . . . . . . . . . . . . . . . 34
3.3.2 Taux d’apprentissage (Learning Rate) . . . . . . . . . . . . . . . . . 37
3.3.3 Nombre d’époques . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.4 Taille du lot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.5 Fonction d’activation . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.6 Loss function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Expérimenter avec RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.1 Téléchargement et nettoyage du dataset . . . . . . . . . . . . . . . 42
3.4.2 Prétraitement du texte . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.3 Gestion des Labels . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.4 Séparation des données . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.5 Construire le modèle RNN . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.6 Entraîner le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5 Expérimenter avec BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.1 1er modèle BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.2 2ème modèle BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.3 3eme modèle BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.4 Comparaison du deuxième et troisième code BERT. . . . . . . . . . 57
3.6 Résultat final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.1 Résultat RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.2 Résultats de Bert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Côte titre : MAI/0940 Approche basée sur le Deep Learning pour l’Étiquetage Sémantique des Rôles en Arabe [document électronique] / Hadjer Chergui, Auteur ; Mahmoud Mouhib Eddine Boucenna, Auteur ; Lakhfif, Abdelaziz, Directeur de thèse . - [S.l.] : Sétif:UFA1, 2024 . - 1 vol (69 f .) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Deep Learning
Étiquetage des Rôles Sémantiques
Arabe
TAL
RNN,
BERTIndex. décimale : 004 Informatique Résumé :
Ce mémoire explore l’application du deep learning à l’étiquetage des rôles sémantiques
(SRL) en arabe, une tâche fondamentale du traitement automatique du langage naturel
(TAL). L’étiquetage des rôles sémantiques consiste à identifier les rôles sémantiques que
jouent les mots ou les expressions au sein d’une phrase, ce qui est crucial pour comprendre
le sens du texte au-delà de sa simple structure syntaxique.
Étant donné la complexité linguistique de l’arabe, notamment sa riche morphologie et
la diversité de ses dialectes, l’étiquetage des rôles sémantiques présente des défis uniques.
Ce travail adopte une approche basée sur le deep learning, en exploitant des architectures
avancées telles que les réseaux de neurones récurrents (RNN) et le Transformateur
(BERT). L’étude applique ces techniques pour améliorer les performances de l’étiquetage
des rôles sémantiques en arabe en identifiant avec précision des rôles tels que l’agent, le
thème ou le bénéficiaire.
Grâce à la mise en oeuvre de modèles de deep learning et à une évaluation rigoureuse,
ce mémoire démontre l’efficacité des techniques d’apprentissage automatique modernes
pour relever les défis spécifiques à la langue arabe. Les résultats mettent en évidence l’efficacité
de ces modèles pour améliorer les tâches de SRL, ouvrant la voie à des recherches
et développements supplémentaires dans le domaine du TAL en arabe.Note de contenu : Sommaire
1 L’étiquetage des rôles sémantiques arabes 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 L’étiquetage des rôles sémantiques . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Composantes de l’étiquetage des rôles sémantiques : . . . . . . . . . 3
1.2.2 L’importance du SRL dans le traitement automatique des langues : 4
1.3 Particularités de la langue arabe . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Écriture et Alphabet : . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Morphologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.3 Syntaxe et Grammaire : . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.4 Dialectes : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 FrameNet : Un Outil pour l’étiquetage des rôles sémantiques . . . . . . . . 6
1.4.1 Cadres Sémantiques : . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Corpus Annoté : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Approches Traditionnelles pour l’Étiquetage des Rôles Sémantiques en Arabe 7
1.5.1 Approches Basées sur des Règles . . . . . . . . . . . . . . . . . . . 7
1.5.2 Approches Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.3 Approches Basées sur l’Apprentissage Automatique . . . . . . . . . 8
1.6 Travaux connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Deep Learning 12
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Le deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 L’importance de deep Learning dans l’SRL . . . . . . . . . . . . . . . . . . 13
2.4 Fondements du Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Réseaux de Neurones Artificiels (ANNs) . . . . . . . . . . . . . . . 14
2.4.2 Perceptron Multicouche (MLP) . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Algorithme de Rétropropagation . . . . . . . . . . . . . . . . . . . 15
2.4.4 Apprentissage Supervisé et Non Supervisé . . . . . . . . . . . . . . 15
2.4.5 Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . 16
2.4.6 Recurrent Neural Networks (RNNs) . . . . . . . . . . . . . . . . . 16
2.4.7 Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.8 BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.9 Optimisation et Régularisation . . . . . . . . . . . . . . . . . . . . 22
2.5 Entraînement et Optimisation des Modèles de Deep Learning . . . . . . . 22
2.5.1 Fonction de Coût (Loss Function) . . . . . . . . . . . . . . . . . . . 23
2.5.2 Algorithmes d’Optimisation . . . . . . . . . . . . . . . . . . . . . . 23
2.5.3 La régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.4 Ensemble de Données d’Entraînement et de Validation . . . . . . . 25
2.6 Évaluation des modèles de Deep Learning . . . . . . . . . . . . . . . . . . 27
2.6.1 Métriques d’Évaluation . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2 Courbes d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.3 Tests de Significativité Statistique . . . . . . . . . . . . . . . . . . . 28
2.6.4 Évaluation Post-Production . . . . . . . . . . . . . . . . . . . . . . 29
2.7 Applications du l’pprentissage en profondeur dans TAL . . . . . . . . . . . 29
2.8 L’impact de l’apprentissage profond sur le SRL . . . . . . . . . . . . . . . 29
2.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Analyse Expérimentale et Évaluation des Modèles 32
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Frameworks et outils d’implémentation . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 Tensorflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.3 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.4 Google Colab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Paramètres expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.1 Métriques d’évaluation des modèles . . . . . . . . . . . . . . . . . . 34
3.3.2 Taux d’apprentissage (Learning Rate) . . . . . . . . . . . . . . . . . 37
3.3.3 Nombre d’époques . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.4 Taille du lot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.5 Fonction d’activation . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.6 Loss function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Expérimenter avec RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.1 Téléchargement et nettoyage du dataset . . . . . . . . . . . . . . . 42
3.4.2 Prétraitement du texte . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.3 Gestion des Labels . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.4 Séparation des données . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.5 Construire le modèle RNN . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.6 Entraîner le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5 Expérimenter avec BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.1 1er modèle BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.2 2ème modèle BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.3 3eme modèle BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.4 Comparaison du deuxième et troisième code BERT. . . . . . . . . . 57
3.6 Résultat final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.1 Résultat RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.2 Résultats de Bert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Côte titre : MAI/0940 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0940 MAI/0940 Mémoire Bibliothéque des sciences Français Disponible
Disponible