Titre : |
Machine Learning and Deep Learning Approach for Arabic Sentiment Analysis |
Type de document : |
texte imprimé |
Auteurs : |
Laroug,Madjda Ines, Auteur ; Sadik Bessou, Directeur de thèse |
Editeur : |
Setif:UFA |
Année de publication : |
2020 |
Importance : |
1 vol (68 f .) |
Format : |
29 cm |
Langues : |
Français (fre) |
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Traitement du Langage Naturel
Analyse des Sentiments
Sélection de Fonctionnalités |
Index. décimale : |
004 - Informatique |
Résumé : |
La classification de texte est une application incroyablement utile de l’apprentissage automatique
et de l’apprentissage en profondeur. Elle consiste à attribuer un document textuel à une
classe. Aujourd’hui, l’analyse des sentiments est l’un des domaines de recherche à la croissance
la plus rapide en informatique, mais il manque actuellement encore l’interprétation de la
1
langue arabe. Par conséquent, nous créons un nouvel ensemble de données de commentaires et
de publications en arabe et résolvons des problèmes de classification binaire et quadruple.
Dans cette thèse, nous présentons les détails de la collecte d’un grand ensemble de données
"corpus" des commentaires et des publications en langue arabe provenant de plateformes
de médias sociaux. Les techniques utilisées pour le prétraitement de l’ensemble de données
collectées sont expliquées. Nous présentons nos quatre classes : positive, négative, mixte et
neutre. Différents algorithmes d’apprentissage automatique (ML) ont été utilisés pour classer
les commentaires : Bayes Naïves multinomiales, Bernoulli Bayes Naïves de, Régression Logistique,
Machine à Vecteurs de Support, Forêt Aléatoire et Descente de Gradient Stochastique.
L’application de ces algorithmes a révélé que l’algorithme Naïve Bayes fonctionne bien pour
la classification des textes pour les données d’apprentissage de petite taille et nous avons pu
atteindre une précision de 94,71% sur la classification en deux classes en utilisant le Multinomial
Naïve Bayes algorithme avec tfidfVectorizer en combinant les fonctionnalités unigrammes
et bigrammes. Sur le problème de classification quadruple, nous constatons que les meilleurs
résultats de précision obtenus en utilisant TfidfVectorizer avec le classificateur Support Vector
Machine utilisant des unigrammes est de 91,81%.
Nous avons également développé un réseau de neurones profond pour nos données en exploitant
les réseaux de neurones convolutionnels, le modèle de mémoire à long court terme et
enfin la combinaison des deux, puis nous les avons formés en fonction de différents attributs
sélectionnés. Enfin, nous décidons lequel est le meilleur pour nos données en fonction des
métriques d’évaluation. Le modèle CNN est la meilleure architecture pour les problèmes de
classification binaire et quadruple avec une précision de 93,57% et 90,84% respectivement. |
Côte titre : |
MAI/0345 |
En ligne : |
https://drive.google.com/file/d/19uWNEEwbB6J_uky9ItC6vPTtS8IyiwQF/view?usp=share [...] |
Format de la ressource électronique : |
pdf |
Machine Learning and Deep Learning Approach for Arabic Sentiment Analysis [texte imprimé] / Laroug,Madjda Ines, Auteur ; Sadik Bessou, Directeur de thèse . - [S.l.] : Setif:UFA, 2020 . - 1 vol (68 f .) ; 29 cm. Langues : Français ( fre)
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Traitement du Langage Naturel
Analyse des Sentiments
Sélection de Fonctionnalités |
Index. décimale : |
004 - Informatique |
Résumé : |
La classification de texte est une application incroyablement utile de l’apprentissage automatique
et de l’apprentissage en profondeur. Elle consiste à attribuer un document textuel à une
classe. Aujourd’hui, l’analyse des sentiments est l’un des domaines de recherche à la croissance
la plus rapide en informatique, mais il manque actuellement encore l’interprétation de la
1
langue arabe. Par conséquent, nous créons un nouvel ensemble de données de commentaires et
de publications en arabe et résolvons des problèmes de classification binaire et quadruple.
Dans cette thèse, nous présentons les détails de la collecte d’un grand ensemble de données
"corpus" des commentaires et des publications en langue arabe provenant de plateformes
de médias sociaux. Les techniques utilisées pour le prétraitement de l’ensemble de données
collectées sont expliquées. Nous présentons nos quatre classes : positive, négative, mixte et
neutre. Différents algorithmes d’apprentissage automatique (ML) ont été utilisés pour classer
les commentaires : Bayes Naïves multinomiales, Bernoulli Bayes Naïves de, Régression Logistique,
Machine à Vecteurs de Support, Forêt Aléatoire et Descente de Gradient Stochastique.
L’application de ces algorithmes a révélé que l’algorithme Naïve Bayes fonctionne bien pour
la classification des textes pour les données d’apprentissage de petite taille et nous avons pu
atteindre une précision de 94,71% sur la classification en deux classes en utilisant le Multinomial
Naïve Bayes algorithme avec tfidfVectorizer en combinant les fonctionnalités unigrammes
et bigrammes. Sur le problème de classification quadruple, nous constatons que les meilleurs
résultats de précision obtenus en utilisant TfidfVectorizer avec le classificateur Support Vector
Machine utilisant des unigrammes est de 91,81%.
Nous avons également développé un réseau de neurones profond pour nos données en exploitant
les réseaux de neurones convolutionnels, le modèle de mémoire à long court terme et
enfin la combinaison des deux, puis nous les avons formés en fonction de différents attributs
sélectionnés. Enfin, nous décidons lequel est le meilleur pour nos données en fonction des
métriques d’évaluation. Le modèle CNN est la meilleure architecture pour les problèmes de
classification binaire et quadruple avec une précision de 93,57% et 90,84% respectivement. |
Côte titre : |
MAI/0345 |
En ligne : |
https://drive.google.com/file/d/19uWNEEwbB6J_uky9ItC6vPTtS8IyiwQF/view?usp=share [...] |
Format de la ressource électronique : |
pdf |
|