Titre : |
Identifying and categorizing offensive language in social media |
Type de document : |
texte imprimé |
Auteurs : |
Idir,Imane, Auteur ; Sadik Bessou, Directeur de thèse |
Editeur : |
Setif:UFA |
Année de publication : |
2020 |
Importance : |
1 vol (68 f .) |
Format : |
29 cm |
Langues : |
Français (fre) |
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Langage offensif
Apprentissage automatique
Traitement du langage naturel |
Index. décimale : |
004 - Informatique |
Résumé : |
L’utilisation d’un langage offensant sur différentes plateformes de réseaux sociaux devient
un phénomène qui doit être combattu. Comme le filtrage manuel est très difficile, Au cours des
dernières années, il y a eu plusieurs études visant à automatiser ce processus.
Le but de cette mémoire est le développement d’un système pour identifier et catégoriser la
langue arabe offensive dans Facebook et YouTube, en utilisant des techniques de technologie de
langue telles que le traitement du langage naturel et l’apprentissage automatique.
À cette fin, nous avons créé un nouvel dataset pour la détection de la langue arabe offensive,
couvrant l’arabe standard moderne et le dialecte algérien. En outre, nous avons proposé une nouvelle
annotation, le contenu offensant peut être classé en quatre catégories qui sont : Malédiction,
humiliation et insulte, mots obscènes et haine raciale, en plus de la catégorie non-offensive.
Notre projet est divisé en sous-tâches de remorquage. Dans la sous-tâche A, nous identifions
et classons le contenu offensant en une seule étape. Tandis que dans la sous-tâche B, nous identifions
et classons le langage offensant en deux étapes : dans la première étape, nous déterminons
si un commentaire est offensant ou non offensant. Dans la deuxième étape, nous identifions la
catégorie de commentaires offensants.
Notre étude montre un impact significatif pour l’application de la grille de recherche pour
sélectionner les meilleures combinaisons de N-grammes avec les fonctionnalités BOW et TF-IDF.
Au cours de l’entraînement, l’utilisation de la TF-IDF avec N-grammes a atteint le rendement
global le plus élevé. Le système proposé a atteint des précisions de 84,78 %, 89,21 % et 84,48
% pour la sous-tâche A, la sous-tâche B (première étape) et la sous-tâche B (deuxième étape)
respectivement, en utilisant des classificateurs SGDClassifier et LinearSVC. Dataset de cette expérience
est disponible pour d’autres chercheurs qui souhaitent améliorer cette étude. |
Côte titre : |
MAI/0422 |
En ligne : |
https://drive.google.com/file/d/1IEcYNDLeLCehP3XfeBbLIVqIF7LRd11-/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
Identifying and categorizing offensive language in social media [texte imprimé] / Idir,Imane, Auteur ; Sadik Bessou, Directeur de thèse . - [S.l.] : Setif:UFA, 2020 . - 1 vol (68 f .) ; 29 cm. Langues : Français ( fre)
Catégories : |
Thèses & Mémoires:Informatique
|
Mots-clés : |
Langage offensif
Apprentissage automatique
Traitement du langage naturel |
Index. décimale : |
004 - Informatique |
Résumé : |
L’utilisation d’un langage offensant sur différentes plateformes de réseaux sociaux devient
un phénomène qui doit être combattu. Comme le filtrage manuel est très difficile, Au cours des
dernières années, il y a eu plusieurs études visant à automatiser ce processus.
Le but de cette mémoire est le développement d’un système pour identifier et catégoriser la
langue arabe offensive dans Facebook et YouTube, en utilisant des techniques de technologie de
langue telles que le traitement du langage naturel et l’apprentissage automatique.
À cette fin, nous avons créé un nouvel dataset pour la détection de la langue arabe offensive,
couvrant l’arabe standard moderne et le dialecte algérien. En outre, nous avons proposé une nouvelle
annotation, le contenu offensant peut être classé en quatre catégories qui sont : Malédiction,
humiliation et insulte, mots obscènes et haine raciale, en plus de la catégorie non-offensive.
Notre projet est divisé en sous-tâches de remorquage. Dans la sous-tâche A, nous identifions
et classons le contenu offensant en une seule étape. Tandis que dans la sous-tâche B, nous identifions
et classons le langage offensant en deux étapes : dans la première étape, nous déterminons
si un commentaire est offensant ou non offensant. Dans la deuxième étape, nous identifions la
catégorie de commentaires offensants.
Notre étude montre un impact significatif pour l’application de la grille de recherche pour
sélectionner les meilleures combinaisons de N-grammes avec les fonctionnalités BOW et TF-IDF.
Au cours de l’entraînement, l’utilisation de la TF-IDF avec N-grammes a atteint le rendement
global le plus élevé. Le système proposé a atteint des précisions de 84,78 %, 89,21 % et 84,48
% pour la sous-tâche A, la sous-tâche B (première étape) et la sous-tâche B (deuxième étape)
respectivement, en utilisant des classificateurs SGDClassifier et LinearSVC. Dataset de cette expérience
est disponible pour d’autres chercheurs qui souhaitent améliorer cette étude. |
Côte titre : |
MAI/0422 |
En ligne : |
https://drive.google.com/file/d/1IEcYNDLeLCehP3XfeBbLIVqIF7LRd11-/view?usp=shari [...] |
Format de la ressource électronique : |
pdf |
|