Catalogue en ligne

University Sétif 1 FERHAT ABBAS Faculty of Sciences

Nouvelle recherche

Document: texte imprimé

Identifying and categorizing offensive language in social media / Idir,Imane

pdf

Public
ISBD

Titre :	Identifying and categorizing offensive language in social media
Type de document :	texte imprimé
Auteurs :	Idir,Imane, Auteur ; Sadik Bessou, Directeur de thèse
Editeur :	Setif:UFA
Année de publication :	2020
Importance :	1 vol (68 f .)
Format :	29 cm
Langues :	Français (fre)
Catégories :	Thèses & Mémoires:Informatique
Mots-clés :	Langage offensif Apprentissage automatique Traitement du langage naturel
Index. décimale :	004 - Informatique
Résumé :	L’utilisation d’un langage offensant sur différentes plateformes de réseaux sociaux devient un phénomène qui doit être combattu. Comme le filtrage manuel est très difficile, Au cours des dernières années, il y a eu plusieurs études visant à automatiser ce processus. Le but de cette mémoire est le développement d’un système pour identifier et catégoriser la langue arabe offensive dans Facebook et YouTube, en utilisant des techniques de technologie de langue telles que le traitement du langage naturel et l’apprentissage automatique. À cette fin, nous avons créé un nouvel dataset pour la détection de la langue arabe offensive, couvrant l’arabe standard moderne et le dialecte algérien. En outre, nous avons proposé une nouvelle annotation, le contenu offensant peut être classé en quatre catégories qui sont : Malédiction, humiliation et insulte, mots obscènes et haine raciale, en plus de la catégorie non-offensive. Notre projet est divisé en sous-tâches de remorquage. Dans la sous-tâche A, nous identifions et classons le contenu offensant en une seule étape. Tandis que dans la sous-tâche B, nous identifions et classons le langage offensant en deux étapes : dans la première étape, nous déterminons si un commentaire est offensant ou non offensant. Dans la deuxième étape, nous identifions la catégorie de commentaires offensants. Notre étude montre un impact significatif pour l’application de la grille de recherche pour sélectionner les meilleures combinaisons de N-grammes avec les fonctionnalités BOW et TF-IDF. Au cours de l’entraînement, l’utilisation de la TF-IDF avec N-grammes a atteint le rendement global le plus élevé. Le système proposé a atteint des précisions de 84,78 %, 89,21 % et 84,48 % pour la sous-tâche A, la sous-tâche B (première étape) et la sous-tâche B (deuxième étape) respectivement, en utilisant des classificateurs SGDClassifier et LinearSVC. Dataset de cette expérience est disponible pour d’autres chercheurs qui souhaitent améliorer cette étude.
Côte titre :	MAI/0422
En ligne :	https://drive.google.com/file/d/1IEcYNDLeLCehP3XfeBbLIVqIF7LRd11-/view?usp=shari [...]
Format de la ressource électronique :	pdf

Exemplaires (1)

Code-barres	Cote	Support	Localisation	Section	Disponibilité
MAI/0422	MAI/0422	Mémoire	Bibliothéque des sciences	Français	Disponible Disponible

A-
A
A+

Accueil

Se connecter

Mot de passe oublié ?

Adresse

Université Sétif -1- faculté des sciences el bez Sétif
19000 Sétif
Algérie

Horaires d'ouverture :

Dimanche:  8:00h-16h30
Lundi:         8:00h-16h30
Mardi:         8:00h-16h30
Mercredi:    8:00h-16h30
Jeudi:         8:00h-16h30