University Sétif 1 FERHAT ABBAS Faculty of Sciences
Détail de l'auteur
Auteur Haffar, maroua |
Documents disponibles écrits par cet auteur



Titre : La tolérance dans la recherche d'information sur le web Type de document : texte imprimé Auteurs : Haffar, maroua ; BOUCHOUL,F, Directeur de thèse Editeur : Setif:UFA Année de publication : 2017 Importance : 1 vol (57f.) Format : 29 cm Langues : Français (fre) Catégories : Thèses & Mémoires:Informatique Mots-clés : Génie Logiciel
recherche d’information
pertinente
performances
tolérance
fautes d’orthographesIndex. décimale : 004 Informatique Résumé : Conclusion générale
Le travail présenté dans ce mémoire de master s’est porté essentiellement sur la recherche
d’information sur le web en particulier la tolérance dans la RI sur le Web.
Après l’étude bibliographique, nous avons constaté que la recherche d’information est reliée Ã
la définition des modèles et des systèmes, afin de faciliter l’accès à un ensemble de documents,
et que le rapide développement du volume du web, nous a mené plus exigeants en matières de
performance. Plus que les résultats sont conformes aux requêtes des utilisateurs, plus le moteur
de recherche est performant. Pour pouvoir être performant il faut que le moteur puisse s’adapter
aux habitudes de recherche des usagers en gérant les requêtes en prenant en compte les erreurs
orthographique, donc d’être tolérant aux fautes.
L’objectif de ce travail était de réaliser un moteur de recherche dit Desktop qui combine la
recherche (la requête) de l’utilisateur et les fichiers stockés sur le PC, autrement dit un moteur
qui permet de trouver pour une requête donnée l’ensemble des documents qui la correspondent,
ceci dans le but non seulement d’effectuer une recherche rapide et efficace aussi de permettre
à l’usager d’effectuer une recherche tolérante en prendre en compte ses erreurs d’orthographes
commises dans sa requête.
Après la réalisation de notre moteur les résultats montré bien que le temps de recherche est
estimé en millisecondes, donc notre recherche est efficace et rapide. Du coté tolérance le moteur
peut suggérer des corrections de presque 70% des fautes d’orthographes commises.
Néanmoins les résultats de ce modeste travail constituent les bases d’un travail à poursuivre et
à améliorer pour une éventuelle étude beaucoup plus approfondie et des résultats plus parfaits.Note de contenu : Table des matières
Introduction générale.............................................................................................................................
Organisation du mémoire ......................................................................................................................
Chapitre 1 : La recherche d’information sur le web. ........................................................................2
Introduction..........................................................................................................3
1. La Recherche d’information RI : ..........................................................................................4
1.1 Définitions :....................................................................................................................4
1.2 Concepts de base de la RI :.............................................................................................4
2. Les Systèmes de recherche d’informations SRI :....................................................................5
2.1 Processus de recherche d’information : ..........................................................................6
2.1.1 Les différents éléments du processus de RI : ..........................................................7
2.1.2 L’indexation : .........................................................................................................9
2.1.3 L’appariement document / requête..........................................................................9
2.1.4 Mécanismes de reformulation de requête..............................................................10
3. Les Modèles de recherche d’information :............................................................................10
3.1 Le modèle booléen : .....................................................................................................11
3.2 Le modèle vectoriel : ....................................................................................................11
3.3 Le modèle probabiliste : ...............................................................................................12
4. La recherche d’information sur le web : ...............................................................................12
4.1 Le volume du Web : .....................................................................................................12
4.2 Outils de recherche d’information : ..............................................................................13
4.2.1 Les moteurs de recherche :....................................................................................13
4.2.2 Les annuaires : ......................................................................................................14
4.2.3 Les métas modèles :..............................................................................................14
Conclusion ........................................................................................................................15
Chapitre 2 : La tolérance dans la recherche d’information sur le web. .........................................16
Introduction...............................................................................................................17
1. La tolérance orthographique et lexicale :..............................................................................18
2. Les techniques robustes aux erreurs typographiques et aux fautes d’orthographes :.............19
2.1 Structures de recherche :...............................................................................................19
2.1.1 Un dictionnaire :........................................................................................................19
2.1.2 Les tables Hachage : .............................................................................................19
2.1.3 Les arbres de recherche :.......................................................................................20
2.2 Les requêtes génériques « Wildcards queries» :............................................................22
2.2.1 Permu-Termes : ....................................................................................................22
2.2.2 Les index N-grammes :.........................................................................................23
2.3 Correction d’orthographe (Spelling correction) :..........................................................24
2.3.1 Les formes de correction d’orthographe : .............................................................24
2.3.2 Comment un correcteur d’orthographe fonctionne ?.............................................25
2.3.3 Comment mesurer la similarité ? ..........................................................................25
2.3.3.1 La distance de Jaccard (coefficient de Jaccard) :................................................26
2.3.3.2 Les index K-grammes pour correction d’orthographe : .....................................27
2.3.3.3 Jaccard et les k-grammes :.................................................................................28
2.3.3.4 La distance d’édition (Levenshtein distance).....................................................29
2.4 Correction phonétique (Phonetic correction) : ..............................................................29
Conclusion .................................................................................................................30
Chapitre 3 :Proposition d’une approche de RI tolérante aux fautes d’orthographe phonétiques............32
Introduction.....................................................................................................33
1 L’indexation des documents :...............................................................................................34
1.1 L’analyse lexicale (Segmentation-Tokenisation) :........................................................35
1.2 L’élimination des mots vides (sélection) : ....................................................................35
1.3 La normalisation (lemmatisation ou radicalisation) :....................................................36
1.4 La construction de l’index : ..........................................................................................37
1.4.1 Le principe de l’algorithme Blocked sort-based indexing :...................................38
2. Construction du correcteur d’orthographe phonétique :........................................................40
2.1 La distance d’édition (Levenshtein Distance) : .............................................................40
2.2 L’algorithme phonétique Soundex :..............................................................................42
2.3 Le fonctionnement du correcteur phonétique :..............................................................43
3. Fonctionnement du moteur de recherche :............................................................................44
Conclusion .......................................................................................................................................45
Chapitre 4 : Implémentation. ............................................................................................................46
Introduction......................................................................................................................................47
1. Outils utilisés :......................................................................................................................47
1.1 Environnement de développement :..............................................................................47
1.1.1 Eclipse : ................................................................................................................47
1.1.2 WindowBuilder : ..................................................................................................47
1.1.3 Langage JAVA : ...................................................................................................48
2. Implémentation :...................................................................................................................48
2.1 IndexationBSBI (Blocked sort-based indexing): ..........................................................49
2.2 Correcteur orthographique :..........................................................................................52
3. Tests : ...................................................................................................................................54
4. Résultats : ............................................................................................................................57
Conclusion .......................................................................................................................57
Conclusion générale ....................................................................................................
Bibliographie....................................................................................................................Côte titre : MAI/0182 En ligne : https://drive.google.com/file/d/1yJzfvctRHEiuildYiAjRPLKs1gB8bWPx/view?usp=shari [...] Format de la ressource électronique : La tolérance dans la recherche d'information sur le web [texte imprimé] / Haffar, maroua ; BOUCHOUL,F, Directeur de thèse . - [S.l.] : Setif:UFA, 2017 . - 1 vol (57f.) ; 29 cm.
Langues : Français (fre)
Catégories : Thèses & Mémoires:Informatique Mots-clés : Génie Logiciel
recherche d’information
pertinente
performances
tolérance
fautes d’orthographesIndex. décimale : 004 Informatique Résumé : Conclusion générale
Le travail présenté dans ce mémoire de master s’est porté essentiellement sur la recherche
d’information sur le web en particulier la tolérance dans la RI sur le Web.
Après l’étude bibliographique, nous avons constaté que la recherche d’information est reliée Ã
la définition des modèles et des systèmes, afin de faciliter l’accès à un ensemble de documents,
et que le rapide développement du volume du web, nous a mené plus exigeants en matières de
performance. Plus que les résultats sont conformes aux requêtes des utilisateurs, plus le moteur
de recherche est performant. Pour pouvoir être performant il faut que le moteur puisse s’adapter
aux habitudes de recherche des usagers en gérant les requêtes en prenant en compte les erreurs
orthographique, donc d’être tolérant aux fautes.
L’objectif de ce travail était de réaliser un moteur de recherche dit Desktop qui combine la
recherche (la requête) de l’utilisateur et les fichiers stockés sur le PC, autrement dit un moteur
qui permet de trouver pour une requête donnée l’ensemble des documents qui la correspondent,
ceci dans le but non seulement d’effectuer une recherche rapide et efficace aussi de permettre
à l’usager d’effectuer une recherche tolérante en prendre en compte ses erreurs d’orthographes
commises dans sa requête.
Après la réalisation de notre moteur les résultats montré bien que le temps de recherche est
estimé en millisecondes, donc notre recherche est efficace et rapide. Du coté tolérance le moteur
peut suggérer des corrections de presque 70% des fautes d’orthographes commises.
Néanmoins les résultats de ce modeste travail constituent les bases d’un travail à poursuivre et
à améliorer pour une éventuelle étude beaucoup plus approfondie et des résultats plus parfaits.Note de contenu : Table des matières
Introduction générale.............................................................................................................................
Organisation du mémoire ......................................................................................................................
Chapitre 1 : La recherche d’information sur le web. ........................................................................2
Introduction..........................................................................................................3
1. La Recherche d’information RI : ..........................................................................................4
1.1 Définitions :....................................................................................................................4
1.2 Concepts de base de la RI :.............................................................................................4
2. Les Systèmes de recherche d’informations SRI :....................................................................5
2.1 Processus de recherche d’information : ..........................................................................6
2.1.1 Les différents éléments du processus de RI : ..........................................................7
2.1.2 L’indexation : .........................................................................................................9
2.1.3 L’appariement document / requête..........................................................................9
2.1.4 Mécanismes de reformulation de requête..............................................................10
3. Les Modèles de recherche d’information :............................................................................10
3.1 Le modèle booléen : .....................................................................................................11
3.2 Le modèle vectoriel : ....................................................................................................11
3.3 Le modèle probabiliste : ...............................................................................................12
4. La recherche d’information sur le web : ...............................................................................12
4.1 Le volume du Web : .....................................................................................................12
4.2 Outils de recherche d’information : ..............................................................................13
4.2.1 Les moteurs de recherche :....................................................................................13
4.2.2 Les annuaires : ......................................................................................................14
4.2.3 Les métas modèles :..............................................................................................14
Conclusion ........................................................................................................................15
Chapitre 2 : La tolérance dans la recherche d’information sur le web. .........................................16
Introduction...............................................................................................................17
1. La tolérance orthographique et lexicale :..............................................................................18
2. Les techniques robustes aux erreurs typographiques et aux fautes d’orthographes :.............19
2.1 Structures de recherche :...............................................................................................19
2.1.1 Un dictionnaire :........................................................................................................19
2.1.2 Les tables Hachage : .............................................................................................19
2.1.3 Les arbres de recherche :.......................................................................................20
2.2 Les requêtes génériques « Wildcards queries» :............................................................22
2.2.1 Permu-Termes : ....................................................................................................22
2.2.2 Les index N-grammes :.........................................................................................23
2.3 Correction d’orthographe (Spelling correction) :..........................................................24
2.3.1 Les formes de correction d’orthographe : .............................................................24
2.3.2 Comment un correcteur d’orthographe fonctionne ?.............................................25
2.3.3 Comment mesurer la similarité ? ..........................................................................25
2.3.3.1 La distance de Jaccard (coefficient de Jaccard) :................................................26
2.3.3.2 Les index K-grammes pour correction d’orthographe : .....................................27
2.3.3.3 Jaccard et les k-grammes :.................................................................................28
2.3.3.4 La distance d’édition (Levenshtein distance).....................................................29
2.4 Correction phonétique (Phonetic correction) : ..............................................................29
Conclusion .................................................................................................................30
Chapitre 3 :Proposition d’une approche de RI tolérante aux fautes d’orthographe phonétiques............32
Introduction.....................................................................................................33
1 L’indexation des documents :...............................................................................................34
1.1 L’analyse lexicale (Segmentation-Tokenisation) :........................................................35
1.2 L’élimination des mots vides (sélection) : ....................................................................35
1.3 La normalisation (lemmatisation ou radicalisation) :....................................................36
1.4 La construction de l’index : ..........................................................................................37
1.4.1 Le principe de l’algorithme Blocked sort-based indexing :...................................38
2. Construction du correcteur d’orthographe phonétique :........................................................40
2.1 La distance d’édition (Levenshtein Distance) : .............................................................40
2.2 L’algorithme phonétique Soundex :..............................................................................42
2.3 Le fonctionnement du correcteur phonétique :..............................................................43
3. Fonctionnement du moteur de recherche :............................................................................44
Conclusion .......................................................................................................................................45
Chapitre 4 : Implémentation. ............................................................................................................46
Introduction......................................................................................................................................47
1. Outils utilisés :......................................................................................................................47
1.1 Environnement de développement :..............................................................................47
1.1.1 Eclipse : ................................................................................................................47
1.1.2 WindowBuilder : ..................................................................................................47
1.1.3 Langage JAVA : ...................................................................................................48
2. Implémentation :...................................................................................................................48
2.1 IndexationBSBI (Blocked sort-based indexing): ..........................................................49
2.2 Correcteur orthographique :..........................................................................................52
3. Tests : ...................................................................................................................................54
4. Résultats : ............................................................................................................................57
Conclusion .......................................................................................................................57
Conclusion générale ....................................................................................................
Bibliographie....................................................................................................................Côte titre : MAI/0182 En ligne : https://drive.google.com/file/d/1yJzfvctRHEiuildYiAjRPLKs1gB8bWPx/view?usp=shari [...] Format de la ressource électronique : Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité MAI/0182 MAI/0182 Mémoire Bibliothéque des sciences Français Disponible
Disponible