Catalogue en ligne

University Sétif 1 FERHAT ABBAS Faculty of Sciences

Nouvelle recherche

Document: texte imprimé

Data science par analyse des donn©es symboliques / Afonso, Filipe

Public
ISBD

Titre :	Data science par analyse des donn©es symboliques : Une nouvelle fa§on d'analyser les donn©es classiques, complexes et massives partir des classes ; applications avec Syr et R
Type de document :	texte imprimé
Auteurs :	Afonso, Filipe, ; Edwin Diday, ; Toque, Carole,
Editeur :	Paris : ditions Technip
Année de publication :	2018.
Importance :	1 vol. (435 p.)
Présentation :	ill., tabl., graph., couv. ill.
Format :	24 cm.
ISBN/ISSN/EAN :	978-2-7108-1181-7
Note générale :	978-2-7108-1181-7
Langues :	Français (fre)
Catégories :	Informatique
Mots-clés :	Analyse des données symboliques Exploration de données Données massives
Index. décimale :	006.3 Intelligence artificielle
Résumé :	a numérisation croissante de notre société alimente des bases de données de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables) et peuvent être la source de création de valeur considérable à condition qu'elles soient exploitées avec des méthodes d'analyse adéquates. Un « Data Scientist » a justement pour objectif d'extraire des connaissances de ce type de données et c'est l'objectif de cet ouvrage. Les classes constituent un pivot central de la découverte de connaissances. En Analyse des Données Symboliques (ADS), les classes sont décrites par des variables dites symboliques prenant en compte leur variabilité interne sous forme de distributions, d'intervalles, d'histogrammes, de diagrammes de fréquences, etc. Le livre débute par la construction de différents types de variables symboliques à partir de classes données. Des statistiques descriptives, une méthode de discrétisation automatique adaptée aux données massives (Big Data) suivies par des indices de proximité étendus aux données symboliques y sont présentés. Vient ensuite un ensemble de méthodes présenté dans le contexte de l'ADS. Il s'agit de la méthode des nuées dynamiques (M\D), de la décomposition de mélange par partition (issue de la MND) ou par partition floue (EM), de l'analyse en composantes principales, de l'algorithme Apriori, des règles d'association et des arbres de décision. Pour la prévision, le livre présente des méthodes de régressions dont celles pénalisées « ridge », « lasso » et « elastic », et des séries temporelles. Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'industriels, de financiers et de scientifiques sont proposés. Leur mise en oeuvre s'appuie aussi bien sur le logiciel innovant Syr que sur le logiciel statistique R. Cet ouvrage d'introduction à l'ADS s'adresse aux étudiants, aux ingénieurs, aux universitaires, ainsi qu'à tous ceux qui désirent comprendre cette nouvelle façon de penser en Science des Données." [Cit. 4e de couverture]
Note de contenu :	Sommaire Avant-proposV Table des matières1 Introduction générale7 1. Des données classiques aux données symboliques11 1.1 Des individus aux classes11 1.2 Des variables classiques aux variables symboliques14 1.3 Processus d'agrégation et variables symboliques associées22 1.4 Formalisation de quelques variables symboliques27 1.4.1 Les variables multivaluées28 1.4.2 Les variables à valeurs intervalle28 1.4.3 Les variables catégorielles multivaluées29 1.4.4 Les variables modales30 1.4.5 Les variables à valeur histogramme30 1.4.6 Les variables à valeur diagramme de fréquences31 1.5 Des variables classiques non appariées aux variables symboliques : le cas des données complexes31 1.6 Intérêt de la description de classes par des données symboliques33 1.7 Quelques principes de base36 1.7.1 Classes considérées comme objets à décrire selon ses différentes facettes36 1.7.2 La prise en compte de la variabilité interne aux classes36 1.7.3 Dans l'interprétation, bien différencier les effets des causes37 1.7.4 Le principe de généralisation38 1.8 Quels sont les domaines d'application privilégiés de l'ADS ?38 2. Analyse descriptive pour des variables symboliques41 2.1 Statistiques élémentaires pour les variables à valeur intervalle42 2.2 Statistiques élémentaires pour les variables à valeur histogramme45 2.3 Calcul automatique d'histogrammes discriminants pour les classes48 2.3.1 Discrétisation pour une variable continue et algorithme de Fisher50 2.3.2 Qu'est-ce que la discrimination entre classes ?54 2.3.3 Une solution optimale : la méthode HistSyr55 2.3.4 Une extension d'HistSyr au Big Data57 3. Indices de proximité75 3.1 Dissimilarité pour une variable76 3.1.1 Cas multivalué (Hausdorff, Minkowsky, Jaccard et Ichino)76 3.1.2 Cas modal (L et Hellinger)78 3.2 Dissimilarité entre plusieurs variables79 3.3 La distance de Wassertein80 4. Classification automatique83 4.1 K-means et nuées dynamiques84 4.2 La décomposition de mélange par partitions (MND) ou par partition floue (EM)87 4.2.1 Par la Méthode des Nuées Dynamiques (MND)87 4.2.2 Par l'algorithme d'Estimation-Maximisation (EM)87 4.2.3 Construction d'un tableau de données symboliques post Nuées dynamiques ou EM89 4.3 Une extension de la méthode des nuées dynamiques aux données symboliques92 4.3.1 Un choix de représentation d'une classe dans le cas de données symboliques92 4.3.2 Critère d'affectation dans le cas symbolique où les noyaux sont des prototypes93 4.3.3 Exemple95 5. ACP étendue aux données symboliques99 5.1 Technique « classique »100 5.2 Méthodes pour les variables à valeur intervalle105 5.2.1 Technique par les centres106 5.2.2 Technique par les sommets107 5.2.3 Technique par les centres et les rayons109 5.2.4 Technique par les fonctions de variance-covariance symboliques113 5.3 Méthodes pour les variables à valeur histogramme117 5.3.1 Technique par les variables « catégories », « globales » et « quadrants »118 5.3.2 Technique par les moyennes après codage des catégories126 6. Extension des règles d'association133 6.1 Règles d'association classiques et algorithmes d'extractions134 6.1.1 L'algorithme Apriori pour l'extraction de règles d'association classiques134 6.1.2 Extension des règles d'association classiques dans la littérature139 6.2 Algorithme Apriori, règles d'association et données symboliques143 6.2.1 Entrée de notre algorithme : un tableau de données symboliques143 6.2.2 Objets symboliques et règles d'association symboliques145 6.2.3 Définitions du support et de la confiance dans le cas de nos données symboliques147 6.2.4 Algorithme Apriori symbolique (SApriori)154 6.3 Règles d'association classiques versus symboliques164 6.4 Complémentarité des règles d'association classiques et symboliques167 7. Arbre de décision175 7.1 Description d'un arbre de décision classique175 7.1.1 Les variables explicatives / à expliquer177 7.1.2 Les noeuds terminaux / non terminaux177 7.1.3 Ensembles d'apprentissage / de test178 7.1.4 Entrées / sorties d'un arbre de décision178 7.1.5 Construction et élagage d'un arbre179 7.2 Extension des arbres de décision aux données symboliques182 7.2.1 Les méthodes symboliques182 7.2.2 Les arbres de décision étendus aux données symboliques avec la methode SyrTree185 7.2.3 Cas où la variable à expliquer est la classe (ou objet) symbolique185 7.2.4 Cas où la variable à expliquer est une variable histogramme191 7.3 Exemple illustratif193 8. Prévision de données symboliques199 8.1 Régression linéaire à valeur intervalle199 8.1.1 Méthode classique200 8.1.2 Méthode par les centres des intervalles202 8.1.3 Méthodes par les centres et les étendues des intervalles : cadre univarié et bivarié203 8.1.4 Méthode par les fonctions de variance-covariance symboliques206 8.1.5 Comparaison des méthodes208 8.2 Régressions linéaires pénalisées à valeur intervalle209 8.2.1 Régressions « ridge », « lasso » et « elastic standard »209 8.2.2 Régressions pénalisées pour les intervalles211 8.3 Séries temporelles à valeur intervalle215 8.3.1 Cas classique et stationnaire (linéaire et non linéaire) : rappels215 8.3.2 Méthodes symboliques : cadre stationnaire226 8.3.3 Méthode symbolique par les k plus proches voisins : cas non stationnaire229 8.3.4 Comparaison des méthodes230 9. Exercices d'application avec R et Syr231 9.1 Variabilité externe pour des données en finance de type intervalle231 9.2 Statistiques descriptives sur des données en finance de type intervalle235 9.3 ACP sur les cours « Lehman Brothers » de type intervalle240 9.4 ACP sur les cours « Lehman Brothers » de type histogramme252 9.5 Distance de Wasserstein sur les données de prismes257 9.6 Régression sur intervalles pour les cours « Lehman Brothers »263 9.7 Prévision journalière et par intervalle des cours « Lehman Brothers »277 10.293 10.1 Étude de la dégradation des tours de refroidissement des centrales nucléaires EDF293 10.1.1 Les mesures de surveillance de la dégradation des tours de refroidissement294 10.1.2 Étude de la dégradation des tours et comparaison des tours entre elles296 10.1.3 Conclusion305 10.2 Étude de l'influence des conditions environnementales sur la corrosion du béton armé306 10.2.1 Programme expérimental306 10.2.2 Données symboliques et nouveaux seuils de corrosion309 10.2.3 Proximités entre agressions : l'exemple de la variable Ecorr316 10.2.4 Résultats sur les corrélations entre Icorr et Ecorr, et entre Icorr et Re319 10.3 Classification et arbre de décision pour les trajectoires de prise en charge des patients atteints d'un cancer du colo-rectum321 10.3.1 Données322 10.3.2 Résultats325 10.3.3 Bilan328 10.3.4 Conclusion329 10.4 Extraction de thématiques sur un corpus de documents issus d'appels téléphoniques331 10.4.1 Présentation des données initiales331 10.4.2 Objectifs de l'étude et stratégie de résolution332 10.4.3 Construction, visualisation et classification des tableaux de données334 10.4.4 Sélection automatique des mots d'intérêt337 10.4.5 Conclusion339 10.5 « Symbolic covariance ACP » et régression sur des données de type intervalle en épidémiologie vétérinaire340 10.5.1 Données340 10.5.2 Statistiques pour variables à valeur intervalle342 10.5.3 Résultats de la « Symbolic Covariance PCA »343 10.5.4 Résultats de la « Symbolic Cavariance Regression »346 10.5.5 Conclusion347 10.6 Mesures de Value at Risk à valeur histogramme : une approche symbolique pour l'attribution du risque348 10.6.1 À propos des fonds alternatifs et des mesures de VaR348 10.6.2 Traitements sur les données349 10.6.3 Résultats de l'ACP par les variables « globales » et « catégories »352 10.6.4 Résultats de la classification par nuées dynamiques355 10.6.5 Conclusion360 10.7 Analyse des données de capteurs (Big Data)361 10.7.1 Présentation des données initiales361 10.7.2 Recherche des histogrammes les plus discriminations avec CloudHistSyr362 Conclusion373 Annexe 1 : le logiciel SYR375 Annexe 2 : des modules de R pour l'ADS385 Annexe 3 : des pistes de recherche et de développement409
Côte titre :	Fs/23305

vignette

Exemplaires (1)

Code-barres	Cote	Support	Localisation	Section	Disponibilité
Fs/23305	Fs/23305	livre	Bibliothèque des sciences	Français	Disponible Disponible

A-
A
A+

Accueil

Se connecter

Mot de passe oublié ?

Adresse

Université Sétif -1- faculté des sciences el bez Sétif
19000 Sétif
Algérie

Horaires d'ouverture :

Dimanche:  8:00h-16h30
Lundi:         8:00h-16h30
Mardi:         8:00h-16h30
Mercredi:    8:00h-16h30
Jeudi:         8:00h-16h30