Titre : |
Data science par analyse des donn©es symboliques : Une nouvelle fa§on d'analyser les donn©es classiques, complexes et massives partir des classes ; applications avec Syr et R |
Type de document : |
texte imprimé |
Auteurs : |
Afonso, Filipe, ; Edwin Diday, ; Toque, Carole, |
Editeur : |
Paris : ditions Technip |
Année de publication : |
2018. |
Importance : |
1 vol. (435 p.) |
Présentation : |
ill., tabl., graph., couv. ill. |
Format : |
24 cm. |
ISBN/ISSN/EAN : |
978-2-7108-1181-7 |
Note générale : |
978-2-7108-1181-7 |
Langues : |
Français (fre) |
Catégories : |
Informatique
|
Mots-clés : |
Analyse des données symboliques
Exploration de données
Données massives |
Index. décimale : |
006.3 Intelligence artificielle |
Résumé : |
a numérisation croissante de notre société alimente des bases de données de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables) et peuvent être la source de création de valeur considérable à condition qu'elles soient exploitées avec des méthodes d'analyse adéquates. Un « Data Scientist » a justement pour objectif d'extraire des connaissances de ce type de données et c'est l'objectif de cet ouvrage. Les classes constituent un pivot central de la découverte de connaissances. En Analyse des Données Symboliques (ADS), les classes sont décrites par des variables dites symboliques prenant en compte leur variabilité interne sous forme de distributions, d'intervalles, d'histogrammes, de diagrammes de fréquences, etc. Le livre débute par la construction de différents types de variables symboliques à partir de classes données. Des statistiques descriptives, une méthode de discrétisation automatique adaptée aux données massives (Big Data) suivies par des indices de proximité étendus aux données symboliques y sont présentés. Vient ensuite un ensemble de méthodes présenté dans le contexte de l'ADS. Il s'agit de la méthode des nuées dynamiques (M\D), de la décomposition de mélange par partition (issue de la MND) ou par partition floue (EM), de l'analyse en composantes principales, de l'algorithme Apriori, des règles d'association et des arbres de décision. Pour la prévision, le livre présente des méthodes de régressions dont celles pénalisées « ridge », « lasso » et « elastic », et des séries temporelles. Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'industriels, de financiers et de scientifiques sont proposés. Leur mise en oeuvre s'appuie aussi bien sur le logiciel innovant Syr que sur le logiciel statistique R. Cet ouvrage d'introduction à l'ADS s'adresse aux étudiants, aux ingénieurs, aux universitaires, ainsi qu'à tous ceux qui désirent comprendre cette nouvelle façon de penser en Science des Données." [Cit. 4e de couverture]
|
Note de contenu : |
Sommaire
Avant-proposV
Table des matières1
Introduction générale7
1. Des données classiques aux données symboliques11
1.1 Des individus aux classes11
1.2 Des variables classiques aux variables symboliques14
1.3 Processus d'agrégation et variables symboliques associées22
1.4 Formalisation de quelques variables symboliques27
1.4.1 Les variables multivaluées28
1.4.2 Les variables à valeurs intervalle28
1.4.3 Les variables catégorielles multivaluées29
1.4.4 Les variables modales30
1.4.5 Les variables à valeur histogramme30
1.4.6 Les variables à valeur diagramme de fréquences31
1.5 Des variables classiques non appariées aux variables symboliques : le cas des données complexes31
1.6 Intérêt de la description de classes par des données symboliques33
1.7 Quelques principes de base36
1.7.1 Classes considérées comme objets à décrire selon ses différentes facettes36
1.7.2 La prise en compte de la variabilité interne aux classes36
1.7.3 Dans l'interprétation, bien différencier les effets des causes37
1.7.4 Le principe de généralisation38
1.8 Quels sont les domaines d'application privilégiés de l'ADS ?38
2. Analyse descriptive pour des variables symboliques41
2.1 Statistiques élémentaires pour les variables à valeur intervalle42
2.2 Statistiques élémentaires pour les variables à valeur histogramme45
2.3 Calcul automatique d'histogrammes discriminants pour les classes48
2.3.1 Discrétisation pour une variable continue et algorithme de Fisher50
2.3.2 Qu'est-ce que la discrimination entre classes ?54
2.3.3 Une solution optimale : la méthode HistSyr55
2.3.4 Une extension d'HistSyr au Big Data57
3. Indices de proximité75
3.1 Dissimilarité pour une variable76
3.1.1 Cas multivalué (Hausdorff, Minkowsky, Jaccard et Ichino)76
3.1.2 Cas modal (L et Hellinger)78
3.2 Dissimilarité entre plusieurs variables79
3.3 La distance de Wassertein80
4. Classification automatique83
4.1 K-means et nuées dynamiques84
4.2 La décomposition de mélange par partitions (MND) ou par partition floue (EM)87
4.2.1 Par la Méthode des Nuées Dynamiques (MND)87
4.2.2 Par l'algorithme d'Estimation-Maximisation (EM)87
4.2.3 Construction d'un tableau de données symboliques post Nuées dynamiques ou EM89
4.3 Une extension de la méthode des nuées dynamiques aux données symboliques92
4.3.1 Un choix de représentation d'une classe dans le cas de données symboliques92
4.3.2 Critère d'affectation dans le cas symbolique où les noyaux sont des prototypes93
4.3.3 Exemple95
5. ACP étendue aux données symboliques99
5.1 Technique « classique »100
5.2 Méthodes pour les variables à valeur intervalle105
5.2.1 Technique par les centres106
5.2.2 Technique par les sommets107
5.2.3 Technique par les centres et les rayons109
5.2.4 Technique par les fonctions de variance-covariance symboliques113
5.3 Méthodes pour les variables à valeur histogramme117
5.3.1 Technique par les variables « catégories », « globales » et « quadrants »118
5.3.2 Technique par les moyennes après codage des catégories126
6. Extension des règles d'association133
6.1 Règles d'association classiques et algorithmes d'extractions134
6.1.1 L'algorithme Apriori pour l'extraction de règles d'association classiques134
6.1.2 Extension des règles d'association classiques dans la littérature139
6.2 Algorithme Apriori, règles d'association et données symboliques143
6.2.1 Entrée de notre algorithme : un tableau de données symboliques143
6.2.2 Objets symboliques et règles d'association symboliques145
6.2.3 Définitions du support et de la confiance dans le cas de nos données symboliques147
6.2.4 Algorithme Apriori symbolique (SApriori)154
6.3 Règles d'association classiques versus symboliques164
6.4 Complémentarité des règles d'association classiques et symboliques167
7. Arbre de décision175
7.1 Description d'un arbre de décision classique175
7.1.1 Les variables explicatives / Ã expliquer177
7.1.2 Les noeuds terminaux / non terminaux177
7.1.3 Ensembles d'apprentissage / de test178
7.1.4 Entrées / sorties d'un arbre de décision178
7.1.5 Construction et élagage d'un arbre179
7.2 Extension des arbres de décision aux données symboliques182
7.2.1 Les méthodes symboliques182
7.2.2 Les arbres de décision étendus aux données symboliques avec la methode SyrTree185
7.2.3 Cas où la variable à expliquer est la classe (ou objet) symbolique185
7.2.4 Cas où la variable à expliquer est une variable histogramme191
7.3 Exemple illustratif193
8. Prévision de données symboliques199
8.1 Régression linéaire à valeur intervalle199
8.1.1 Méthode classique200
8.1.2 Méthode par les centres des intervalles202
8.1.3 Méthodes par les centres et les étendues des intervalles : cadre univarié et bivarié203
8.1.4 Méthode par les fonctions de variance-covariance symboliques206
8.1.5 Comparaison des méthodes208
8.2 Régressions linéaires pénalisées à valeur intervalle209
8.2.1 Régressions « ridge », « lasso » et « elastic standard »209
8.2.2 Régressions pénalisées pour les intervalles211
8.3 Séries temporelles à valeur intervalle215
8.3.1 Cas classique et stationnaire (linéaire et non linéaire) : rappels215
8.3.2 Méthodes symboliques : cadre stationnaire226
8.3.3 Méthode symbolique par les k plus proches voisins : cas non stationnaire229
8.3.4 Comparaison des méthodes230
9. Exercices d'application avec R et Syr231
9.1 Variabilité externe pour des données en finance de type intervalle231
9.2 Statistiques descriptives sur des données en finance de type intervalle235
9.3 ACP sur les cours « Lehman Brothers » de type intervalle240
9.4 ACP sur les cours « Lehman Brothers » de type histogramme252
9.5 Distance de Wasserstein sur les données de prismes257
9.6 Régression sur intervalles pour les cours « Lehman Brothers »263
9.7 Prévision journalière et par intervalle des cours « Lehman Brothers »277
10.293
10.1 Étude de la dégradation des tours de refroidissement des centrales nucléaires EDF293
10.1.1 Les mesures de surveillance de la dégradation des tours de refroidissement294
10.1.2 Étude de la dégradation des tours et comparaison des tours entre elles296
10.1.3 Conclusion305
10.2 Étude de l'influence des conditions environnementales sur la corrosion du béton armé306
10.2.1 Programme expérimental306
10.2.2 Données symboliques et nouveaux seuils de corrosion309
10.2.3 Proximités entre agressions : l'exemple de la variable Ecorr316
10.2.4 Résultats sur les corrélations entre Icorr et Ecorr, et entre Icorr et Re319
10.3 Classification et arbre de décision pour les trajectoires de prise en charge des patients atteints d'un cancer du colo-rectum321
10.3.1 Données322
10.3.2 Résultats325
10.3.3 Bilan328
10.3.4 Conclusion329
10.4 Extraction de thématiques sur un corpus de documents issus d'appels téléphoniques331
10.4.1 Présentation des données initiales331
10.4.2 Objectifs de l'étude et stratégie de résolution332
10.4.3 Construction, visualisation et classification des tableaux de données334
10.4.4 Sélection automatique des mots d'intérêt337
10.4.5 Conclusion339
10.5 « Symbolic covariance ACP » et régression sur des données de type intervalle en épidémiologie vétérinaire340
10.5.1 Données340
10.5.2 Statistiques pour variables à valeur intervalle342
10.5.3 Résultats de la « Symbolic Covariance PCA »343
10.5.4 Résultats de la « Symbolic Cavariance Regression »346
10.5.5 Conclusion347
10.6 Mesures de Value at Risk à valeur histogramme : une approche symbolique pour l'attribution du risque348
10.6.1 À propos des fonds alternatifs et des mesures de VaR348
10.6.2 Traitements sur les données349
10.6.3 Résultats de l'ACP par les variables « globales » et « catégories »352
10.6.4 Résultats de la classification par nuées dynamiques355
10.6.5 Conclusion360
10.7 Analyse des données de capteurs (Big Data)361
10.7.1 Présentation des données initiales361
10.7.2 Recherche des histogrammes les plus discriminations avec CloudHistSyr362
Conclusion373
Annexe 1 : le logiciel SYR375
Annexe 2 : des modules de R pour l'ADS385
Annexe 3 : des pistes de recherche et de développement409
|
Côte titre : |
Fs/23305 |
Data science par analyse des donn©es symboliques : Une nouvelle fa§on d'analyser les donn©es classiques, complexes et massives partir des classes ; applications avec Syr et R [texte imprimé] / Afonso, Filipe, ; Edwin Diday, ; Toque, Carole, . - Paris : ditions Technip, 2018. . - 1 vol. (435 p.) : ill., tabl., graph., couv. ill. ; 24 cm. ISBN : 978-2-7108-1181-7 978-2-7108-1181-7 Langues : Français ( fre)
Catégories : |
Informatique
|
Mots-clés : |
Analyse des données symboliques
Exploration de données
Données massives |
Index. décimale : |
006.3 Intelligence artificielle |
Résumé : |
a numérisation croissante de notre société alimente des bases de données de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables) et peuvent être la source de création de valeur considérable à condition qu'elles soient exploitées avec des méthodes d'analyse adéquates. Un « Data Scientist » a justement pour objectif d'extraire des connaissances de ce type de données et c'est l'objectif de cet ouvrage. Les classes constituent un pivot central de la découverte de connaissances. En Analyse des Données Symboliques (ADS), les classes sont décrites par des variables dites symboliques prenant en compte leur variabilité interne sous forme de distributions, d'intervalles, d'histogrammes, de diagrammes de fréquences, etc. Le livre débute par la construction de différents types de variables symboliques à partir de classes données. Des statistiques descriptives, une méthode de discrétisation automatique adaptée aux données massives (Big Data) suivies par des indices de proximité étendus aux données symboliques y sont présentés. Vient ensuite un ensemble de méthodes présenté dans le contexte de l'ADS. Il s'agit de la méthode des nuées dynamiques (M\D), de la décomposition de mélange par partition (issue de la MND) ou par partition floue (EM), de l'analyse en composantes principales, de l'algorithme Apriori, des règles d'association et des arbres de décision. Pour la prévision, le livre présente des méthodes de régressions dont celles pénalisées « ridge », « lasso » et « elastic », et des séries temporelles. Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'industriels, de financiers et de scientifiques sont proposés. Leur mise en oeuvre s'appuie aussi bien sur le logiciel innovant Syr que sur le logiciel statistique R. Cet ouvrage d'introduction à l'ADS s'adresse aux étudiants, aux ingénieurs, aux universitaires, ainsi qu'à tous ceux qui désirent comprendre cette nouvelle façon de penser en Science des Données." [Cit. 4e de couverture]
|
Note de contenu : |
Sommaire
Avant-proposV
Table des matières1
Introduction générale7
1. Des données classiques aux données symboliques11
1.1 Des individus aux classes11
1.2 Des variables classiques aux variables symboliques14
1.3 Processus d'agrégation et variables symboliques associées22
1.4 Formalisation de quelques variables symboliques27
1.4.1 Les variables multivaluées28
1.4.2 Les variables à valeurs intervalle28
1.4.3 Les variables catégorielles multivaluées29
1.4.4 Les variables modales30
1.4.5 Les variables à valeur histogramme30
1.4.6 Les variables à valeur diagramme de fréquences31
1.5 Des variables classiques non appariées aux variables symboliques : le cas des données complexes31
1.6 Intérêt de la description de classes par des données symboliques33
1.7 Quelques principes de base36
1.7.1 Classes considérées comme objets à décrire selon ses différentes facettes36
1.7.2 La prise en compte de la variabilité interne aux classes36
1.7.3 Dans l'interprétation, bien différencier les effets des causes37
1.7.4 Le principe de généralisation38
1.8 Quels sont les domaines d'application privilégiés de l'ADS ?38
2. Analyse descriptive pour des variables symboliques41
2.1 Statistiques élémentaires pour les variables à valeur intervalle42
2.2 Statistiques élémentaires pour les variables à valeur histogramme45
2.3 Calcul automatique d'histogrammes discriminants pour les classes48
2.3.1 Discrétisation pour une variable continue et algorithme de Fisher50
2.3.2 Qu'est-ce que la discrimination entre classes ?54
2.3.3 Une solution optimale : la méthode HistSyr55
2.3.4 Une extension d'HistSyr au Big Data57
3. Indices de proximité75
3.1 Dissimilarité pour une variable76
3.1.1 Cas multivalué (Hausdorff, Minkowsky, Jaccard et Ichino)76
3.1.2 Cas modal (L et Hellinger)78
3.2 Dissimilarité entre plusieurs variables79
3.3 La distance de Wassertein80
4. Classification automatique83
4.1 K-means et nuées dynamiques84
4.2 La décomposition de mélange par partitions (MND) ou par partition floue (EM)87
4.2.1 Par la Méthode des Nuées Dynamiques (MND)87
4.2.2 Par l'algorithme d'Estimation-Maximisation (EM)87
4.2.3 Construction d'un tableau de données symboliques post Nuées dynamiques ou EM89
4.3 Une extension de la méthode des nuées dynamiques aux données symboliques92
4.3.1 Un choix de représentation d'une classe dans le cas de données symboliques92
4.3.2 Critère d'affectation dans le cas symbolique où les noyaux sont des prototypes93
4.3.3 Exemple95
5. ACP étendue aux données symboliques99
5.1 Technique « classique »100
5.2 Méthodes pour les variables à valeur intervalle105
5.2.1 Technique par les centres106
5.2.2 Technique par les sommets107
5.2.3 Technique par les centres et les rayons109
5.2.4 Technique par les fonctions de variance-covariance symboliques113
5.3 Méthodes pour les variables à valeur histogramme117
5.3.1 Technique par les variables « catégories », « globales » et « quadrants »118
5.3.2 Technique par les moyennes après codage des catégories126
6. Extension des règles d'association133
6.1 Règles d'association classiques et algorithmes d'extractions134
6.1.1 L'algorithme Apriori pour l'extraction de règles d'association classiques134
6.1.2 Extension des règles d'association classiques dans la littérature139
6.2 Algorithme Apriori, règles d'association et données symboliques143
6.2.1 Entrée de notre algorithme : un tableau de données symboliques143
6.2.2 Objets symboliques et règles d'association symboliques145
6.2.3 Définitions du support et de la confiance dans le cas de nos données symboliques147
6.2.4 Algorithme Apriori symbolique (SApriori)154
6.3 Règles d'association classiques versus symboliques164
6.4 Complémentarité des règles d'association classiques et symboliques167
7. Arbre de décision175
7.1 Description d'un arbre de décision classique175
7.1.1 Les variables explicatives / Ã expliquer177
7.1.2 Les noeuds terminaux / non terminaux177
7.1.3 Ensembles d'apprentissage / de test178
7.1.4 Entrées / sorties d'un arbre de décision178
7.1.5 Construction et élagage d'un arbre179
7.2 Extension des arbres de décision aux données symboliques182
7.2.1 Les méthodes symboliques182
7.2.2 Les arbres de décision étendus aux données symboliques avec la methode SyrTree185
7.2.3 Cas où la variable à expliquer est la classe (ou objet) symbolique185
7.2.4 Cas où la variable à expliquer est une variable histogramme191
7.3 Exemple illustratif193
8. Prévision de données symboliques199
8.1 Régression linéaire à valeur intervalle199
8.1.1 Méthode classique200
8.1.2 Méthode par les centres des intervalles202
8.1.3 Méthodes par les centres et les étendues des intervalles : cadre univarié et bivarié203
8.1.4 Méthode par les fonctions de variance-covariance symboliques206
8.1.5 Comparaison des méthodes208
8.2 Régressions linéaires pénalisées à valeur intervalle209
8.2.1 Régressions « ridge », « lasso » et « elastic standard »209
8.2.2 Régressions pénalisées pour les intervalles211
8.3 Séries temporelles à valeur intervalle215
8.3.1 Cas classique et stationnaire (linéaire et non linéaire) : rappels215
8.3.2 Méthodes symboliques : cadre stationnaire226
8.3.3 Méthode symbolique par les k plus proches voisins : cas non stationnaire229
8.3.4 Comparaison des méthodes230
9. Exercices d'application avec R et Syr231
9.1 Variabilité externe pour des données en finance de type intervalle231
9.2 Statistiques descriptives sur des données en finance de type intervalle235
9.3 ACP sur les cours « Lehman Brothers » de type intervalle240
9.4 ACP sur les cours « Lehman Brothers » de type histogramme252
9.5 Distance de Wasserstein sur les données de prismes257
9.6 Régression sur intervalles pour les cours « Lehman Brothers »263
9.7 Prévision journalière et par intervalle des cours « Lehman Brothers »277
10.293
10.1 Étude de la dégradation des tours de refroidissement des centrales nucléaires EDF293
10.1.1 Les mesures de surveillance de la dégradation des tours de refroidissement294
10.1.2 Étude de la dégradation des tours et comparaison des tours entre elles296
10.1.3 Conclusion305
10.2 Étude de l'influence des conditions environnementales sur la corrosion du béton armé306
10.2.1 Programme expérimental306
10.2.2 Données symboliques et nouveaux seuils de corrosion309
10.2.3 Proximités entre agressions : l'exemple de la variable Ecorr316
10.2.4 Résultats sur les corrélations entre Icorr et Ecorr, et entre Icorr et Re319
10.3 Classification et arbre de décision pour les trajectoires de prise en charge des patients atteints d'un cancer du colo-rectum321
10.3.1 Données322
10.3.2 Résultats325
10.3.3 Bilan328
10.3.4 Conclusion329
10.4 Extraction de thématiques sur un corpus de documents issus d'appels téléphoniques331
10.4.1 Présentation des données initiales331
10.4.2 Objectifs de l'étude et stratégie de résolution332
10.4.3 Construction, visualisation et classification des tableaux de données334
10.4.4 Sélection automatique des mots d'intérêt337
10.4.5 Conclusion339
10.5 « Symbolic covariance ACP » et régression sur des données de type intervalle en épidémiologie vétérinaire340
10.5.1 Données340
10.5.2 Statistiques pour variables à valeur intervalle342
10.5.3 Résultats de la « Symbolic Covariance PCA »343
10.5.4 Résultats de la « Symbolic Cavariance Regression »346
10.5.5 Conclusion347
10.6 Mesures de Value at Risk à valeur histogramme : une approche symbolique pour l'attribution du risque348
10.6.1 À propos des fonds alternatifs et des mesures de VaR348
10.6.2 Traitements sur les données349
10.6.3 Résultats de l'ACP par les variables « globales » et « catégories »352
10.6.4 Résultats de la classification par nuées dynamiques355
10.6.5 Conclusion360
10.7 Analyse des données de capteurs (Big Data)361
10.7.1 Présentation des données initiales361
10.7.2 Recherche des histogrammes les plus discriminations avec CloudHistSyr362
Conclusion373
Annexe 1 : le logiciel SYR375
Annexe 2 : des modules de R pour l'ADS385
Annexe 3 : des pistes de recherche et de développement409
|
Côte titre : |
Fs/23305 |
|  |