University Sétif 1 FERHAT ABBAS Faculty of Sciences
Catégories
Ajouter le résultat dans votre panier Affiner la recherche
Data science par analyse des donn©es symboliques / Afonso, Filipe
Titre : Data science par analyse des donn©es symboliques : Une nouvelle fa§on d'analyser les donn©es classiques, complexes et massives partir des classes ; applications avec Syr et R Type de document : texte imprimé Auteurs : Afonso, Filipe, ; Edwin Diday, ; Toque, Carole, Editeur : Paris : ditions Technip Année de publication : 2018. Importance : 1 vol. (435 p.) Présentation : ill., tabl., graph., couv. ill. Format : 24 cm. ISBN/ISSN/EAN : 978-2-7108-1181-7 Note générale : 978-2-7108-1181-7 Langues : Français (fre) Catégories : Informatique Mots-clés : Analyse des données symboliques
Exploration de données
Données massivesIndex. décimale : 006.3 Intelligence artificielle Résumé :
a numérisation croissante de notre société alimente des bases de données de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables) et peuvent être la source de création de valeur considérable à condition qu'elles soient exploitées avec des méthodes d'analyse adéquates. Un « Data Scientist » a justement pour objectif d'extraire des connaissances de ce type de données et c'est l'objectif de cet ouvrage. Les classes constituent un pivot central de la découverte de connaissances. En Analyse des Données Symboliques (ADS), les classes sont décrites par des variables dites symboliques prenant en compte leur variabilité interne sous forme de distributions, d'intervalles, d'histogrammes, de diagrammes de fréquences, etc. Le livre débute par la construction de différents types de variables symboliques à partir de classes données. Des statistiques descriptives, une méthode de discrétisation automatique adaptée aux données massives (Big Data) suivies par des indices de proximité étendus aux données symboliques y sont présentés. Vient ensuite un ensemble de méthodes présenté dans le contexte de l'ADS. Il s'agit de la méthode des nuées dynamiques (M\D), de la décomposition de mélange par partition (issue de la MND) ou par partition floue (EM), de l'analyse en composantes principales, de l'algorithme Apriori, des règles d'association et des arbres de décision. Pour la prévision, le livre présente des méthodes de régressions dont celles pénalisées « ridge », « lasso » et « elastic », et des séries temporelles. Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'industriels, de financiers et de scientifiques sont proposés. Leur mise en oeuvre s'appuie aussi bien sur le logiciel innovant Syr que sur le logiciel statistique R. Cet ouvrage d'introduction à l'ADS s'adresse aux étudiants, aux ingénieurs, aux universitaires, ainsi qu'à tous ceux qui désirent comprendre cette nouvelle façon de penser en Science des Données." [Cit. 4e de couverture]
Note de contenu :
Sommaire
Avant-proposV
Table des matières1
Introduction générale7
1. Des données classiques aux données symboliques11
1.1 Des individus aux classes11
1.2 Des variables classiques aux variables symboliques14
1.3 Processus d'agrégation et variables symboliques associées22
1.4 Formalisation de quelques variables symboliques27
1.4.1 Les variables multivaluées28
1.4.2 Les variables à valeurs intervalle28
1.4.3 Les variables catégorielles multivaluées29
1.4.4 Les variables modales30
1.4.5 Les variables à valeur histogramme30
1.4.6 Les variables à valeur diagramme de fréquences31
1.5 Des variables classiques non appariées aux variables symboliques : le cas des données complexes31
1.6 Intérêt de la description de classes par des données symboliques33
1.7 Quelques principes de base36
1.7.1 Classes considérées comme objets à décrire selon ses différentes facettes36
1.7.2 La prise en compte de la variabilité interne aux classes36
1.7.3 Dans l'interprétation, bien différencier les effets des causes37
1.7.4 Le principe de généralisation38
1.8 Quels sont les domaines d'application privilégiés de l'ADS ?38
2. Analyse descriptive pour des variables symboliques41
2.1 Statistiques élémentaires pour les variables à valeur intervalle42
2.2 Statistiques élémentaires pour les variables à valeur histogramme45
2.3 Calcul automatique d'histogrammes discriminants pour les classes48
2.3.1 Discrétisation pour une variable continue et algorithme de Fisher50
2.3.2 Qu'est-ce que la discrimination entre classes ?54
2.3.3 Une solution optimale : la méthode HistSyr55
2.3.4 Une extension d'HistSyr au Big Data57
3. Indices de proximité75
3.1 Dissimilarité pour une variable76
3.1.1 Cas multivalué (Hausdorff, Minkowsky, Jaccard et Ichino)76
3.1.2 Cas modal (L et Hellinger)78
3.2 Dissimilarité entre plusieurs variables79
3.3 La distance de Wassertein80
4. Classification automatique83
4.1 K-means et nuées dynamiques84
4.2 La décomposition de mélange par partitions (MND) ou par partition floue (EM)87
4.2.1 Par la Méthode des Nuées Dynamiques (MND)87
4.2.2 Par l'algorithme d'Estimation-Maximisation (EM)87
4.2.3 Construction d'un tableau de données symboliques post Nuées dynamiques ou EM89
4.3 Une extension de la méthode des nuées dynamiques aux données symboliques92
4.3.1 Un choix de représentation d'une classe dans le cas de données symboliques92
4.3.2 Critère d'affectation dans le cas symbolique où les noyaux sont des prototypes93
4.3.3 Exemple95
5. ACP étendue aux données symboliques99
5.1 Technique « classique »100
5.2 Méthodes pour les variables à valeur intervalle105
5.2.1 Technique par les centres106
5.2.2 Technique par les sommets107
5.2.3 Technique par les centres et les rayons109
5.2.4 Technique par les fonctions de variance-covariance symboliques113
5.3 Méthodes pour les variables à valeur histogramme117
5.3.1 Technique par les variables « catégories », « globales » et « quadrants »118
5.3.2 Technique par les moyennes après codage des catégories126
6. Extension des règles d'association133
6.1 Règles d'association classiques et algorithmes d'extractions134
6.1.1 L'algorithme Apriori pour l'extraction de règles d'association classiques134
6.1.2 Extension des règles d'association classiques dans la littérature139
6.2 Algorithme Apriori, règles d'association et données symboliques143
6.2.1 Entrée de notre algorithme : un tableau de données symboliques143
6.2.2 Objets symboliques et règles d'association symboliques145
6.2.3 Définitions du support et de la confiance dans le cas de nos données symboliques147
6.2.4 Algorithme Apriori symbolique (SApriori)154
6.3 Règles d'association classiques versus symboliques164
6.4 Complémentarité des règles d'association classiques et symboliques167
7. Arbre de décision175
7.1 Description d'un arbre de décision classique175
7.1.1 Les variables explicatives / Ã expliquer177
7.1.2 Les noeuds terminaux / non terminaux177
7.1.3 Ensembles d'apprentissage / de test178
7.1.4 Entrées / sorties d'un arbre de décision178
7.1.5 Construction et élagage d'un arbre179
7.2 Extension des arbres de décision aux données symboliques182
7.2.1 Les méthodes symboliques182
7.2.2 Les arbres de décision étendus aux données symboliques avec la methode SyrTree185
7.2.3 Cas où la variable à expliquer est la classe (ou objet) symbolique185
7.2.4 Cas où la variable à expliquer est une variable histogramme191
7.3 Exemple illustratif193
8. Prévision de données symboliques199
8.1 Régression linéaire à valeur intervalle199
8.1.1 Méthode classique200
8.1.2 Méthode par les centres des intervalles202
8.1.3 Méthodes par les centres et les étendues des intervalles : cadre univarié et bivarié203
8.1.4 Méthode par les fonctions de variance-covariance symboliques206
8.1.5 Comparaison des méthodes208
8.2 Régressions linéaires pénalisées à valeur intervalle209
8.2.1 Régressions « ridge », « lasso » et « elastic standard »209
8.2.2 Régressions pénalisées pour les intervalles211
8.3 Séries temporelles à valeur intervalle215
8.3.1 Cas classique et stationnaire (linéaire et non linéaire) : rappels215
8.3.2 Méthodes symboliques : cadre stationnaire226
8.3.3 Méthode symbolique par les k plus proches voisins : cas non stationnaire229
8.3.4 Comparaison des méthodes230
9. Exercices d'application avec R et Syr231
9.1 Variabilité externe pour des données en finance de type intervalle231
9.2 Statistiques descriptives sur des données en finance de type intervalle235
9.3 ACP sur les cours « Lehman Brothers » de type intervalle240
9.4 ACP sur les cours « Lehman Brothers » de type histogramme252
9.5 Distance de Wasserstein sur les données de prismes257
9.6 Régression sur intervalles pour les cours « Lehman Brothers »263
9.7 Prévision journalière et par intervalle des cours « Lehman Brothers »277
10.293
10.1 Étude de la dégradation des tours de refroidissement des centrales nucléaires EDF293
10.1.1 Les mesures de surveillance de la dégradation des tours de refroidissement294
10.1.2 Étude de la dégradation des tours et comparaison des tours entre elles296
10.1.3 Conclusion305
10.2 Étude de l'influence des conditions environnementales sur la corrosion du béton armé306
10.2.1 Programme expérimental306
10.2.2 Données symboliques et nouveaux seuils de corrosion309
10.2.3 Proximités entre agressions : l'exemple de la variable Ecorr316
10.2.4 Résultats sur les corrélations entre Icorr et Ecorr, et entre Icorr et Re319
10.3 Classification et arbre de décision pour les trajectoires de prise en charge des patients atteints d'un cancer du colo-rectum321
10.3.1 Données322
10.3.2 Résultats325
10.3.3 Bilan328
10.3.4 Conclusion329
10.4 Extraction de thématiques sur un corpus de documents issus d'appels téléphoniques331
10.4.1 Présentation des données initiales331
10.4.2 Objectifs de l'étude et stratégie de résolution332
10.4.3 Construction, visualisation et classification des tableaux de données334
10.4.4 Sélection automatique des mots d'intérêt337
10.4.5 Conclusion339
10.5 « Symbolic covariance ACP » et régression sur des données de type intervalle en épidémiologie vétérinaire340
10.5.1 Données340
10.5.2 Statistiques pour variables à valeur intervalle342
10.5.3 Résultats de la « Symbolic Covariance PCA »343
10.5.4 Résultats de la « Symbolic Cavariance Regression »346
10.5.5 Conclusion347
10.6 Mesures de Value at Risk à valeur histogramme : une approche symbolique pour l'attribution du risque348
10.6.1 À propos des fonds alternatifs et des mesures de VaR348
10.6.2 Traitements sur les données349
10.6.3 Résultats de l'ACP par les variables « globales » et « catégories »352
10.6.4 Résultats de la classification par nuées dynamiques355
10.6.5 Conclusion360
10.7 Analyse des données de capteurs (Big Data)361
10.7.1 Présentation des données initiales361
10.7.2 Recherche des histogrammes les plus discriminations avec CloudHistSyr362
Conclusion373
Annexe 1 : le logiciel SYR375
Annexe 2 : des modules de R pour l'ADS385
Annexe 3 : des pistes de recherche et de développement409
Côte titre : Fs/23305 Data science par analyse des donn©es symboliques : Une nouvelle fa§on d'analyser les donn©es classiques, complexes et massives partir des classes ; applications avec Syr et R [texte imprimé] / Afonso, Filipe, ; Edwin Diday, ; Toque, Carole, . - Paris : ditions Technip, 2018. . - 1 vol. (435 p.) : ill., tabl., graph., couv. ill. ; 24 cm.
ISBN : 978-2-7108-1181-7
978-2-7108-1181-7
Langues : Français (fre)
Catégories : Informatique Mots-clés : Analyse des données symboliques
Exploration de données
Données massivesIndex. décimale : 006.3 Intelligence artificielle Résumé :
a numérisation croissante de notre société alimente des bases de données de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables) et peuvent être la source de création de valeur considérable à condition qu'elles soient exploitées avec des méthodes d'analyse adéquates. Un « Data Scientist » a justement pour objectif d'extraire des connaissances de ce type de données et c'est l'objectif de cet ouvrage. Les classes constituent un pivot central de la découverte de connaissances. En Analyse des Données Symboliques (ADS), les classes sont décrites par des variables dites symboliques prenant en compte leur variabilité interne sous forme de distributions, d'intervalles, d'histogrammes, de diagrammes de fréquences, etc. Le livre débute par la construction de différents types de variables symboliques à partir de classes données. Des statistiques descriptives, une méthode de discrétisation automatique adaptée aux données massives (Big Data) suivies par des indices de proximité étendus aux données symboliques y sont présentés. Vient ensuite un ensemble de méthodes présenté dans le contexte de l'ADS. Il s'agit de la méthode des nuées dynamiques (M\D), de la décomposition de mélange par partition (issue de la MND) ou par partition floue (EM), de l'analyse en composantes principales, de l'algorithme Apriori, des règles d'association et des arbres de décision. Pour la prévision, le livre présente des méthodes de régressions dont celles pénalisées « ridge », « lasso » et « elastic », et des séries temporelles. Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'industriels, de financiers et de scientifiques sont proposés. Leur mise en oeuvre s'appuie aussi bien sur le logiciel innovant Syr que sur le logiciel statistique R. Cet ouvrage d'introduction à l'ADS s'adresse aux étudiants, aux ingénieurs, aux universitaires, ainsi qu'à tous ceux qui désirent comprendre cette nouvelle façon de penser en Science des Données." [Cit. 4e de couverture]
Note de contenu :
Sommaire
Avant-proposV
Table des matières1
Introduction générale7
1. Des données classiques aux données symboliques11
1.1 Des individus aux classes11
1.2 Des variables classiques aux variables symboliques14
1.3 Processus d'agrégation et variables symboliques associées22
1.4 Formalisation de quelques variables symboliques27
1.4.1 Les variables multivaluées28
1.4.2 Les variables à valeurs intervalle28
1.4.3 Les variables catégorielles multivaluées29
1.4.4 Les variables modales30
1.4.5 Les variables à valeur histogramme30
1.4.6 Les variables à valeur diagramme de fréquences31
1.5 Des variables classiques non appariées aux variables symboliques : le cas des données complexes31
1.6 Intérêt de la description de classes par des données symboliques33
1.7 Quelques principes de base36
1.7.1 Classes considérées comme objets à décrire selon ses différentes facettes36
1.7.2 La prise en compte de la variabilité interne aux classes36
1.7.3 Dans l'interprétation, bien différencier les effets des causes37
1.7.4 Le principe de généralisation38
1.8 Quels sont les domaines d'application privilégiés de l'ADS ?38
2. Analyse descriptive pour des variables symboliques41
2.1 Statistiques élémentaires pour les variables à valeur intervalle42
2.2 Statistiques élémentaires pour les variables à valeur histogramme45
2.3 Calcul automatique d'histogrammes discriminants pour les classes48
2.3.1 Discrétisation pour une variable continue et algorithme de Fisher50
2.3.2 Qu'est-ce que la discrimination entre classes ?54
2.3.3 Une solution optimale : la méthode HistSyr55
2.3.4 Une extension d'HistSyr au Big Data57
3. Indices de proximité75
3.1 Dissimilarité pour une variable76
3.1.1 Cas multivalué (Hausdorff, Minkowsky, Jaccard et Ichino)76
3.1.2 Cas modal (L et Hellinger)78
3.2 Dissimilarité entre plusieurs variables79
3.3 La distance de Wassertein80
4. Classification automatique83
4.1 K-means et nuées dynamiques84
4.2 La décomposition de mélange par partitions (MND) ou par partition floue (EM)87
4.2.1 Par la Méthode des Nuées Dynamiques (MND)87
4.2.2 Par l'algorithme d'Estimation-Maximisation (EM)87
4.2.3 Construction d'un tableau de données symboliques post Nuées dynamiques ou EM89
4.3 Une extension de la méthode des nuées dynamiques aux données symboliques92
4.3.1 Un choix de représentation d'une classe dans le cas de données symboliques92
4.3.2 Critère d'affectation dans le cas symbolique où les noyaux sont des prototypes93
4.3.3 Exemple95
5. ACP étendue aux données symboliques99
5.1 Technique « classique »100
5.2 Méthodes pour les variables à valeur intervalle105
5.2.1 Technique par les centres106
5.2.2 Technique par les sommets107
5.2.3 Technique par les centres et les rayons109
5.2.4 Technique par les fonctions de variance-covariance symboliques113
5.3 Méthodes pour les variables à valeur histogramme117
5.3.1 Technique par les variables « catégories », « globales » et « quadrants »118
5.3.2 Technique par les moyennes après codage des catégories126
6. Extension des règles d'association133
6.1 Règles d'association classiques et algorithmes d'extractions134
6.1.1 L'algorithme Apriori pour l'extraction de règles d'association classiques134
6.1.2 Extension des règles d'association classiques dans la littérature139
6.2 Algorithme Apriori, règles d'association et données symboliques143
6.2.1 Entrée de notre algorithme : un tableau de données symboliques143
6.2.2 Objets symboliques et règles d'association symboliques145
6.2.3 Définitions du support et de la confiance dans le cas de nos données symboliques147
6.2.4 Algorithme Apriori symbolique (SApriori)154
6.3 Règles d'association classiques versus symboliques164
6.4 Complémentarité des règles d'association classiques et symboliques167
7. Arbre de décision175
7.1 Description d'un arbre de décision classique175
7.1.1 Les variables explicatives / Ã expliquer177
7.1.2 Les noeuds terminaux / non terminaux177
7.1.3 Ensembles d'apprentissage / de test178
7.1.4 Entrées / sorties d'un arbre de décision178
7.1.5 Construction et élagage d'un arbre179
7.2 Extension des arbres de décision aux données symboliques182
7.2.1 Les méthodes symboliques182
7.2.2 Les arbres de décision étendus aux données symboliques avec la methode SyrTree185
7.2.3 Cas où la variable à expliquer est la classe (ou objet) symbolique185
7.2.4 Cas où la variable à expliquer est une variable histogramme191
7.3 Exemple illustratif193
8. Prévision de données symboliques199
8.1 Régression linéaire à valeur intervalle199
8.1.1 Méthode classique200
8.1.2 Méthode par les centres des intervalles202
8.1.3 Méthodes par les centres et les étendues des intervalles : cadre univarié et bivarié203
8.1.4 Méthode par les fonctions de variance-covariance symboliques206
8.1.5 Comparaison des méthodes208
8.2 Régressions linéaires pénalisées à valeur intervalle209
8.2.1 Régressions « ridge », « lasso » et « elastic standard »209
8.2.2 Régressions pénalisées pour les intervalles211
8.3 Séries temporelles à valeur intervalle215
8.3.1 Cas classique et stationnaire (linéaire et non linéaire) : rappels215
8.3.2 Méthodes symboliques : cadre stationnaire226
8.3.3 Méthode symbolique par les k plus proches voisins : cas non stationnaire229
8.3.4 Comparaison des méthodes230
9. Exercices d'application avec R et Syr231
9.1 Variabilité externe pour des données en finance de type intervalle231
9.2 Statistiques descriptives sur des données en finance de type intervalle235
9.3 ACP sur les cours « Lehman Brothers » de type intervalle240
9.4 ACP sur les cours « Lehman Brothers » de type histogramme252
9.5 Distance de Wasserstein sur les données de prismes257
9.6 Régression sur intervalles pour les cours « Lehman Brothers »263
9.7 Prévision journalière et par intervalle des cours « Lehman Brothers »277
10.293
10.1 Étude de la dégradation des tours de refroidissement des centrales nucléaires EDF293
10.1.1 Les mesures de surveillance de la dégradation des tours de refroidissement294
10.1.2 Étude de la dégradation des tours et comparaison des tours entre elles296
10.1.3 Conclusion305
10.2 Étude de l'influence des conditions environnementales sur la corrosion du béton armé306
10.2.1 Programme expérimental306
10.2.2 Données symboliques et nouveaux seuils de corrosion309
10.2.3 Proximités entre agressions : l'exemple de la variable Ecorr316
10.2.4 Résultats sur les corrélations entre Icorr et Ecorr, et entre Icorr et Re319
10.3 Classification et arbre de décision pour les trajectoires de prise en charge des patients atteints d'un cancer du colo-rectum321
10.3.1 Données322
10.3.2 Résultats325
10.3.3 Bilan328
10.3.4 Conclusion329
10.4 Extraction de thématiques sur un corpus de documents issus d'appels téléphoniques331
10.4.1 Présentation des données initiales331
10.4.2 Objectifs de l'étude et stratégie de résolution332
10.4.3 Construction, visualisation et classification des tableaux de données334
10.4.4 Sélection automatique des mots d'intérêt337
10.4.5 Conclusion339
10.5 « Symbolic covariance ACP » et régression sur des données de type intervalle en épidémiologie vétérinaire340
10.5.1 Données340
10.5.2 Statistiques pour variables à valeur intervalle342
10.5.3 Résultats de la « Symbolic Covariance PCA »343
10.5.4 Résultats de la « Symbolic Cavariance Regression »346
10.5.5 Conclusion347
10.6 Mesures de Value at Risk à valeur histogramme : une approche symbolique pour l'attribution du risque348
10.6.1 À propos des fonds alternatifs et des mesures de VaR348
10.6.2 Traitements sur les données349
10.6.3 Résultats de l'ACP par les variables « globales » et « catégories »352
10.6.4 Résultats de la classification par nuées dynamiques355
10.6.5 Conclusion360
10.7 Analyse des données de capteurs (Big Data)361
10.7.1 Présentation des données initiales361
10.7.2 Recherche des histogrammes les plus discriminations avec CloudHistSyr362
Conclusion373
Annexe 1 : le logiciel SYR375
Annexe 2 : des modules de R pour l'ADS385
Annexe 3 : des pistes de recherche et de développement409
Côte titre : Fs/23305 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité Fs/23305 Fs/23305 livre Bibliothéque des sciences Français Disponible
DisponibleData science pour l'agriculture et l'environnement
Titre : Data science pour l'agriculture et l'environnement : méthodes et applications avec R et Python Type de document : texte imprimé Auteurs : David Makowski (1972-....), Directeur de publication, rédacteur en chef Année de publication : 2021 Importance : 1 vol. (256 p.) Présentation : ill. Format : 24 cm ISBN/ISSN/EAN : 978-2-340-04577-4 Note générale : Notes bibliogr. Langues : Français (fre) Catégories : Informatique Index. décimale : 519.5 Statistique mathématique , analyse statistique Résumé :
La data science a acquis une grande renommée dans de nombreux domaines mais son utilisation en agriculture et, plus largement dans les sciences environnementales, reste encore limitée. Ce manuel d’initiation vise à démocratiser l’usage de la data science pour des applications en lien avec l’agriculture et l’environnement.
L’ouvrage couvre les principales méthodes couramment utilisées pour la prédiction, la classification et le partitionnement de données. Il comporte à la fois des explications détaillées du fonctionnement de chaque méthode, une description de codes R et Python permettant leur utilisation pratique, et des exemples d’applications concrètes en lien avec les sciences agricoles et environnementales.
Côte titre : Fs/25003 Data science pour l'agriculture et l'environnement : méthodes et applications avec R et Python [texte imprimé] / David Makowski (1972-....), Directeur de publication, rédacteur en chef . - 2021 . - 1 vol. (256 p.) : ill. ; 24 cm.
ISBN : 978-2-340-04577-4
Notes bibliogr.
Langues : Français (fre)
Catégories : Informatique Index. décimale : 519.5 Statistique mathématique , analyse statistique Résumé :
La data science a acquis une grande renommée dans de nombreux domaines mais son utilisation en agriculture et, plus largement dans les sciences environnementales, reste encore limitée. Ce manuel d’initiation vise à démocratiser l’usage de la data science pour des applications en lien avec l’agriculture et l’environnement.
L’ouvrage couvre les principales méthodes couramment utilisées pour la prédiction, la classification et le partitionnement de données. Il comporte à la fois des explications détaillées du fonctionnement de chaque méthode, une description de codes R et Python permettant leur utilisation pratique, et des exemples d’applications concrètes en lien avec les sciences agricoles et environnementales.
Côte titre : Fs/25003 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité Fs/25003 Fs/25003 Livre Bibliothéque des sciences Français Disponible
DisponibleData scientist et langage R : guide d'autoformation à l'exploitation des Big Data / Henri Laude
Titre : Data scientist et langage R : guide d'autoformation à l'exploitation des Big Data Type de document : texte imprimé Auteurs : Henri Laude, Auteur Editeur : Saint-Herblain : Éd. ENI Année de publication : 2016 Collection : Epsilon ISBN/ISSN/EAN : 978-2-409-00043-0 Langues : Français (fre) Catégories : Informatique Mots-clés : Données massives
Apprentissage automatique
Exploration de donnéesIndex. décimale : 004 - Informatique Résumé :
La quatrième de couverture indique : "Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data-sciences qui permet de délivrer des solutions via l'usage du langage R. Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet aux lecteurs : - de s'intégrer à une équipe de data-scientists, - d'aborder des articles de recherche possédant une haute teneur en mathématiques, - le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques, - ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace. L'ouvrage ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images. La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences, l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data-sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive aborde le thème en faisant l'économie de mathématiques ou de formalismes dissuasifs. L'ensemble du code de tous les exemples de l'ouvrage et toutes les données traitées dans le code sont en téléchargement sur le site www.editions-eni.fr."
Note de contenu :
Sommaire
Chapitre 1 Introduction
P. 15. 1. Data scientist, un métier à la mode
P. 16. 2. Les data-sciences
P. 17. 3. Le Big Data
P. 18. 4. La dynamique de cet ouvrage
P. 24. 5. Petit bestiaire des data-services
P. 70. 6. Informatique professionnelle et data-sciences
P. 76. 7. Notations
P. 81. 8. À vous de jouer !
Chapitre 2 Premiers pas avec R
P. 83. 1. Installation des composants
P. 90. 2. Prise en main de R
P. 179. 3. Manipulation des données
Chapitre 3 Maîtriser les bases
P. 215. 1. Se mettre en harmonie avec les données
P. 249. 2. Matrices et vecteurs
P. 279. 3. Estimations
P. 302. 4. Mise en pratique : apprentissage supervisé
Chapitre 4 Techniques et algorithmes incontournables
P. 325. 1. Constituer sa boîte à outils
P. 326. 2. Représentation graphique des données
P. 346. 3. Machine learning : pratiques courantes
P. 393. 4. Où en sommes-nous dans notre apprentissage ?
Chapitre 5 Cadre méthodologique du data scientist
P. 395. 1. Le problème méthodologique au niveau du projet
P. 399. 2. Le cycle interne des data-sciences
P. 411. 3. Compléments méthodologiques
Chapitre 6 Traitement du langage naturel
P. 415. 1. Positionnement du problème
P. 416. 2. Analyse sémantique latente et SVD
Chapitre 7 Graphes et réseaux
P. 431. 1. Introduction
P. 431. 2. Premiers pas
P. 449. 3. Graphes et réseaux (sociaux)
Chapitre 8 Autres problèmes, autres solutions
P. 465. 1. Séries temporelles
P. 499. 2. Systèmes flous
P. 509. 3. Essaim (swarm)
Chapitre 9 Feature Engineering
P. 517. 1. Feature Engineering, les bases
P. 541. 2. PCA classique, éléments mathématiques
P. 544. 3. Réduction des données (data reduction)
P. 545. 4. Réduction de la dimensionnalité et entropie
Chapitre 10 Compléments utiles
P. 557. 1. GAM : généralisation de LMGLM
P. 559. 2. Manipulation d'images
P. 575. 3. Comment créer un échantillon : LHS (hypercube latin)
P. 577. 4. Travailler sur des données spatiales
P. 590. 5. Savoir-faire utiles
P. 598. 6. Gradients Boosting et Generalized Boosted Regression
Annexes
P. 605. 1. De l'utilité de ces annexes
P. 605. 2. Formulas
P. 607. 3. Stratégies suivant la nature des données
P. 611. 4. Filtres (sur images)
P. 614. 5. Distances
P. 618. 6. Astuces et petits conseils
P. 620. 7. Packages et thèmes à étudier
P. 622. 8. Vocabulaire et « tricks of the trade »
P. 626. 9. Algorithmes à étudier
P. 627. 10. Quelques formulations d'algèbre linéaire
P. 629. Conclusion
P. 631. IndexCôte titre : Fs/22879-22880 Data scientist et langage R : guide d'autoformation à l'exploitation des Big Data [texte imprimé] / Henri Laude, Auteur . - Saint-Herblain : Éd. ENI, 2016. - (Epsilon) .
ISBN : 978-2-409-00043-0
Langues : Français (fre)
Catégories : Informatique Mots-clés : Données massives
Apprentissage automatique
Exploration de donnéesIndex. décimale : 004 - Informatique Résumé :
La quatrième de couverture indique : "Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data-sciences qui permet de délivrer des solutions via l'usage du langage R. Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet aux lecteurs : - de s'intégrer à une équipe de data-scientists, - d'aborder des articles de recherche possédant une haute teneur en mathématiques, - le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques, - ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace. L'ouvrage ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images. La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences, l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data-sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive aborde le thème en faisant l'économie de mathématiques ou de formalismes dissuasifs. L'ensemble du code de tous les exemples de l'ouvrage et toutes les données traitées dans le code sont en téléchargement sur le site www.editions-eni.fr."
Note de contenu :
Sommaire
Chapitre 1 Introduction
P. 15. 1. Data scientist, un métier à la mode
P. 16. 2. Les data-sciences
P. 17. 3. Le Big Data
P. 18. 4. La dynamique de cet ouvrage
P. 24. 5. Petit bestiaire des data-services
P. 70. 6. Informatique professionnelle et data-sciences
P. 76. 7. Notations
P. 81. 8. À vous de jouer !
Chapitre 2 Premiers pas avec R
P. 83. 1. Installation des composants
P. 90. 2. Prise en main de R
P. 179. 3. Manipulation des données
Chapitre 3 Maîtriser les bases
P. 215. 1. Se mettre en harmonie avec les données
P. 249. 2. Matrices et vecteurs
P. 279. 3. Estimations
P. 302. 4. Mise en pratique : apprentissage supervisé
Chapitre 4 Techniques et algorithmes incontournables
P. 325. 1. Constituer sa boîte à outils
P. 326. 2. Représentation graphique des données
P. 346. 3. Machine learning : pratiques courantes
P. 393. 4. Où en sommes-nous dans notre apprentissage ?
Chapitre 5 Cadre méthodologique du data scientist
P. 395. 1. Le problème méthodologique au niveau du projet
P. 399. 2. Le cycle interne des data-sciences
P. 411. 3. Compléments méthodologiques
Chapitre 6 Traitement du langage naturel
P. 415. 1. Positionnement du problème
P. 416. 2. Analyse sémantique latente et SVD
Chapitre 7 Graphes et réseaux
P. 431. 1. Introduction
P. 431. 2. Premiers pas
P. 449. 3. Graphes et réseaux (sociaux)
Chapitre 8 Autres problèmes, autres solutions
P. 465. 1. Séries temporelles
P. 499. 2. Systèmes flous
P. 509. 3. Essaim (swarm)
Chapitre 9 Feature Engineering
P. 517. 1. Feature Engineering, les bases
P. 541. 2. PCA classique, éléments mathématiques
P. 544. 3. Réduction des données (data reduction)
P. 545. 4. Réduction de la dimensionnalité et entropie
Chapitre 10 Compléments utiles
P. 557. 1. GAM : généralisation de LMGLM
P. 559. 2. Manipulation d'images
P. 575. 3. Comment créer un échantillon : LHS (hypercube latin)
P. 577. 4. Travailler sur des données spatiales
P. 590. 5. Savoir-faire utiles
P. 598. 6. Gradients Boosting et Generalized Boosted Regression
Annexes
P. 605. 1. De l'utilité de ces annexes
P. 605. 2. Formulas
P. 607. 3. Stratégies suivant la nature des données
P. 611. 4. Filtres (sur images)
P. 614. 5. Distances
P. 618. 6. Astuces et petits conseils
P. 620. 7. Packages et thèmes à étudier
P. 622. 8. Vocabulaire et « tricks of the trade »
P. 626. 9. Algorithmes à étudier
P. 627. 10. Quelques formulations d'algèbre linéaire
P. 629. Conclusion
P. 631. IndexCôte titre : Fs/22879-22880 Exemplaires (2)
Code-barres Cote Support Localisation Section Disponibilité Fs/22879 Fs/22879-22880 livre Bibliothéque des sciences Français Disponible
DisponibleFs/22880 Fs/22879-22880 livre Bibliothéque des sciences Français Disponible
DisponibleData scientist et langage R / Henri Laude
Titre : Data scientist et langage R : guide d'autoformation à l'exploitation intelligente des big data Type de document : texte imprimé Auteurs : Henri Laude, Auteur ; Eva Laude, Auteur Mention d'édition : 2e éd. Editeur : Saint-Herblain : Éd. ENI Année de publication : 2018 Collection : Epsilon (Saint-Herblain), ISSN 1960-3444 Importance : 1 vol. (811 p.) Présentation : ill. Format : 21 cm ISBN/ISSN/EAN : 978-2-409-01397-3 Note générale : Bibliogr. et webliogr. p. 769-771. Index Langues : Français (fre) Catégories : Informatique Mots-clés : Données massives
Apprentissage automatique
Exploration de données
Ordinateurs : Programmation
R (logiciel)Index. décimale : 006.3 - Intelligence artificielle Résumé :
Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences et que celles-ci contribuent à l'essor de l'Intelligence Artificielle. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data sciences qui permet de délivrer des solutions via l'usage du langage R. Ainsi, les auteurs proposent un parcours didactique et professionnalisant qui, sans autre prérequis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur : - de s'intégrer à une équipe de data scientists, - d'aborder la lecture d'articles de recherche en IA ou data sciences, - le cas échéant de développer en langage R, y compris ses propres algorithmes, des graphiques complexes et des tableaux de bord interactifs, - ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.
Le livre ne se cantonne pas aux algorithmes classiques du "machine learning" (arbres de décision, réseaux neuronaux...), il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images. La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques.
Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs. Les programmes R décrits dans le livre sont accessibles en téléchargement sur le site www.editions-eni.fr et peuvent être exécutés pas à pas.Note de contenu :
Sommaire
Introduction
Premiers pas avec R
Maîtriser les bases
Techniques et algorithmes incontournables
Cadre méthodologique du data scientist
Traitement du langage naturel
Graphes et réseaux
Autres problèmes, autres solutions
Feature Engineering
Compléments utiles
Full Stack R
Partager ses analyses
Cartographie
TensorFlow
AnnexesCôte titre : Fs/24194-24195 Data scientist et langage R : guide d'autoformation à l'exploitation intelligente des big data [texte imprimé] / Henri Laude, Auteur ; Eva Laude, Auteur . - 2e éd. . - Saint-Herblain : Éd. ENI, 2018 . - 1 vol. (811 p.) : ill. ; 21 cm. - (Epsilon (Saint-Herblain), ISSN 1960-3444) .
ISBN : 978-2-409-01397-3
Bibliogr. et webliogr. p. 769-771. Index
Langues : Français (fre)
Catégories : Informatique Mots-clés : Données massives
Apprentissage automatique
Exploration de données
Ordinateurs : Programmation
R (logiciel)Index. décimale : 006.3 - Intelligence artificielle Résumé :
Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences et que celles-ci contribuent à l'essor de l'Intelligence Artificielle. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data sciences qui permet de délivrer des solutions via l'usage du langage R. Ainsi, les auteurs proposent un parcours didactique et professionnalisant qui, sans autre prérequis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur : - de s'intégrer à une équipe de data scientists, - d'aborder la lecture d'articles de recherche en IA ou data sciences, - le cas échéant de développer en langage R, y compris ses propres algorithmes, des graphiques complexes et des tableaux de bord interactifs, - ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.
Le livre ne se cantonne pas aux algorithmes classiques du "machine learning" (arbres de décision, réseaux neuronaux...), il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images. La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques.
Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs. Les programmes R décrits dans le livre sont accessibles en téléchargement sur le site www.editions-eni.fr et peuvent être exécutés pas à pas.Note de contenu :
Sommaire
Introduction
Premiers pas avec R
Maîtriser les bases
Techniques et algorithmes incontournables
Cadre méthodologique du data scientist
Traitement du langage naturel
Graphes et réseaux
Autres problèmes, autres solutions
Feature Engineering
Compléments utiles
Full Stack R
Partager ses analyses
Cartographie
TensorFlow
AnnexesCôte titre : Fs/24194-24195 Exemplaires (2)
Code-barres Cote Support Localisation Section Disponibilité Fs/24194 Fs/24194-24195 livre Bibliothéque des sciences Français Disponible
DisponibleFs/24195 Fs/24194-24195 livre Bibliothéque des sciences Français Disponible
DisponibleData warehouse / Barry Devlin
Titre : Data warehouse : from architecture to implementation / Type de document : texte imprimé Auteurs : Barry Devlin Editeur : Reading, Mass. : Addison-Wesley Année de publication : 1997 Importance : 1 vol. (432 p.) Présentation : ill Format : 24 cm ISBN/ISSN/EAN : 978-0-201-96425-7 Catégories : Informatique Mots-clés : Entrepôts de données
Bases de données : ConceptionRésumé :
guide pratique le plus complet sur la conception, la construction et la mise en œuvre d'un entrepôt de données sur le marché aujourd'hui. Barry Devlin, l'un des plus grands experts mondiaux de l'entreposage de données, est également l'un des premiers praticiens dans ce domaine. Dans ce livre, il distille les idées et les expériences acquises au cours de 10 années de conception et de construction d'entrepôts de données. Sont inclus : * Une explication de l'architecture optimale à trois niveaux pour l'entrepôt de données, avec une division claire entre les données et l'information * Une description complète des fonctions nécessaires pour mettre en œuvre une telle architecture, y compris le rapprochement des données existantes et diverses et la dérivation cohérente, informations commerciales précieuses * Une méthodologie détaillée pour construire un entrepôt de données d'une manière qui fournit une valeur commerciale et une infrastructure stratégique à chaque étape * Une approche de haut niveau pour justifier l'effort impliqué * Une vue des aspects organisationnels de la construction et de la maintenance d'un entrepôt livre deviendra la référence clé pour toute équipe entreprenant la construction d'un entrepôt de données. Il s'adresse en priorité aux responsables SI, architectes et concepteurs impliqués dans cette démarche, ainsi qu'aux utilisateurs finaux ayant un rôle clé dans l'évolution.Note de contenu :
Table of Contents
1. Introduction.
I. THE EVOLUTION OF DATA WAREHOUSING (THE HISTORICAL CONTEXT).
2. The Data Warehouse—A Brief History.
3. Today's Development Environment.
II. PRINCIPLES OF DATA WAREHOUSING (ARCHITECTURE AND DESIGN TECHNIQUES).
4. Types of Data and Their Uses.
5. Conceptual Data Architecture.
6. Design Techniques.
7. Introduction to the Logical Architecture.
III. CREATING THE DATA ASSET (BUSINESS DATA WAREHOUSE DESIGN).
8. Business Data Warehouse Design.
9. Populating the Data Warehouse.
IV. UNLOCKING THE DATA ASSET FOR END USERS. (THE USE OF BUSINESS INFORMATION).
10. Designing Business Information Warehouses.
11. Populating Business Information Warehouses.
12. User Access to Information.
13. Information—in Context.
V. IMPLEMENTING THE WAREHOUSE (MANAGING THE PROJECT AND ENVIRONMENT).
14. Obstacles to Implementation.
15. Planning Your Implementation.
16. Justifying the Warehouse.
17. Organizational Implications of Data Warehousing.
18. The Data Warehouse in Your Organization.
19. Data Warehouse Management.
20. Looking to the Future.Côte titre : Fs/19729 Data warehouse : from architecture to implementation / [texte imprimé] / Barry Devlin . - Reading, Mass. : Addison-Wesley, 1997 . - 1 vol. (432 p.) : ill ; 24 cm.
ISBN : 978-0-201-96425-7
Catégories : Informatique Mots-clés : Entrepôts de données
Bases de données : ConceptionRésumé :
guide pratique le plus complet sur la conception, la construction et la mise en œuvre d'un entrepôt de données sur le marché aujourd'hui. Barry Devlin, l'un des plus grands experts mondiaux de l'entreposage de données, est également l'un des premiers praticiens dans ce domaine. Dans ce livre, il distille les idées et les expériences acquises au cours de 10 années de conception et de construction d'entrepôts de données. Sont inclus : * Une explication de l'architecture optimale à trois niveaux pour l'entrepôt de données, avec une division claire entre les données et l'information * Une description complète des fonctions nécessaires pour mettre en œuvre une telle architecture, y compris le rapprochement des données existantes et diverses et la dérivation cohérente, informations commerciales précieuses * Une méthodologie détaillée pour construire un entrepôt de données d'une manière qui fournit une valeur commerciale et une infrastructure stratégique à chaque étape * Une approche de haut niveau pour justifier l'effort impliqué * Une vue des aspects organisationnels de la construction et de la maintenance d'un entrepôt livre deviendra la référence clé pour toute équipe entreprenant la construction d'un entrepôt de données. Il s'adresse en priorité aux responsables SI, architectes et concepteurs impliqués dans cette démarche, ainsi qu'aux utilisateurs finaux ayant un rôle clé dans l'évolution.Note de contenu :
Table of Contents
1. Introduction.
I. THE EVOLUTION OF DATA WAREHOUSING (THE HISTORICAL CONTEXT).
2. The Data Warehouse—A Brief History.
3. Today's Development Environment.
II. PRINCIPLES OF DATA WAREHOUSING (ARCHITECTURE AND DESIGN TECHNIQUES).
4. Types of Data and Their Uses.
5. Conceptual Data Architecture.
6. Design Techniques.
7. Introduction to the Logical Architecture.
III. CREATING THE DATA ASSET (BUSINESS DATA WAREHOUSE DESIGN).
8. Business Data Warehouse Design.
9. Populating the Data Warehouse.
IV. UNLOCKING THE DATA ASSET FOR END USERS. (THE USE OF BUSINESS INFORMATION).
10. Designing Business Information Warehouses.
11. Populating Business Information Warehouses.
12. User Access to Information.
13. Information—in Context.
V. IMPLEMENTING THE WAREHOUSE (MANAGING THE PROJECT AND ENVIRONMENT).
14. Obstacles to Implementation.
15. Planning Your Implementation.
16. Justifying the Warehouse.
17. Organizational Implications of Data Warehousing.
18. The Data Warehouse in Your Organization.
19. Data Warehouse Management.
20. Looking to the Future.Côte titre : Fs/19729 Exemplaires (1)
Code-barres Cote Support Localisation Section Disponibilité Fs/19729 Fs/19729 Livre Bibliothéque des sciences Français Disponible
DisponibleData Warehousing, Data Mining And Olap / Alex Berson
PermalinkData warehousing design and advanced engineering applications
PermalinkData warehousing fundamentals for IT professionals / Paulraj Ponniah
PermalinkPermalinkDebian GNU-Linux / Yann Le Thieis
PermalinkDebian GNU-Linux / Pierre, Philippe
PermalinkDebian GNULinux : services réseaux (Bind DNS, Apache, NFS, Samba, Messagerie...) / Pierre Fauquembergue
PermalinkDécouverte du machine learning
PermalinkDeep learning / Ian Goodfellow
PermalinkDeep learning avec Keras et TensorFlow / Aurélien Géron
Permalink