M1 MABS BBS Data Mining TD Classification
From silico.biotoul.fr
m (→Italian wines) |
m (→Les données) |
||
Line 12: | Line 12: | ||
== Les données == | == Les données == | ||
Le premier jeu de données concerne des champignons. Il est publié à l'adresse : http://archive.ics.uci.edu/ml/datasets/Mushroom | Le premier jeu de données concerne des champignons. Il est publié à l'adresse : http://archive.ics.uci.edu/ml/datasets/Mushroom | ||
+ | |||
+ | La description du jeu de données est aussi accessible [[mushrooms.names|ici]]. | ||
+ | |||
+ | Le jeu de données modifié pour inclure une première ligne contenant les noms des colonnes est disponible [[Media:mushrooms.data.txt|ici]]. | ||
== Analyses préliminaires avec R == | == Analyses préliminaires avec R == |
Revision as of 15:39, 25 November 2014
Contents |
Introduction
Afin de mettre en pratique les concepts vus en cours, nous allons nous appuyer sur des jeux de données publiques hébergées par le UC Irvine Machine Learning Repository.
Pour le premier jeu de données intitulé "mushrooms", il s'agit de classer un champignon comme comestible ou non en fonction d'attributs de type catégoriel. Pour le second - italian wines -, il s'agit de prédire le cultivar du cépage en fonction de mesures quantitatives.
Pour cela, nous utiliserons différents environnements :
- KNIME : un logiciel d'analyse qui est en fait un environnement dérivé de la plateforme de développement intégré Eclipse
- R : environnement orienté calcul numérique & statistiques
- python : un langage de programmation afin de voir l'utilisation de bibliothèque de fouille de données ainsi que pour réaliser son propre programme de classification
Mushrooms
Les données
Le premier jeu de données concerne des champignons. Il est publié à l'adresse : http://archive.ics.uci.edu/ml/datasets/Mushroom
La description du jeu de données est aussi accessible ici.
Le jeu de données modifié pour inclure une première ligne contenant les noms des colonnes est disponible ici.