silico.biotoul.fr
 

M1 MABS BBS Data Mining TD Classification

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Les données)
m (Analyses préliminaires avec R)
Line 18: Line 18:
== Analyses préliminaires avec R ==
== Analyses préliminaires avec R ==
 +
 +
Charger le jeu de données et utiliser la commande <tt>summary</tt> pour vous faire une idée du nombre d'instances de chaque classe, et du nombre de modalité de chaque facteur (attribut/dimension/variable).
 +
 +
Etudiez ensuite la liaison entre chaque variable et la classe. Pour cela, vous pourrez utiliser le test du &chi;<sup>2</sup> d'indépendance. Utilisez également la fonction <tt>table</tt> (pour générer une table de contingence) pour la combiner avec la fonction <tt>plot</tt> afin d'explorer visuellement les biais entre chaque attribut et la classe.
 +
 +
Exemple de visualisation :
 +
 +
[[Image:mushrooms.gill.attachment.png]]
 +
 +
Ces analyses devrait vous permettre de vous faire une idée sur la pertinence d'un attribut en ce qui concerne l'objectif : classer un champignon comme comestible ou pas.
== Analyses avec KNIME ==
== Analyses avec KNIME ==

Revision as of 15:51, 25 November 2014

Contents

Introduction

Afin de mettre en pratique les concepts vus en cours, nous allons nous appuyer sur des jeux de données publiques hébergées par le UC Irvine Machine Learning Repository.

Pour le premier jeu de données intitulé "mushrooms", il s'agit de classer un champignon comme comestible ou non en fonction d'attributs de type catégoriel. Pour le second - italian wines -, il s'agit de prédire le cultivar du cépage en fonction de mesures quantitatives.

Pour cela, nous utiliserons différents environnements :

  • KNIME : un logiciel d'analyse qui est en fait un environnement dérivé de la plateforme de développement intégré Eclipse
  • R : environnement orienté calcul numérique & statistiques
  • python : un langage de programmation afin de voir l'utilisation de bibliothèque de fouille de données ainsi que pour réaliser son propre programme de classification

Mushrooms

Les données

Le premier jeu de données concerne des champignons. Il est publié à l'adresse : http://archive.ics.uci.edu/ml/datasets/Mushroom

La description du jeu de données est aussi accessible ici.

Le jeu de données modifié pour inclure une première ligne contenant les noms des colonnes est disponible ici.

Analyses préliminaires avec R

Charger le jeu de données et utiliser la commande summary pour vous faire une idée du nombre d'instances de chaque classe, et du nombre de modalité de chaque facteur (attribut/dimension/variable).

Etudiez ensuite la liaison entre chaque variable et la classe. Pour cela, vous pourrez utiliser le test du χ2 d'indépendance. Utilisez également la fonction table (pour générer une table de contingence) pour la combiner avec la fonction plot afin d'explorer visuellement les biais entre chaque attribut et la classe.

Exemple de visualisation :

Image:mushrooms.gill.attachment.png

Ces analyses devrait vous permettre de vous faire une idée sur la pertinence d'un attribut en ce qui concerne l'objectif : classer un champignon comme comestible ou pas.

Analyses avec KNIME

Italian wines

Les données

Analyses avec KNIME

Analyses avec R

Analyses avec python