Présentation

Applications

Avantages

Cas pratiques

 

Advanced Edition

Standard Edition

Visualisation 3D

Toutes les versions

 

Contacts

Les iris de Fisher

 

Type de problématique : classification

Observations : 150

Variables explicatives : 4 (numériques)

Variable à prédire : discrète avec 3 modalités

Téléchargement des données : DataIris

 

Il s’agit très certainement de l’exemple le plus célèbre pour illustrer les problèmes de classification. En se basant sur 4 caractéristiques des fleurs (la longueur du sépale, la largeur du sépale, la longueur du pétale et la largeur du pétale), l’objectif est de classer un échantillon de 150 iris dans les 3 familles suivantes : versicolor, virginica et setosa. Les mesures sont en centimètres. Notons que l’échantillon est parfaitement équilibré (50 iris de chaque famille).

Sources : R.A. Fisher. "The use of multiple measurements in taxonomic problems. Annals of Eugenics", 7(2), 179–188 (1936)

 

Modèle à 1 variable

Le modèle extrait le plus simple ne fait intervenir qu’une seule variable explicative, la largeur du pétale :

* Si (Largeur du pétale est inférieure à 0,8) alors (Iris est plutôt Virginica)

* Si (Largeur du pétale est supérieure à 1,6) alors (Iris est plutôt Setosa)

* Sinon (Iris est plutôt Versicolor)

 

Ce modèle permet de classer correctement 144 des 150 données de l’échantillon (soit 96 %). On peut le représenter graphiquement (courbe orange) superposé aux données expérimentales (points en vert) :

 

 

Modèle à 2 variables

Ce modèle implique une deuxième variable : la longueur du pétale. Il est similaire au premier modèle, mais comporte une règle supplémentaire :

* Si (Largeur du pétale est inférieure à 0,8) alors (Iris est plutôt Virginica)

* Si (Largeur du pétale est supérieure à 1,6) alors (Iris est plutôt Setosa)

* Si (Longueur du pétale est supérieure à 5) alors (Iris est plutôt Setosa)

* Sinon (Iris est plutôt Versicolor)

 

Il permet de classer correctement 147 des 150 données de l’échantillon (soit 98 %) :

 

 

Modèle permettant un classement total (3 variables)

Le modèle suivant permet de classer correctement la totalité des 150 données de l’échantillon :

* Si (Largeur du pétale est inférieure à 0,8) alors (Iris est plutôt Virginica)

* Si (Largeur du sépale n'est pas proche de 2,6) et (Longueur du pétale est supérieure à 5) alors (Iris est plutôt Setosa)

* Si (Largeur du sépale est inférieure à 2,8) et (Largeur du pétale est supérieure à 1,6) alors (Iris est plutôt Setosa)

* Sinon (Iris est plutôt Versicolor)

 

Ce modèle fait intervenir 3 variables : la largeur du pétale, la longueur du pétale et la largeur du sépale. Il montre clairement qu'il est facile de séparer la famille des iris Virginica (la largeur du pétale est inférieure à 0,8 cm). Par contre, il est plus difficile de séparer les familles des iris Versicor et Setosa (ce qui est fait avec les deuxième et troisième règles).

 

Le graphique suivant est une représentation "4D" de ce modèle :

 

 

 

 
 

BLIASoft Knowledge Discovery - Logiciel de data mining & d'aide à la décision - Logique floue & intelligence artificielle

              © 2007-2014 BLIASOLUTIONS - Tous droits réservés | Conditions d'utilisation | Contacts | Plan