1 Beschrijving

De iris dataset zit standaard in R, en bevat 5 variabelen:

Deze wordt voor heel veel statistisch educatieve doeleinden gebruikt, en er is een volledige Wikipedia pagina aan gewijd. Daar vinden we ook enkele mooie foto’s terug van de iris bloem. Aangezien de afmetingen van deze foto’s sterk verschillen, zoeken we verder op Google en vinden we op deze website een gecombineerde foto die we hier invoegen, met een bijschrift.

Mooie foto van de iris bloem

Mooie foto van de iris bloem

2 Dataset bekijken

Vragen we de structuur op van deze dataset (met het commando str), dan zien we dat inderdaad de eerder genoemde variabelen erin zitten, en dat de dataset gegevens bevat over 150 bloemen.

str(iris)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Nu vragen we ons af of er evenveel records per soort in de dataset zitten. Dit komen we te weten met het table commando op de Species variabele.

table(iris$Species)

We voeren het vorige commando niet uit, maar verkiezen de mooie layout door de functie kable uit het knitr package rond het table commando te zetten.

Soort Aantal
setosa 50
versicolor 50
virginica 50

3 Enkele statistieken

We kunnen heel veel kenmerken aflezen of afleiden uit de volgende output.

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Het is echter efficiënter om hiervoor gebruik te maken van berekende waarden, en deze als inline code op te roepen in de tekst. Zo dienen veranderingen in de dataset, en dus ook in de statistieken, niet meer manueel aangepast te worden.

4 Plotjes van de dataset

We maken de volgende plotjes die ons een idee kunnen geven van de verschillende variabelen in de dataset.

  1. Boxplots van de 4 variabelen, opgesplitst per soort (5cm hoog, 7.5cm breed)
  2. Scatterplots van de lengte en breedte variabelen (5cm hoog, 15cm breed)
    1. Verschillende kleuren per soort
    2. Lineaire smoother per soort
    3. Lijn en betrouwbaarheidsinterval van de smoother eveneens gekleurd per soort
  3. Histogrammen van de 4 variabelen, met 10 klassen (5cm hoog, 7.5cm breed)

Elk type plot komt in een aparte subsectie van het document.

4.1 Boxplots

4.2 Scatterplots

4.3 Histogrammen