Eenvoudige manieren om de dataset te verkennen
Voordat je aan de slag gaat met een dataset, is het handig om een goed beeld te krijgen van de dataset. Zo voorkom je om dingen te willen doen met de dataset die helemaal niet kunnen. Er is geen standaard aanpak om een dataset te verkennen, iedereen heeft zijn eigen manier om dit te doen. Echter biedt R wel handige functies en methoden om de dataset te verkennen. We zullen er een paar bespreken.
De structuur van de dataset weergeven: de str()
functie
De str()
(structure) functie geeft de structuur van de dataset weer. Het geeft aan uit hoeveel rijen en kolommen de dataset bestaat en welk datatype elke kolom is. Deze kolommen worden variabelen (variables
) genoemd.
# de structuur van de dataset laten zien met de str() functie
str(mtcars)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
Zoals je in het voorbeeld kunt zien, wordt voor iedere variabele een voorbeeld van de data gegeven. Daarbij staan bovenaan in de output van de str()
functie de dimensies van de dataset: 32 obs
: 32 observaties/rijen en 11 variables
: 11 variabelen/kolommen.
De dimensies, het aantal rijen en kolommen, laten zien van de dataset
dim(mtcars)
## [1] 32 11
Individueel het aantal rijen en aantal kolommen van de dataset laten zien
Om het aantal rijen in de dataset te laten zien, gebruik je de nrow()
functie:
nrow(mtcars)
## [1] 32
Om het aantal kolommen in de dataset te laten zien, gebruik je de ncol()
functie:
ncol(mtcars)
## [1] 11
De kolomnamen van de dataset weergeven
Om de namen van de variabelen van de dataset weer te geven, gebruik je de names()
functie:
names(mtcars)
## [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"
## [11] "carb"
Ook kun je de colnames()
functie gebruiken:
colnames(mtcars)
## [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"
## [11] "carb"
Eenvoudig een statistische samenvatting geven van de dataset met de summary()
functie
De summary()
functie laat heel eenvoudig basale statistische informatie zien over iedere kolom in de dataset.
summary(mtcars)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
Ook kun je de summary()
functie gebruiken voor een enkele variabele in de dataset:
summary(mtcars$hp)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 52.0 96.5 123.0 146.7 180.0 335.0
Je kunt zien dat de
$
operator wordt gebruikt om een variabele uit de dataset te selecteren. Later in dit boek wordt deze en andere handelingen met data frames behandeld.