Eenvoudige manieren om de dataset te verkennen

Voordat je aan de slag gaat met een dataset, is het handig om een goed beeld te krijgen van de dataset. Zo voorkom je om dingen te willen doen met de dataset die helemaal niet kunnen. Er is geen standaard aanpak om een dataset te verkennen, iedereen heeft zijn eigen manier om dit te doen. Echter biedt R wel handige functies en methoden om de dataset te verkennen. We zullen er een paar bespreken.

De structuur van de dataset weergeven: de str() functie

De str() (structure) functie geeft de structuur van de dataset weer. Het geeft aan uit hoeveel rijen en kolommen de dataset bestaat en welk datatype elke kolom is. Deze kolommen worden variabelen (variables) genoemd.

# de structuur van de dataset laten zien met de str() functie

str(mtcars)
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

Zoals je in het voorbeeld kunt zien, wordt voor iedere variabele een voorbeeld van de data gegeven. Daarbij staan bovenaan in de output van de str() functie de dimensies van de dataset: 32 obs: 32 observaties/rijen en 11 variables: 11 variabelen/kolommen.

De dimensies, het aantal rijen en kolommen, laten zien van de dataset

dim(mtcars)
## [1] 32 11

Individueel het aantal rijen en aantal kolommen van de dataset laten zien

Om het aantal rijen in de dataset te laten zien, gebruik je de nrow() functie:

nrow(mtcars)
## [1] 32

Om het aantal kolommen in de dataset te laten zien, gebruik je de ncol() functie:

ncol(mtcars)
## [1] 11

De kolomnamen van de dataset weergeven

Om de namen van de variabelen van de dataset weer te geven, gebruik je de names() functie:

names(mtcars)
##  [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
## [11] "carb"

Ook kun je de colnames() functie gebruiken:

colnames(mtcars)
##  [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
## [11] "carb"

Eenvoudig een statistische samenvatting geven van de dataset met de summary() functie

De summary() functie laat heel eenvoudig basale statistische informatie zien over iedere kolom in de dataset.

summary(mtcars)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000

Ook kun je de summary() functie gebruiken voor een enkele variabele in de dataset:

summary(mtcars$hp)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    52.0    96.5   123.0   146.7   180.0   335.0

Je kunt zien dat de $ operator wordt gebruikt om een variabele uit de dataset te selecteren. Later in dit boek wordt deze en andere handelingen met data frames behandeld.

results matching ""

    No results matching ""