Samenvatting
Data verkennen in R
Er zijn verschillende manieren om data te verkennen in R. Je hebt hierbij de keuze uit veel mogelijkheden en een flink pakket aan functies. Er is geen standaard manier om data te verkennen. Wel zijn er functies en manieren die over het algemeen veel gebruikt worden. Het verschilt ook per situatie, je zult bijvoorbeeld vooral de str()
functie gebruiken als de datatypes een cruciale rol spelen in de analyse. Aan de andere kant gebruik je de summary()
functie als je meer in de hoek van statische analyse aan de slag bent. Natuurlijk kun je ook gewoon beide gebruiken, niemand houdt je daarbij tegen.
Basis statistieken gebruiken om data te verkennen
Door middel van functies om de data te verkennen, zoals het gemiddelde (mean()
) en het minimum en maximum (min()
en max()
). Door deze basisfunctie te gebruiken tijdens het data verkennen, krijg je een goed idee van de dataset. Daarbij zou het ook heel goed kunnen dat je opvallende dingen in de data tegenkomt. Gevoel van de dataset krijgen door even kort de tijd te nemen om deze functie toe te passen, zal je helpen om even warm te draaien voor het analyseren van de dataset. Een manier is om van simpele data verkenning geleidelijk over te gaan naar een uitgebreide analyse.
Uitgebreide statistische functies in R
Een van de sterkste punten van R is dat je heel eenvoudig statische functies kunt gebruiken. Achter iedere statistische functie zit natuurlijk een formule, bijvoorbeeld alleen al achter het gemiddelde. In andere programmeertalen zou het gemiddelde nog wel meevallen om op te zoeken, maar meer uitgebreide statistische functies zoals een lineair model of standaard deviatie is veel moeilijker. Bij R zitten deze functies ingebakken met o.a. de mean()
, sd()
, var()
en lm()
.