Een lokale dataset importeren in R

Een dataset importeren die op jouw eigen machine staat opgeslagen, is ook zeer eenvoudig in R. Dit kan met de commands read.table() en read.csv(). Aan de hand van argumenten kunnen we specificeren welk bestand en op welke manier we deze willen importeren. Aangezien we werken in RStudio, wordt het importeren van datasets vanuit de Import Dataset functie van RStudio uitgelegd. Het command wordt op basis van deze functionaliteit gegenereerd en kunnen we vanaf dat moment beter bekijken.

Gebruik maken van de Import Dataset functionaliteit in RStudio voor lokale databestanden

In de RStudio IDE kun je onder de Environment-tab de knop Import Dataset vinden. We willen een dataset importeren die zich op onze eigen machine (laptop of PC) staat opgeslagen, daarom kiezen we voor From Local File.

From Local File

Een handige pagina waarin een handig overzicht wordt gegeven over de mogelijkheden om databestanden te importeren in R is de R Tutorial [3] pagina "Data Import") van Chi Yau, (2016) . Hierin wordt o.a. ook aangegeven dat je voor sommige formaten, bijvoorbeeld voor Microsoft Excel spreadsheets, een extra package moet installeren.

Specificeren hoe je de lokale dataset wilt importeren in de Import Dataset functie

Zodra je op Import Dataset heb geklikt, komt er venster tevoorschijn waarmee je moet navigeren naar de dataset die je wilt importeren. Zodra je de dataset heb geselecteerd, krijg je het venster "Import Dataset" te zien. Hiermee kun je precies specificeren op welke manier je de dataset wilt importeren. Elk onderdeel wordt hieronder kort beschreven.

RStudio heeft de goede eigenschap door van te voren al op de juiste manier te specificeren hoe de dataset geïmporteerd moet worden. Is dit niet ingevuld zoals je dat wilt, kun je het in dit venster aanpassen.

Import Dataset specificatie

Selectie Omschrijving
* Encoding De codering van het tekstbestand. Laat deze lekker op "automatic" staan.
* Heading Heading is een belangrijk onderdeel in deze pagina. Je geeft hier namelijk aan of de eerste rij van de dataset de namen van de kolommen bevat.
* Row names Hiermee kun je aangeven of rijen een naam hebben in plaats van nummers. (De mtcars dataset bevat row names, namelijk de namen van de auto's).
* Seperator Geeft aan waardoor de waarden in het originele bestand gescheiden worden. Dit is meestal een komma (,) of een lijstscheidingsteken (;). Is dit anders, dan kun je dit ook selecteren.
* Decimal Hier kun je de keuze maken hoe decimalen staan genoteerd in de dataset. In het Engels (Amerikaans) is dit een punt (.), waarbij het bij ons een komma (,) is.
* Quote Hiermee kun je aangeven hoe aanhalingstekens in de dataset genoteerd zijn.
* Comment Sommige databestanden bevatten commentaar. Net zoals we daar in R # voor gebruiken. Hierin kun je specificeren welk teken wordt gebruikt voor commentaar in de dataset die wordt geïmporteerd. Op deze manier worden deze regels overgeslagen in R;
* na.strings Geeft aan hoe NA's (lege waarden) worden weergegeven in R.
* Strings as factors Selecteer of je character waarden (strings) als factor datatype wilt aangeven inladen in R.

Op basis van wat er ingevoerd is in het Import Dataset venster, wordt er door RStudio automatisch de code gegenereerd die de data op de gewenste manier importeert. Het onderstaande voorbeeld laat zien dat de code automatisch gegenereerd wordt en daarna direct wordt opgeslagen als het object Consumentenprijzen.

# Het csv-bestand wordt geïmporteerd

Consumentenprijzen <- read.csv("<jouw locatie>/Consumentenprijzen.csv")

De dataset bekijken met het View() command

RStudio geeft automatisch een View() command zodra er een dataset wordt ingeladen. Hierdoor zie je direct de zojuist geïmporteerde dataset in het venster in RStudio.

Het geïmporteerde object hernoemen

Aangezien Consumentenprijzen een vrij lange naam is en het misschien vervelend is om deze naam iedere keer opnieuw volledig in te tikken, kunnen we deze naam veranderen. Hiervoor maken we gewoon een object aan dat precies dezelfde data bevat als Consumentenprijzen. We noemen Consumentenprijzen voortaan CP. Dit doen we met het volgende command:

CP <- Consumentenprijzen

results matching ""

    No results matching ""