R en RStudio
Ik adviseer je om RStudio pas te installeren als R succesvol is geïnstalleerd. Het is gewoon mogelijk om RStudio te installeren zonder dat je R geïnstalleerd hebt, alleen werkt het pas als R ook geïnstalleerd is. R draait namelijk onder de motorkap van RStudio. Als je RStudio installeert nadat je R hebt geïnstalleerd, zoekt RStudio automatisch naar de locatie van R op voor jouw machine. Als dit andersom doet, is er de kans dat je dit later in RStudio zelf moet configureren.
RStudio is een zeer uitgebreide en zeer gebruiksvriendelijke ontwikkelomgeving voor R. Het geeft je als gebruiker een veel beter beeld van waar je mee bezig bent tijdens een R-sessie. Daarbij heeft RStudio veel hulpmiddelen die je kunt gebruiken door erop te klikken, terwijl je daar voor in de normale R-commands voor zou moeten gebruiken. Ik adviseer je daarom om RStudio te gebruiken. Mocht je toch liever de normale R-omgeving gebruiken, staat niets je daarvoor in de weg. Ook dan kun je alle instructies in dit boek probleemloos volgen.
De R-console
De R-console is een venster waarin je commands kunt invoeren. Het invoeren van commands is wat we in dit geval het programmeren noemen. Eigenlijk spreken we pas van programmeren als we een script bouwen dat uit een verzameling commands bestaat en dit door een systeem wordt uitgevoerd. Aangezien een script bestaat uit commands en je van de commands in dit boek ook uiteindelijk je eigen script kan maken, spreken we in dit boek uiteindelijk toch van programmeren.
De R-console reageert op ieder commando dat we invoeren. Grofweg doet de R-console twee dingen: opslaan en reageren. Dit wordt een Read Evaluate Print Loop (REPL) genoemd. Deze R-console is te zien in Figure 1. Als we een waarde aan een nieuwe variabele toewijzen, slaat R deze op en geeft hij pas deze waarde terug als we deze variabele weer oproepen. Als we echter een functie gebruiken of zelf een waarde invoeren, geeft R een reactie. Deze reactie is dezelfde waarde, of de waarde na de toepassing van een functie. In de onderstaande schermafbeelding geven we de waarde "Hello World!"
aan de print()
functie. R past de functie toe op deze waarde en geeft het resultaat terug. We gaan hier veel dieper op in tijdens de hoofdstukken in dit boek.
De R Studio omgeving
In Figure 2 zie je de RStudio IDE. IDE staat voor Intelligent Development Environment en dat beschrijft ook precies de toegevoegde waarde van RStudio ten opzichte van de standaard R-console. De RStudio is een stuk uitgebreider dan de R-console, maar zeker niet ingewikkeld. De extra vensters zijn namelijk visuele hulpmiddelen die eigenlijk verstopt zijn bij de normale R-console. Het venster links onderin herken je waarschijnlijk, het is namelijk exact dezelfde R-console. Deze werkt exact hetzelfde als de normale R-console. Een toevoeging in RStudio is dat hier de R-console self complete toepast op de commando's. Als je bijvoorbeeld een functie invoert of een object oproept, geeft de R-console een hint voor het commando dat je bedoelt.
Links bovenin zie je een dataset. Omdat je logischerwijs met datasets werkt in R, wil je af en toe weten hoe de dataset eruit ziet. Deze datasets worden dan op dit venster weergegeven. Daarbij zijn er handige mogelijkheden om data te sorteren en te selecteren. Dit venster is ook de plek waar jouw R scripts verschijnen. Met het knopje links bovenin (het blaadje met het plusje) kun je een nieuw R-script toevoegen. Ik adviseer je sterk om een R script te gebruiken. Een klein voorbeeld van een script kun je vinden in Figure 3. Zo heb je altijd een overzicht van de commando's die in de R-sessie worden uitgevoerd en belangrijker nog, je kunt het opslaan als bestand en is daarmee een eindproduct van de R-sessie.
In een script kun je de commando's intypen en laten uitvoeren in de console. Dit doe je door de cursor aan het begin van de regel van het command te plaatsen en Ctrl + Enter
of Cmd + Enter
(Mac) in te gebruiken. Je kunt ook de hele regel selecteren en Ctrl + Enter
of Cmd + Enter
gebruiken om een commando uit te voeren.
Rechts bovenin heb je het overzicht van de objecten in de huidige R-sessie. Dit zijn bijvoorbeeld variabelen met de toegewezen waarden, functies en datasets. Daarbij heb je een tab met history, hiermee krijg je een handig overzicht van de commando's die je in deze R-sessie hebt uitgevoerd.
Het venster rechts onderin bevat de meeste tabs van alle vensters. De Files tab is de verkenner waarmee je door de bestanden en mappen kunt bladeren. Het Plots tab is de plek waar de grafieken en andere visualisaties worden weergegeven. Dit tab opent zich automatisch zodra je in R een commando invoert om een visualisatie weer te geven. Het packages tab geeft een overzicht van de gedownloade en geopende packages in de huidige omgeving (jouw account op de laptop of computer). Packages zijn modules gemaakt door ontwikkelaars om extra functies toe te voegen in R, deze zullen we ook tegenkomen in dit boek. Het Viewer venster is iets nieuwer dan het Plots venster en neemt de interactieve visualisaties zoals kaarten voor zijn rekening.
Deze vensters in RStudio geven samen een uitstekende ervaring voor het data analyseren met R. Ongetwijfeld zal je dit zelf ervaren. De zojuist behandelde onderdelen zijn slechts het topje van de ijsberg qua features in RStudio. Voor het verdere verloop van dit boek zijn de belangrijkste in ieder geval behandeld.