R Language
tidyverse
Sök…
Skapa tbl_df
En tbl_df (uttalad tibble diff ) är en variation av en dataram som ofta används i tidyverse-paket. Det implementeras i tibblepaketet .
Använd funktionen as_data_frame
att förvandla en dataram till en tbl_df:
library(tibble)
mtcars_tbl <- as_data_frame(mtcars)
En av de mest markanta skillnaderna mellan data.frames och tbl_dfs är hur de skriver ut:
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
* <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
2 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
3 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
4 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
5 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
6 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
7 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
8 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
9 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
10 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
# ... with 22 more rows
- Den tryckta utgången innehåller en sammanfattning av tabellens mått (
32 x 11
) - Det inkluderar typen av varje kolumn (
dbl
) - Den skriver ut ett begränsat antal rader. (För att ändra detta användningsalternativ
options(tibble.print_max = [number])
).
Många funktioner i dplyr-paketet fungerar naturligt med tbl_dfs, till exempel group_by()
.
tidyverse: en översikt
Vad är tidyverse
?
tidyverse
är det snabba och eleganta sättet att förvandla basic R
till ett förbättrat verktyg, omdesignat av Hadley / Rstudio. Utvecklingen av alla paket som ingår i tidyverse
följer tidyverse
i tidyverse
för snygga verktyg . Men låt författarna först beskriva deras mästerverk:
Tidyverse är en uppsättning paket som fungerar i harmoni eftersom de delar gemensamma datarepresentationer och API-design. Tidyverse-paketet är utformat för att göra det enkelt att installera och ladda kärnpaket från tidyverse i ett enda kommando.
Det bästa stället att lära sig om alla paket i tidyverse och hur de passar ihop är R for Data Science. Räknar med att höra mer om tidyverse under de kommande månaderna när jag arbetar på förbättrade paketwebbplatser, underlättar citering och ger ett gemensamt hem för diskussioner om dataanalys med tidyverse.
( källa )
Hur man använder det?
Bara med de vanliga R
paketen måste du installera och ladda paketet.
install.package("tidyverse")
library("tidyverse")
Skillnaden är att på ett enda kommando installeras / laddas ett par dussintals paket. Som en bonus kan man vara säker på att alla installerade / laddade paket är av kompatibla versioner.
Vad är dessa paket?
De vanligt kända och allmänt använda paketen:
- ggplot2 : avancerad datavisualisering SO_doc
- dplyr : snabb ( Rcpp ) och sammanhängande strategi för datamanipulation SO_doc
- tidyr : verktyg för att städa SO_doc
- readr : för dataimport .
- purrr : gör dina rena funktioner att sprida genom att fylla R: s funktionella programmeringsverktyg med viktiga funktioner från andra språk, i stil med JS-paketets underscore.js, lodash och lazy.js.
- tibble : en modern föreställning av dataramar.
- magrittr : piping för att göra koden mer läsbar SO_doc
Paket för att manipulera specifika dataformat:
- hms : lätt lästa tider
- stringr : ge en sammanhängande uppsättning funktioner som är utformade för att göra arbetet med strängar så enkelt som möjligt
- lubridat : avancerade manipulationer av datum / tider SO_doc
- forcats : avancerat arbete med faktorer .
Dataimport:
- DBI : definierar ett gemensamt gränssnitt mellan R och databashanteringssystem (DBMS)
- fristad : enkelt importera SPSS-, SAS- och Stata-filer SO_doc
- httr : syftet med httr är att tillhandahålla en wrapper för curlpaketet, anpassat efter kraven från moderna webb-API: er
- jsonlite : en snabb JSON-parser och generator optimerad för statistisk data och webben
- readxl : read.xls och .xlsx-filer utan behov av beroende-paket SO_doc
- rvest : rvest hjälper dig att skrapa information från webbsidor SO_doc
- xml2 : för XML
Och modellering:
- modelr : tillhandahåller funktioner som hjälper dig att skapa eleganta rörledningar när du modellerar
- kvast : extrahera modellerna enkelt i städad data
Slutligen föreslår tidyverse
användningen av:
- knitr : den fantastiska programmeringsmotorn för allmänt bruk, med lätta API: er utformad för att ge användarna full kontroll över resultatet utan tungt kodningsarbete. SO_docs: en , två
- rmarkdown : Rstudios paket för reproducerbar programmering. SO_docs: en , två , tre , fyra