R Language
tidyverse
Ricerca…
Creare tbl_df's
Un tbl_df (pronuncia tibble diff ) è una variazione di un frame di dati che viene spesso utilizzato nei pacchetti tidyverse. È implementato nel pacchetto tibble .
Usa la funzione as_data_frame
per trasformare un frame di dati in un tbl_df:
library(tibble)
mtcars_tbl <- as_data_frame(mtcars)
Una delle differenze più notevoli tra data.frames e tbl_dfs è il modo in cui stampano:
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
* <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
2 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
3 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
4 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
5 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
6 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
7 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
8 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
9 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
10 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
# ... with 22 more rows
- L'output stampato include un riepilogo delle dimensioni del tavolo (
32 x 11
) - Include il tipo di ogni colonna (
dbl
) - Stampa un numero limitato di righe. (Per modificare questa
options(tibble.print_max = [number])
utilizzooptions(tibble.print_max = [number])
).
Molte funzioni nel pacchetto dplyr funzionano naturalmente con tbl_dfs, come group_by()
.
tidyverse: una panoramica
Cos'è il tidyverse
?
tidyverse
è il modo veloce ed elegante per trasformare la R
base in uno strumento avanzato, ridisegnato da Hadley / Rstudio. Lo sviluppo di tutti i pacchetti inclusi in tidyverse
segue le regole principali del manifesto The Tidy Tools . Ma prima, lascia che gli autori descrivano il loro capolavoro:
Il tidyverse è un insieme di pacchetti che funzionano in armonia perché condividono rappresentazioni di dati comuni e design API. Il pacchetto tidyverse è progettato per semplificare l'installazione e il caricamento dei pacchetti core dal tidyverse in un unico comando.
Il posto migliore per conoscere tutti i pacchetti nel tidyverse e come si integrano è R for Data Science. Aspettatevi di saperne di più sul tidyverse nei prossimi mesi mentre lavoro sui migliori siti web dei pacchetti, rendendo più facile la citazione e fornendo una casa comune per le discussioni sull'analisi dei dati con il tidyverse.
( fonte ))
Come usarlo?
Solo con i normali pacchetti R
, è necessario installare e caricare il pacchetto.
install.package("tidyverse")
library("tidyverse")
La differenza è che su un singolo comando sono installate / caricate un paio di dozzine di pacchetti. Come bonus, si può essere certi che tutti i pacchetti installati / caricati sono di versioni compatibili.
Quali sono quei pacchetti?
I pacchetti comunemente conosciuti e ampiamente usati:
- ggplot2 : visualizzazione avanzata dei dati SO_doc
- dplyr : veloce ( Rcpp ) e approccio coerente alla manipolazione dei dati SO_doc
- tidyr : strumenti per il riordino dei dati SO_doc
- readr : per l'importazione dei dati.
- purrr : fai le fusa delle tue pure funzioni completando gli strumenti di programmazione funzionale di R con funzionalità importanti di altri linguaggi, nello stile dei pacchetti JS underscore.js, lodash e lazy.js.
- tibble : una moderna rivisitazione di frame di dati.
- magrittr : piping per rendere il codice più leggibile SO_doc
Pacchetti per manipolare formati di dati specifici:
- hms : tempi di lettura facili
- stringr : fornisce un insieme coerente di funzioni progettate per rendere il lavoro con le stringhe il più semplice possibile
- lubridate : manipolazioni di data / ora avanzate SO_doc
- forcats : lavoro avanzato con fattori .
Importazione dei dati:
- DBI : definisce un'interfaccia comune tra R e sistemi di gestione del database (DBMS)
- rifugio : importa facilmente file SPSS, SAS e Stata SO_doc
- httr : l'obiettivo di httr è fornire un wrapper per il pacchetto curl, personalizzato in base alle esigenze delle moderne API Web
- jsonlite : un parser e generatore JSON veloce ottimizzato per dati statistici e web
- readxl : read.xls e .xlsx senza bisogno di pacchetti di dipendenza SO_doc
- rvest : rvest ti aiuta a racimolare le informazioni dalle pagine web SO_doc
- xml2 : per XML
E modellando:
- modelr : fornisce funzioni che aiutano a creare eleganti pipeline durante la modellazione
- scopa : estrae facilmente i modelli in dati ordinati
Infine, il tidyverse
suggerisce l'uso di:
- knitr : il sorprendente motore di programmazione alfabetico per scopi generici, con API leggere progettate per offrire agli utenti il pieno controllo dell'output senza pesanti operazioni di codifica. SO_docs: uno , due
- rmarkdown : pacchetto Rstudio per la programmazione riproducibile. SO_docs: uno , due , tre , quattro