Ricerca…


Creare tbl_df's

Un tbl_df (pronuncia tibble diff ) è una variazione di un frame di dati che viene spesso utilizzato nei pacchetti tidyverse. È implementato nel pacchetto tibble .

Usa la funzione as_data_frame per trasformare un frame di dati in un tbl_df:

library(tibble)
mtcars_tbl <- as_data_frame(mtcars)

Una delle differenze più notevoli tra data.frames e tbl_dfs è il modo in cui stampano:

# A tibble: 32 x 11
     mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
*  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1   21.0     6 160.0   110  3.90 2.620 16.46     0     1     4     4
2   21.0     6 160.0   110  3.90 2.875 17.02     0     1     4     4
3   22.8     4 108.0    93  3.85 2.320 18.61     1     1     4     1
4   21.4     6 258.0   110  3.08 3.215 19.44     1     0     3     1
5   18.7     8 360.0   175  3.15 3.440 17.02     0     0     3     2
6   18.1     6 225.0   105  2.76 3.460 20.22     1     0     3     1
7   14.3     8 360.0   245  3.21 3.570 15.84     0     0     3     4
8   24.4     4 146.7    62  3.69 3.190 20.00     1     0     4     2
9   22.8     4 140.8    95  3.92 3.150 22.90     1     0     4     2
10  19.2     6 167.6   123  3.92 3.440 18.30     1     0     4     4
# ... with 22 more rows
  • L'output stampato include un riepilogo delle dimensioni del tavolo ( 32 x 11 )
  • Include il tipo di ogni colonna ( dbl )
  • Stampa un numero limitato di righe. (Per modificare questa options(tibble.print_max = [number]) utilizzo options(tibble.print_max = [number]) ).

Molte funzioni nel pacchetto dplyr funzionano naturalmente con tbl_dfs, come group_by() .

tidyverse: una panoramica

Cos'è il tidyverse ?

tidyverse è il modo veloce ed elegante per trasformare la R base in uno strumento avanzato, ridisegnato da Hadley / Rstudio. Lo sviluppo di tutti i pacchetti inclusi in tidyverse segue le regole principali del manifesto The Tidy Tools . Ma prima, lascia che gli autori descrivano il loro capolavoro:

Il tidyverse è un insieme di pacchetti che funzionano in armonia perché condividono rappresentazioni di dati comuni e design API. Il pacchetto tidyverse è progettato per semplificare l'installazione e il caricamento dei pacchetti core dal tidyverse in un unico comando.

Il posto migliore per conoscere tutti i pacchetti nel tidyverse e come si integrano è R for Data Science. Aspettatevi di saperne di più sul tidyverse nei prossimi mesi mentre lavoro sui migliori siti web dei pacchetti, rendendo più facile la citazione e fornendo una casa comune per le discussioni sull'analisi dei dati con il tidyverse.

( fonte ))

Come usarlo?

Solo con i normali pacchetti R , è necessario installare e caricare il pacchetto.

install.package("tidyverse")
library("tidyverse")

La differenza è che su un singolo comando sono installate / caricate un paio di dozzine di pacchetti. Come bonus, si può essere certi che tutti i pacchetti installati / caricati sono di versioni compatibili.

Quali sono quei pacchetti?

I pacchetti comunemente conosciuti e ampiamente usati:

  • ggplot2 : visualizzazione avanzata dei dati SO_doc
  • dplyr : veloce ( Rcpp ) e approccio coerente alla manipolazione dei dati SO_doc
  • tidyr : strumenti per il riordino dei dati SO_doc
  • readr : per l'importazione dei dati.
  • purrr : fai le fusa delle tue pure funzioni completando gli strumenti di programmazione funzionale di R con funzionalità importanti di altri linguaggi, nello stile dei pacchetti JS underscore.js, lodash e lazy.js.
  • tibble : una moderna rivisitazione di frame di dati.
  • magrittr : piping per rendere il codice più leggibile SO_doc

Pacchetti per manipolare formati di dati specifici:

  • hms : tempi di lettura facili
  • stringr : fornisce un insieme coerente di funzioni progettate per rendere il lavoro con le stringhe il più semplice possibile
  • lubridate : manipolazioni di data / ora avanzate SO_doc
  • forcats : lavoro avanzato con fattori .

Importazione dei dati:

  • DBI : definisce un'interfaccia comune tra R e sistemi di gestione del database (DBMS)
  • rifugio : importa facilmente file SPSS, SAS e Stata SO_doc
  • httr : l'obiettivo di httr è fornire un wrapper per il pacchetto curl, personalizzato in base alle esigenze delle moderne API Web
  • jsonlite : un parser e generatore JSON veloce ottimizzato per dati statistici e web
  • readxl : read.xls e .xlsx senza bisogno di pacchetti di dipendenza SO_doc
  • rvest : rvest ti aiuta a racimolare le informazioni dalle pagine web SO_doc
  • xml2 : per XML

E modellando:

  • modelr : fornisce funzioni che aiutano a creare eleganti pipeline durante la modellazione
  • scopa : estrae facilmente i modelli in dati ordinati

Infine, il tidyverse suggerisce l'uso di:

  • knitr : il sorprendente motore di programmazione alfabetico per scopi generici, con API leggere progettate per offrire agli utenti il ​​pieno controllo dell'output senza pesanti operazioni di codifica. SO_docs: uno , due
  • rmarkdown : pacchetto Rstudio per la programmazione riproducibile. SO_docs: uno , due , tre , quattro


Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow