R Language
tidyverse
Buscar..
Creando tbl_df's
Un tbl_df (pronunciado tibble diff ) es una variación de un marco de datos que se usa a menudo en paquetes tidyverse. Se implementa en el paquete tibble .
Use la función as_data_frame
para convertir un marco de datos en un tbl_df:
library(tibble)
mtcars_tbl <- as_data_frame(mtcars)
Una de las diferencias más notables entre data.frames y tbl_dfs es cómo se imprimen:
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
* <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
2 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
3 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
4 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
5 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
6 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
7 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
8 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
9 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
10 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
# ... with 22 more rows
- La salida impresa incluye un resumen de las dimensiones de la tabla (
32 x 11
) - Incluye el tipo de cada columna (
dbl
). - Imprime un número limitado de filas. (Para cambiar esta
options(tibble.print_max = [number])
usooptions(tibble.print_max = [number])
).
Muchas funciones en el paquete dplyr funcionan naturalmente con tbl_dfs, como group_by()
.
Tidyverse: una visión general
¿Qué es tidyverse
?
tidyverse
es la forma rápida y elegante de convertir la R
básica en una herramienta mejorada, rediseñada por Hadley / Rstudio. El desarrollo de todos los paquetes incluidos en tidyverse
sigue las reglas principales del manifiesto de The tidy tools . Pero primero, dejemos que los autores describan su obra maestra:
El tidyverse es un conjunto de paquetes que funcionan en armonía porque comparten representaciones de datos comunes y diseño de API. El paquete tidyverse está diseñado para facilitar la instalación y carga de los paquetes principales desde el tidyverse en un solo comando.
El mejor lugar para aprender sobre todos los paquetes en el tidyverse y cómo encajan es R para Data Science. Espero saber más sobre el tidyverse en los próximos meses a medida que trabajo en sitios web de paquetes mejorados, facilitando las citas y proporcionando un hogar común para las discusiones sobre el análisis de datos con el tidyverse.
( fuente ))
¿Cómo usarlo?
Solo con los paquetes R
normales, necesita instalar y cargar el paquete.
install.package("tidyverse")
library("tidyverse")
La diferencia es que en un solo comando se instalan / cargan un par de docenas de paquetes. Como beneficio adicional, uno puede estar seguro de que todos los paquetes instalados / cargados son de versiones compatibles.
¿Qué son esos paquetes?
Los paquetes comúnmente conocidos y ampliamente utilizados:
- ggplot2 : visualización avanzada de datos SO_doc
- dplyr : enfoque rápido ( Rcpp ) y coherente para la manipulación de datos SO_doc
- tidyr : herramientas para ordenar datos SO_doc
- readr : para la importación de datos.
- purrr : pone a punto sus funciones puras al completar las herramientas de programación funcional de R con características importantes de otros lenguajes, en el estilo de los paquetes JS underscore.js, lodash y lazy.js.
- tibble : una moderna re-imaginación de marcos de datos.
- magrittr : canalización para hacer el código más legible SO_doc
Paquetes para manipular formatos de datos específicos:
- hms : leer fácilmente los tiempos
- stringr : proporciona un conjunto cohesivo de funciones diseñadas para que trabajar con cadenas sea lo más fácil posible
- Lubridate : Manipulaciones avanzadas de fecha / hora SO_doc
- Forcats : trabajo avanzado con factores .
Importación de datos:
- DBI : define una interfaz común entre la R y los sistemas de administración de bases de datos (DBMS)
- haven : fácilmente importar archivos SPSS, SAS y Stata SO_doc
- httr : el objetivo de httr es proporcionar un envoltorio para el paquete curl, personalizado a las demandas de las API web modernas
- jsonlite : un analizador y generador de JSON rápido optimizado para datos estadísticos y la web
- readxl : archivos read.xls y .xlsx sin necesidad de paquetes de dependencia SO_doc
- rvest : rvest le ayuda a obtener información de las páginas web SO_doc
- xml2 : para XML
Y modelado:
- modelr : proporciona funciones que le ayudan a crear tuberías elegantes al modelar
- Escoba : extrae fácilmente los modelos en datos ordenados.
Finalmente, tidyverse
sugiere el uso de:
- knitr : el increíble motor de programación alfabetizado de propósito general, con API ligeras diseñadas para dar a los usuarios el control total de la salida sin un trabajo de codificación pesado. SO_docs: uno , dos
- rmarkdown : paquete de Rstudio para programación reproducible. SO_docs: uno , dos , tres , cuatro