Buscar..


Creando tbl_df's

Un tbl_df (pronunciado tibble diff ) es una variación de un marco de datos que se usa a menudo en paquetes tidyverse. Se implementa en el paquete tibble .

Use la función as_data_frame para convertir un marco de datos en un tbl_df:

library(tibble)
mtcars_tbl <- as_data_frame(mtcars)

Una de las diferencias más notables entre data.frames y tbl_dfs es cómo se imprimen:

# A tibble: 32 x 11
     mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
*  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1   21.0     6 160.0   110  3.90 2.620 16.46     0     1     4     4
2   21.0     6 160.0   110  3.90 2.875 17.02     0     1     4     4
3   22.8     4 108.0    93  3.85 2.320 18.61     1     1     4     1
4   21.4     6 258.0   110  3.08 3.215 19.44     1     0     3     1
5   18.7     8 360.0   175  3.15 3.440 17.02     0     0     3     2
6   18.1     6 225.0   105  2.76 3.460 20.22     1     0     3     1
7   14.3     8 360.0   245  3.21 3.570 15.84     0     0     3     4
8   24.4     4 146.7    62  3.69 3.190 20.00     1     0     4     2
9   22.8     4 140.8    95  3.92 3.150 22.90     1     0     4     2
10  19.2     6 167.6   123  3.92 3.440 18.30     1     0     4     4
# ... with 22 more rows
  • La salida impresa incluye un resumen de las dimensiones de la tabla ( 32 x 11 )
  • Incluye el tipo de cada columna ( dbl ).
  • Imprime un número limitado de filas. (Para cambiar esta options(tibble.print_max = [number]) uso options(tibble.print_max = [number]) ).

Muchas funciones en el paquete dplyr funcionan naturalmente con tbl_dfs, como group_by() .

Tidyverse: una visión general

¿Qué es tidyverse ?

tidyverse es la forma rápida y elegante de convertir la R básica en una herramienta mejorada, rediseñada por Hadley / Rstudio. El desarrollo de todos los paquetes incluidos en tidyverse sigue las reglas principales del manifiesto de The tidy tools . Pero primero, dejemos que los autores describan su obra maestra:

El tidyverse es un conjunto de paquetes que funcionan en armonía porque comparten representaciones de datos comunes y diseño de API. El paquete tidyverse está diseñado para facilitar la instalación y carga de los paquetes principales desde el tidyverse en un solo comando.

El mejor lugar para aprender sobre todos los paquetes en el tidyverse y cómo encajan es R para Data Science. Espero saber más sobre el tidyverse en los próximos meses a medida que trabajo en sitios web de paquetes mejorados, facilitando las citas y proporcionando un hogar común para las discusiones sobre el análisis de datos con el tidyverse.

( fuente ))

¿Cómo usarlo?

Solo con los paquetes R normales, necesita instalar y cargar el paquete.

install.package("tidyverse")
library("tidyverse")

La diferencia es que en un solo comando se instalan / cargan un par de docenas de paquetes. Como beneficio adicional, uno puede estar seguro de que todos los paquetes instalados / cargados son de versiones compatibles.

¿Qué son esos paquetes?

Los paquetes comúnmente conocidos y ampliamente utilizados:

  • ggplot2 : visualización avanzada de datos SO_doc
  • dplyr : enfoque rápido ( Rcpp ) y coherente para la manipulación de datos SO_doc
  • tidyr : herramientas para ordenar datos SO_doc
  • readr : para la importación de datos.
  • purrr : pone a punto sus funciones puras al completar las herramientas de programación funcional de R con características importantes de otros lenguajes, en el estilo de los paquetes JS underscore.js, lodash y lazy.js.
  • tibble : una moderna re-imaginación de marcos de datos.
  • magrittr : canalización para hacer el código más legible SO_doc

Paquetes para manipular formatos de datos específicos:

Importación de datos:

  • DBI : define una interfaz común entre la R y los sistemas de administración de bases de datos (DBMS)
  • haven : fácilmente importar archivos SPSS, SAS y Stata SO_doc
  • httr : el objetivo de httr es proporcionar un envoltorio para el paquete curl, personalizado a las demandas de las API web modernas
  • jsonlite : un analizador y generador de JSON rápido optimizado para datos estadísticos y la web
  • readxl : archivos read.xls y .xlsx sin necesidad de paquetes de dependencia SO_doc
  • rvest : rvest le ayuda a obtener información de las páginas web SO_doc
  • xml2 : para XML

Y modelado:

  • modelr : proporciona funciones que le ayudan a crear tuberías elegantes al modelar
  • Escoba : extrae fácilmente los modelos en datos ordenados.

Finalmente, tidyverse sugiere el uso de:

  • knitr : el increíble motor de programación alfabetizado de propósito general, con API ligeras diseñadas para dar a los usuarios el control total de la salida sin un trabajo de codificación pesado. SO_docs: uno , dos
  • rmarkdown : paquete de Rstudio para programación reproducible. SO_docs: uno , dos , tres , cuatro


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow