Recherche…


Création de tbl_df

Un tbl_df (prononcé tibble diff ) est une variante d'un bloc de données souvent utilisé dans les packages inverses. Il est implémenté dans le paquetage tibble .

Utilisez la fonction as_data_frame pour transformer un as_data_frame de données en un tbl_df:

library(tibble)
mtcars_tbl <- as_data_frame(mtcars)

L'une des différences les plus notables entre data.frames et tbl_dfs est leur mode d'impression:

# A tibble: 32 x 11
     mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
*  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1   21.0     6 160.0   110  3.90 2.620 16.46     0     1     4     4
2   21.0     6 160.0   110  3.90 2.875 17.02     0     1     4     4
3   22.8     4 108.0    93  3.85 2.320 18.61     1     1     4     1
4   21.4     6 258.0   110  3.08 3.215 19.44     1     0     3     1
5   18.7     8 360.0   175  3.15 3.440 17.02     0     0     3     2
6   18.1     6 225.0   105  2.76 3.460 20.22     1     0     3     1
7   14.3     8 360.0   245  3.21 3.570 15.84     0     0     3     4
8   24.4     4 146.7    62  3.69 3.190 20.00     1     0     4     2
9   22.8     4 140.8    95  3.92 3.150 22.90     1     0     4     2
10  19.2     6 167.6   123  3.92 3.440 18.30     1     0     4     4
# ... with 22 more rows
  • La sortie imprimée comprend un résumé des dimensions de la table ( 32 x 11 )
  • Il comprend le type de chaque colonne ( dbl )
  • Il imprime un nombre limité de lignes. (Pour changer cette options(tibble.print_max = [number]) utilisez les options(tibble.print_max = [number]) ).

De nombreuses fonctions du package dplyr fonctionnent naturellement avec tbl_dfs, telles que group_by() .

tidyverse: un aperçu

Qu'est-ce que tidyverse ?

tidyverse est le moyen rapide et élégant de transformer le R basique en un outil amélioré, redessiné par Hadley / Rstudio. Le développement de tous les paquets inclus dans tidyverse suit les règles de principe du manifeste de tidyverse Tools . Mais d'abord, laissez les auteurs décrire leur chef-d'œuvre:

Le tidyverse est un ensemble de packages qui fonctionnent en harmonie car ils partagent des représentations de données et une conception d'API communes. Le package tidyverse est conçu pour faciliter l’installation et le chargement des packages principaux à partir de la tidyverse en une seule commande.

Le meilleur endroit pour en savoir plus sur tous les paquetages dans le tidyverse et comment ils s’intègrent est R pour Data Science. Attendez-vous à en savoir plus sur le revers de la médaille au cours des prochains mois alors que je travaille sur des sites Web améliorés, facilitant la citation et fournissant une base commune aux discussions sur l'analyse des données avec le tidyverse.

( source ))

Comment l'utiliser?

Juste avec les paquets R ordinaires, vous devez installer et charger le paquet.

install.package("tidyverse")
library("tidyverse")

La différence est que, sur une seule commande, quelques dizaines de paquets sont installés / chargés. En prime, on peut être assuré que tous les paquets installés / chargés sont des versions compatibles.

Quels sont ces paquets?

Les paquets communément connus et largement utilisés:

  • ggplot2 : visualisation avancée des données SO_doc
  • dplyr : approche rapide ( Rcpp ) et cohérente de la manipulation de données SO_doc
  • tidyr : outils pour le nettoyage des données SO_doc
  • readr : pour l'importation de données.
  • purrr : ronfle vos fonctions pures en complétant les outils de programmation fonctionnelle de R avec des fonctionnalités importantes d'autres langages, dans le style des packages de underscore.js, lodash et lazy.js.
  • tibble : une ré-imagerie moderne des trames de données.
  • magrittr : un code pour rendre le code plus lisible SO_doc

Packages pour manipuler des formats de données spécifiques:

Importation de données:

  • DBI : définit une interface commune entre le R et les systèmes de gestion de base de données (SGBD)
  • refuge : facilement importer les fichiers SPSS, SAS et Stata SO_doc
  • httr : le but de httr est de fournir un wrapper pour le paquet curl, adapté aux exigences des API web modernes
  • jsonlite : un analyseur JSON rapide et un générateur optimisé pour les données statistiques et le Web
  • readxl : read.xls et fichiers .xlsx sans avoir besoin de paquets de dépendances SO_doc
  • rvest : rvest vous aide à récupérer des informations sur les pages Web SO_doc
  • xml2 : pour XML

Et la modélisation:

  • modelr : fournit des fonctions qui vous aident à créer des pipelines élégants lors de la modélisation
  • balai : extraire facilement les modèles en données bien rangées

Enfin, tidyverse suggère l'utilisation de:

  • knitr : l'étonnant moteur de programmation littéraire polyvalent, avec des API légères conçues pour donner aux utilisateurs un contrôle total de la sortie sans travail de codage intensif. SO_docs: un , deux
  • rmarkdown : le package Rstudio pour une programmation reproductible. SO_docs: un , deux , trois , quatre


Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow