Zoeken…


Tbl_df's maken

Een tbl_df (uitgesproken tibble diff ) is een variatie van een dataframe dat vaak wordt gebruikt in opgeruimde pakketten. Het is geïmplementeerd in het tibble- pakket.

Gebruik de functie as_data_frame om van een dataframe een tbl_df te maken:

library(tibble)
mtcars_tbl <- as_data_frame(mtcars)

Een van de meest opvallende verschillen tussen data.frames en tbl_dfs is hoe ze afdrukken:

# A tibble: 32 x 11
     mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
*  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1   21.0     6 160.0   110  3.90 2.620 16.46     0     1     4     4
2   21.0     6 160.0   110  3.90 2.875 17.02     0     1     4     4
3   22.8     4 108.0    93  3.85 2.320 18.61     1     1     4     1
4   21.4     6 258.0   110  3.08 3.215 19.44     1     0     3     1
5   18.7     8 360.0   175  3.15 3.440 17.02     0     0     3     2
6   18.1     6 225.0   105  2.76 3.460 20.22     1     0     3     1
7   14.3     8 360.0   245  3.21 3.570 15.84     0     0     3     4
8   24.4     4 146.7    62  3.69 3.190 20.00     1     0     4     2
9   22.8     4 140.8    95  3.92 3.150 22.90     1     0     4     2
10  19.2     6 167.6   123  3.92 3.440 18.30     1     0     4     4
# ... with 22 more rows
  • De afgedrukte uitvoer bevat een samenvatting van de afmetingen van de tabel ( 32 x 11 )
  • Het bevat het type van elke kolom ( dbl )
  • Het drukt een beperkt aantal rijen af. (Om dit te wijzigen gebruikt u options(tibble.print_max = [number]) ).

Veel functies in het dplyr-pakket werken natuurlijk met tbl_dfs, zoals group_by() .

opgeruimd: een overzicht

Wat is tidyverse ?

tidyverse is de snelle en elegante manier om van basis- R een verbeterde tool te maken, opnieuw ontworpen door Hadley / Rstudio. De ontwikkeling van alle pakketten die in tidyverse opgenomen, volgen de tidyverse van het manifest van The tidy tools . Maar laten eerst de auteurs hun meesterwerk beschrijven:

De tidyverse is een set pakketten die in harmonie werken omdat ze gemeenschappelijke gegevensrepresentaties en API-ontwerp delen. Het tidyverse-pakket is ontworpen om het eenvoudig te maken om kernpakketten vanuit de tidyverse te installeren en in één opdracht te laden.

De beste plaats om alle pakketten in het overzicht te leren kennen en hoe ze in elkaar passen, is R voor Data Science. Verwacht de komende maanden meer te horen over de opruiming, terwijl ik werk aan verbeterde pakketwebsites, citatie eenvoudiger maken en een gemeenschappelijk huis bieden voor discussies over gegevensanalyse met de opruiming.

( bron ))

Hoe te gebruiken?

Alleen met de gewone R pakketten moet u het pakket installeren en laden.

install.package("tidyverse")
library("tidyverse")

Het verschil is dat met een enkele opdracht enkele tientallen pakketten worden geïnstalleerd / geladen. Als bonus kun je er zeker van zijn dat alle geïnstalleerde / geladen pakketten compatibele versies zijn.

Wat zijn die pakketten?

De algemeen bekende en veelgebruikte pakketten:

  • ggplot2 : geavanceerde datavisualisatie SO_doc
  • dplyr : fast ( Rcpp ) en coherente benadering van gegevensmanipulatie SO_doc
  • tidyr : hulpmiddelen voor het opschonen van gegevens SO_doc
  • readr : voor gegevensimport.
  • purrr : laat je pure functies spinnen door de functionele programmeertools van R aan te vullen met belangrijke functies uit andere talen, in de stijl van de JS-pakketten underscore.js, lodash en lazy.js.
  • tibble : een moderne verbeelding van dataframes .
  • magrittr : piping om code leesbaarder te maken SO_doc

Pakketten voor het manipuleren van specifieke gegevensindelingen:

  • hms : gemakkelijk tijden lezen
  • stringr : biedt een samenhangende set functies die zijn ontworpen om het werken met strings zo eenvoudig als mogelijk te maken
  • lubridate : geavanceerde datum / tijd-manipulaties SO_doc
  • Forcats : geavanceerd werken met factoren .

Gegevens importeren:

  • DBI : definieert een gemeenschappelijke interface tussen de R en databasebeheersystemen (DBMS)
  • haven : importeer eenvoudig SPSS- , SAS- en Stata-bestanden SO_doc
  • httr : het doel van httr is om een wrapper voor het curl-pakket te bieden, aangepast aan de eisen van moderne web-API's
  • jsonlite : een snelle JSON-parser en -generator die is geoptimaliseerd voor statistische gegevens en internet
  • readxl : read.xls en .xlsx-bestanden zonder afhankelijkheidspakketten SO_doc
  • rvest : rvest helpt u informatie van webpagina's SO_doc te schrapen
  • xml2 : voor XML

En modellering:

  • modelr : biedt functies die u helpen bij het creëren van elegante pijpleidingen tijdens het modelleren
  • bezem : de modellen eenvoudig extraheren in opgeruimde gegevens

tidyverse suggereert ten slotte het gebruik van:

  • knitr : de verbazingwekkende universele geletterde programmeermotor, met lichtgewicht API's ontworpen om gebruikers volledige controle te geven over de output zonder zwaar codeerwerk. SO_docs: één , twee
  • rmarkdown : Rstudio's pakket voor reproduceerbaar programmeren. SO_docs: één , twee , drie , vier


Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow