data.table => Subconjunto de filas por grupo

Observaciones

Un recordatorio: la sintaxis de DT[where, select|update|do, by] se utiliza para trabajar con columnas de una tabla de datos.

La parte "donde" es el argumento i
La parte "seleccionar | actualizar | hacer" es el argumento j

Estos dos argumentos generalmente se pasan por posición en lugar de por nombre.

Seleccionando filas dentro de cada grupo

# example data
DT <- data.table(Titanic)

Supongamos que, para cada sexo, queremos las filas con los números de supervivencia más altos:

DT[Survived == "Yes", .SD[ N == max(N) ], by=Sex]

#    Class    Sex   Age Survived   N
# 1:  Crew   Male Adult      Yes 192
# 2:   1st Female Adult      Yes 140

.SD es el subconjunto de datos asociados con cada Sex ; y lo estamos subdividiendo aún más, a las filas que cumplen con nuestra condición. Si la velocidad es importante, en su lugar, utilice un enfoque sugerido por eddi en SO :

DT[ DT[Survived == "Yes", .I[ N == max(N) ], by=Sex]$V1 ]

#    Class    Sex   Age Survived   N
# 1:  Crew   Male Adult      Yes 192
# 2:   1st Female Adult      Yes 140

Escollos

En la última línea de código, .I refiere a los números de fila de la tabla de datos completa. Sin embargo, esto no es cierto cuando no hay by :

DT[ Survived == "Yes", .I]

# 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16

DT[ Survived == "Yes", .I, by=Sex]$I

# 17 18 19 20 25 26 27 28 21 22 23 24 29 30 31 32

Seleccionando grupos

# example data
DT = data.table(Titanic)

Supongamos que solo queremos ver la segunda clase:

DT[ Class == "2nd" ]

#    Class    Sex   Age Survived   N
# 1:   2nd   Male Child       No   0
# 2:   2nd Female Child       No   0
# 3:   2nd   Male Adult       No 154
# 4:   2nd Female Adult       No  13
# 5:   2nd   Male Child      Yes  11
# 6:   2nd Female Child      Yes  13
# 7:   2nd   Male Adult      Yes  14
# 8:   2nd Female Adult      Yes  80

Aquí, simplemente subcontratamos los datos usando i , la cláusula "dónde".

Selección de grupos por condición

# example data
DT = data.table(Titanic)

Supongamos que queremos ver cada clase solo si una mayoría sobrevivió:

DT[, if (sum(N[Survived=="Yes"]) > sum(N[Survived=="No"]) ) .SD, by=Class]

#    Class    Sex   Age Survived   N
# 1:   1st   Male Child       No   0
# 2:   1st Female Child       No   0
# 3:   1st   Male Adult       No 118
# 4:   1st Female Adult       No   4
# 5:   1st   Male Child      Yes   5
# 6:   1st Female Child      Yes   1
# 7:   1st   Male Adult      Yes  57
# 8:   1st Female Adult      Yes 140

Aquí, devolvemos el subconjunto de datos .SD solo si nuestra condición se cumple. Una alternativa es

DT[, .SD[ sum(N[Survived=="Yes"]) > sum(N[Survived=="No"]) ) ], by=Class]

pero esto a veces ha demostrado ser más lento.

Modified text is an extract of the original Stack Overflow Documentation

Licenciado bajo CC BY-SA 3.0

No afiliado a Stack Overflow

data.table
Subconjunto de filas por grupo

Buscar..

Observaciones

Seleccionando filas dentro de cada grupo

Escollos

Seleccionando grupos

Selección de grupos por condición