data.table
Dati di pulizia
Ricerca…
Gestione dei duplicati
# example data
DT = data.table(id = c(1,2,2,3,3,3))[, v := LETTERS[.I]][]
Per gestire i "duplicati", combinare le righe di conteggio in un gruppo e inserire le righe per gruppo .
Mantieni una riga per gruppo
Aka "drop duplicates" alias "deduplicate" alias "uniquify".
unique(DT, by="id")
# or
DT[, .SD[1L], by=id]
# id v
# 1: 1 A
# 2: 2 B
# 3: 3 D
Questo mantiene la prima riga. Per selezionare una riga diversa, si può giocare con la parte 1L
o usare l' order
in i
.
Mantieni solo righe univoche
DT[, if (.N == 1L) .SD, by=id]
# id v
# 1: 1 A
Mantieni solo righe non univoche
DT[, if (.N > 1L) .SD, by=id]
# id v
# 1: 2 B
# 2: 2 C
# 3: 3 D
# 4: 3 E
# 5: 3 F
Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow