data.table
Données de nettoyage
Recherche…
Gestion des doublons
# example data
DT = data.table(id = c(1,2,2,3,3,3))[, v := LETTERS[.I]][]
Pour traiter les "doublons", combinez les lignes de comptage dans un groupe et les sous- ensembles de lignes par groupe .
Garder une ligne par groupe
Aka "drop duplicates" aka "dédupliquer" aka "uniquify".
unique(DT, by="id")
# or
DT[, .SD[1L], by=id]
# id v
# 1: 1 A
# 2: 2 B
# 3: 3 D
Cela conserve la première rangée. Pour sélectionner une autre ligne, on peut manipuler la partie 1L
ou utiliser l’ order
dans i
.
Ne conservez que des lignes uniques
DT[, if (.N == 1L) .SD, by=id]
# id v
# 1: 1 A
Ne conservez que des rangées non uniques
DT[, if (.N > 1L) .SD, by=id]
# id v
# 1: 2 B
# 2: 2 C
# 3: 3 D
# 4: 3 E
# 5: 3 F
Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow