Szukaj…


Wprowadzenie

W Pythonie metoda itertools.groupby() pozwala programistom grupować wartości klasy iterowalnej na podstawie określonej właściwości w inny iterowalny zestaw wartości.

Składnia

  • itertools.groupby (iterable, key = None or some function)

Parametry

Parametr Detale
iterowalne Dowolny iterowalny python
klucz Funkcja (kryteria), według której można grupować iterowalne

Uwagi

groupby () jest trudne, ale ogólną zasadą, o której należy pamiętać podczas korzystania z niego jest:

Zawsze sortuj elementy, które chcesz pogrupować według tego samego klucza, którego chcesz użyć do grupowania

Zaleca się, aby czytelnik zapoznał się z dokumentacją tutaj i zobaczył, jak to wyjaśniono przy użyciu definicji klasy.

Przykład 1

Powiedz, że masz ciąg

s = 'AAAABBBCCDAABBB'

i chciałbyś go podzielić, aby wszystkie litery „A” były na jednej liście, a więc wszystkie „B” i „C” itp. Możesz zrobić coś takiego

s = 'AAAABBBCCDAABBB'
s_dict = {}
for i in s:
    if i not in s_dict.keys():
        s_dict[i] = [i]
    else:
        s_dict[i].append(i)
s_dict

Prowadzi do

{'A': ['A', 'A', 'A', 'A', 'A', 'A'],
 'B': ['B', 'B', 'B', 'B', 'B', 'B'],
 'C': ['C', 'C'],
 'D': ['D']}

Ale w przypadku dużych zbiorów danych budowałbyś te elementy w pamięci. W tym miejscu pojawia się groupby ()

Możemy uzyskać ten sam wynik w bardziej wydajny sposób, wykonując następujące czynności

# note that we get a {key : value} pair for iterating over the items just like in python dictionary
from itertools import groupby
s = 'AAAABBBCCDAABBB'
c = groupby(s)

dic = {} 
for k, v in c:
    dic[k] = list(v)
dic

Prowadzi do

{'A': ['A', 'A'], 'B': ['B', 'B', 'B'], 'C': ['C', 'C'], 'D': ['D']}

Zauważ, że liczba „A” w wyniku, gdy użyliśmy grupowania według, jest mniejsza niż faktyczna liczba „A” w oryginalnym ciągu. Możemy uniknąć tej utraty informacji, sortując elementy ws przed przekazaniem go do c, jak pokazano poniżej

c = groupby(sorted(s))

dic = {} 
for k, v in c:
    dic[k] = list(v)
dic

Prowadzi do

{'A': ['A', 'A', 'A', 'A', 'A', 'A'], 'B': ['B', 'B', 'B', 'B', 'B', 'B'], 'C': ['C', 'C'], 'D': ['D']}

Teraz mamy wszystkie nasze „A”.

Przykład 2

Ten przykład ilustruje wybór domyślnego klucza, jeśli nie zostanie określony

c = groupby(['goat', 'dog', 'cow', 1, 1, 2, 3, 11, 10, ('persons', 'man', 'woman')])
dic = {}
for k, v in c:
    dic[k] = list(v)
dic

Prowadzi do

{1: [1, 1],
 2: [2],
 3: [3],
 ('persons', 'man', 'woman'): [('persons', 'man', 'woman')],
 'cow': ['cow'],
 'dog': ['dog'],
 10: [10],
 11: [11],
 'goat': ['goat']}

Zauważ tutaj, że krotka jako całość liczy się jako jeden klucz na tej liście

Przykład 3

Zauważ w tym przykładzie, że mulato i wielbłąd nie pojawiają się w naszym wyniku. Wyświetlany jest tylko ostatni element z określonym kluczem. Ostatni wynik dla c faktycznie usuwa dwa poprzednie wyniki. Ale obejrzyj nową wersję, w której najpierw posortowałem dane według tego samego klucza.

list_things = ['goat', 'dog', 'donkey', 'mulato', 'cow', 'cat', ('persons', 'man', 'woman'), \
               'wombat', 'mongoose', 'malloo', 'camel']
c = groupby(list_things, key=lambda x: x[0])
dic = {}
for k, v in c:
    dic[k] = list(v)
dic

Prowadzi do

{'c': ['camel'],
 'd': ['dog', 'donkey'],
 'g': ['goat'],
 'm': ['mongoose', 'malloo'],
 'persons': [('persons', 'man', 'woman')],
 'w': ['wombat']}

Posortowana wersja

list_things = ['goat', 'dog', 'donkey', 'mulato', 'cow', 'cat', ('persons', 'man', 'woman'), \
               'wombat', 'mongoose', 'malloo', 'camel']
sorted_list = sorted(list_things, key = lambda x: x[0])
print(sorted_list)
print()
c = groupby(sorted_list, key=lambda x: x[0])
dic = {}
for k, v in c:
    dic[k] = list(v)
dic

Prowadzi do

['cow', 'cat', 'camel', 'dog', 'donkey', 'goat', 'mulato', 'mongoose', 'malloo', ('persons', 'man', 'woman'), 'wombat']

{'c': ['cow', 'cat', 'camel'],
 'd': ['dog', 'donkey'],
 'g': ['goat'],
 'm': ['mulato', 'mongoose', 'malloo'],
 'persons': [('persons', 'man', 'woman')],
 'w': ['wombat']}

Przykład 4

W tym przykładzie widzimy, co się dzieje, gdy używamy różnych typów iterowalnych.

things = [("animal", "bear"), ("animal", "duck"), ("plant", "cactus"), ("vehicle", "harley"), \
          ("vehicle", "speed boat"), ("vehicle", "school bus")]
dic = {}
f = lambda x: x[0]
for key, group in groupby(sorted(things, key=f), f):
    dic[key] = list(group)
dic

Prowadzi do

{'animal': [('animal', 'bear'), ('animal', 'duck')],
 'plant': [('plant', 'cactus')],
 'vehicle': [('vehicle', 'harley'),
  ('vehicle', 'speed boat'),
  ('vehicle', 'school bus')]}

Ten przykład poniżej jest zasadniczo taki sam jak ten powyżej. Jedyną różnicą jest to, że zmieniłem wszystkie krotki na listy.

things = [["animal", "bear"], ["animal", "duck"], ["vehicle", "harley"], ["plant", "cactus"], \
          ["vehicle", "speed boat"], ["vehicle", "school bus"]]
dic = {}
f = lambda x: x[0]
for key, group in groupby(sorted(things, key=f), f):
    dic[key] = list(group)
dic

Wyniki

{'animal': [['animal', 'bear'], ['animal', 'duck']],
 'plant': [['plant', 'cactus']],
 'vehicle': [['vehicle', 'harley'],
  ['vehicle', 'speed boat'],
  ['vehicle', 'school bus']]}


Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow