pandas Samouczek
Pierwsze kroki z pandami
Szukaj…
Uwagi
Pandas to pakiet Pythona zapewniający szybkie, elastyczne i wyraziste struktury danych zaprojektowane tak, aby praca z „relacyjnymi” lub „oznaczonymi” danymi była łatwa i intuicyjna. Ma to być podstawowy element wysokiego poziomu do wykonywania praktycznej analizy danych w świecie rzeczywistym w języku Python.
Oficjalna dokumentacja Pand znajduje się tutaj .
Wersje
Pandy
Wersja | Data wydania |
---|---|
0.19.1 | 2016-11-03 |
0.19.0 | 02.10.2016 |
0.18.1 | 2016-05-03 |
0.18.0 | 13.03.2016 |
0.17.1 | 21.11.2015 |
0.17.0 | 09.10.2015 |
0.16.2 | 2015-06-12 |
0.16.1 | 2015-05-11 |
0.16.0 | 22.03.2015 |
0.15.2 | 2014-12-12 |
0.15.1 | 09.11.2014 |
0.15.0 | 2014-10-18 |
0.14.1 | 11.07.2014 |
0.14.0 | 2014-05-31 |
0.13.1 | 03.02.2014 |
0.13.0 | 2014-01-03 |
0.12.0 | 2013-07-23 |
Instalacja lub konfiguracja
Szczegółowe instrukcje dotyczące konfigurowania lub instalowania pand można znaleźć tutaj w oficjalnej dokumentacji .
Instalowanie pand za pomocą Anakondy
Instalowanie pand i reszty stosu NumPy i SciPy może być nieco trudne dla niedoświadczonych użytkowników.
Najprostszym sposobem zainstalowania nie tylko pand, ale Pythona i najpopularniejszych pakietów tworzących stos SciPy (IPython, NumPy, Matplotlib, ...) jest Anaconda , platforma wieloplatformowa (Linux, Mac OS X, Windows) Dystrybucja w języku Python do analizy danych i obliczeń naukowych.
Po uruchomieniu prostego instalatora użytkownik będzie miał dostęp do pand i pozostałej części SciPy bez konieczności instalowania czegokolwiek innego i bez konieczności oczekiwania na skompilowanie jakiegokolwiek oprogramowania.
Instrukcje instalacji dla Anacondy można znaleźć tutaj .
Pełna lista pakietów dostępnych w ramach dystrybucji Anaconda znajduje się tutaj .
Dodatkową zaletą instalacji z Anacondą jest to, że nie potrzebujesz uprawnień administratora, aby ją zainstalować, zainstaluje się ona w katalogu osobistym użytkownika, a to sprawia, że usunięcie Anacondy w późniejszym terminie (wystarczy usunąć ten folder).
Instalowanie pand za pomocą Minicondy
W poprzedniej sekcji opisano, jak zainstalować pandy w ramach dystrybucji Anaconda. Jednak to podejście oznacza, że zainstalujesz ponad sto pakietów i wymaga pobrania instalatora o wielkości kilkuset megabajtów.
Jeśli chcesz mieć większą kontrolę nad pakietami lub ograniczoną przepustowość Internetu, lepszym rozwiązaniem może być zainstalowanie pand za pomocą Minicondy .
Conda jest menedżerem pakietów, na którym zbudowana jest dystrybucja Anaconda. Jest to menedżer pakietów, który jest zarówno wieloplatformowy, jak i niezależny od języka (może odgrywać podobną rolę do kombinacji pip i virtualenv).
Miniconda pozwala utworzyć minimalną, samodzielną instalację Pythona, a następnie użyć polecenia Conda, aby zainstalować dodatkowe pakiety.
Najpierw musisz zainstalować Condę, a pobieranie i uruchomienie Minicondy zrobi to za Ciebie. Instalator można znaleźć tutaj .
Następnym krokiem jest stworzenie nowego środowiska conda (są one analogiczne do virtualenv, ale pozwalają również dokładnie określić, którą wersję Pythona również zainstalować). Uruchom następujące polecenia z okna terminala:
conda create -n name_of_my_env python
Stworzy to minimalne środowisko z zainstalowanym tylko Pythonem. Aby umieścić siebie w tym środowisku, uruchom:
source activate name_of_my_env
W systemie Windows polecenie to:
activate name_of_my_env
Ostatnim wymaganym krokiem jest instalacja pand. Można to zrobić za pomocą następującego polecenia:
conda install pandas
Aby zainstalować określoną wersję pand:
conda install pandas=0.13.1
Aby zainstalować inne pakiety, na przykład IPython:
conda install ipython
Aby zainstalować pełną dystrybucję Anaconda:
conda install anaconda
Jeśli potrzebujesz pakietów, które są dostępne dla pip, ale nie conda, po prostu zainstaluj pip i użyj pip, aby zainstalować te pakiety:
conda install pip
pip install django
Zwykle pandy instaluje się za pomocą jednego z menedżerów pakietów.
przykład pip:
pip install pandas
Będzie to prawdopodobnie wymagało instalacji szeregu zależności, w tym NumPy, będzie wymagało kompilatora do skompilowania wymaganych bitów kodu i może potrwać kilka minut.
Zainstaluj za pomocą anakondy
Najpierw pobierz anakondę ze strony Continuum. Albo za pomocą graficznego instalatora (Windows / OSX) lub uruchamiając skrypt powłoki (OSX / Linux). Obejmuje to pandy!
Jeśli nie chcesz, aby 150 pakietów było wygodnie pakowanych w anakondę, możesz zainstalować minicondę . Albo za pomocą graficznego instalatora (Windows) lub skryptu powłoki (OSX / Linux).
Zainstaluj pandy na miniconda, używając:
conda install pandas
Aby zaktualizować pandy do najnowszej wersji w wersji Anaconda lub Miniconda:
conda update pandas
Witaj świecie
Po zainstalowaniu Pandas można sprawdzić, czy działa poprawnie, tworząc zestaw danych losowo rozmieszczonych wartości i wykreślając jego histogram.
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
Sprawdź niektóre statystyki danych (średnia, odchylenie standardowe itp.)
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
Opisowe statystyki
Statystyki opisowe (średnia, odchylenie standardowe, liczba obserwacji, minimum, maksimum i kwartyle) kolumn numerycznych można obliczyć za pomocą metody .describe()
, która zwraca ramkę danych pandy statystyki opisowej.
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
Zauważ, że ponieważ C
nie jest kolumną numeryczną, jest wykluczone z wyniku.
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
W tym przypadku metoda podsumowuje dane kategoryczne według liczby obserwacji, liczby unikalnych elementów, trybu i częstotliwości trybu.