Szukaj…


Uwagi

Pandas to pakiet Pythona zapewniający szybkie, elastyczne i wyraziste struktury danych zaprojektowane tak, aby praca z „relacyjnymi” lub „oznaczonymi” danymi była łatwa i intuicyjna. Ma to być podstawowy element wysokiego poziomu do wykonywania praktycznej analizy danych w świecie rzeczywistym w języku Python.

Oficjalna dokumentacja Pand znajduje się tutaj .

Wersje

Pandy

Wersja Data wydania
0.19.1 2016-11-03
0.19.0 02.10.2016
0.18.1 2016-05-03
0.18.0 13.03.2016
0.17.1 21.11.2015
0.17.0 09.10.2015
0.16.2 2015-06-12
0.16.1 2015-05-11
0.16.0 22.03.2015
0.15.2 2014-12-12
0.15.1 09.11.2014
0.15.0 2014-10-18
0.14.1 11.07.2014
0.14.0 2014-05-31
0.13.1 03.02.2014
0.13.0 2014-01-03
0.12.0 2013-07-23

Instalacja lub konfiguracja

Szczegółowe instrukcje dotyczące konfigurowania lub instalowania pand można znaleźć tutaj w oficjalnej dokumentacji .

Instalowanie pand za pomocą Anakondy

Instalowanie pand i reszty stosu NumPy i SciPy może być nieco trudne dla niedoświadczonych użytkowników.

Najprostszym sposobem zainstalowania nie tylko pand, ale Pythona i najpopularniejszych pakietów tworzących stos SciPy (IPython, NumPy, Matplotlib, ...) jest Anaconda , platforma wieloplatformowa (Linux, Mac OS X, Windows) Dystrybucja w języku Python do analizy danych i obliczeń naukowych.

Po uruchomieniu prostego instalatora użytkownik będzie miał dostęp do pand i pozostałej części SciPy bez konieczności instalowania czegokolwiek innego i bez konieczności oczekiwania na skompilowanie jakiegokolwiek oprogramowania.

Instrukcje instalacji dla Anacondy można znaleźć tutaj .

Pełna lista pakietów dostępnych w ramach dystrybucji Anaconda znajduje się tutaj .

Dodatkową zaletą instalacji z Anacondą jest to, że nie potrzebujesz uprawnień administratora, aby ją zainstalować, zainstaluje się ona w katalogu osobistym użytkownika, a to sprawia, że usunięcie Anacondy w późniejszym terminie (wystarczy usunąć ten folder).

Instalowanie pand za pomocą Minicondy

W poprzedniej sekcji opisano, jak zainstalować pandy w ramach dystrybucji Anaconda. Jednak to podejście oznacza, że zainstalujesz ponad sto pakietów i wymaga pobrania instalatora o wielkości kilkuset megabajtów.

Jeśli chcesz mieć większą kontrolę nad pakietami lub ograniczoną przepustowość Internetu, lepszym rozwiązaniem może być zainstalowanie pand za pomocą Minicondy .

Conda jest menedżerem pakietów, na którym zbudowana jest dystrybucja Anaconda. Jest to menedżer pakietów, który jest zarówno wieloplatformowy, jak i niezależny od języka (może odgrywać podobną rolę do kombinacji pip i virtualenv).

Miniconda pozwala utworzyć minimalną, samodzielną instalację Pythona, a następnie użyć polecenia Conda, aby zainstalować dodatkowe pakiety.

Najpierw musisz zainstalować Condę, a pobieranie i uruchomienie Minicondy zrobi to za Ciebie. Instalator można znaleźć tutaj .

Następnym krokiem jest stworzenie nowego środowiska conda (są one analogiczne do virtualenv, ale pozwalają również dokładnie określić, którą wersję Pythona również zainstalować). Uruchom następujące polecenia z okna terminala:

conda create -n name_of_my_env python

Stworzy to minimalne środowisko z zainstalowanym tylko Pythonem. Aby umieścić siebie w tym środowisku, uruchom:

source activate name_of_my_env

W systemie Windows polecenie to:

activate name_of_my_env

Ostatnim wymaganym krokiem jest instalacja pand. Można to zrobić za pomocą następującego polecenia:

conda install pandas

Aby zainstalować określoną wersję pand:

conda install pandas=0.13.1

Aby zainstalować inne pakiety, na przykład IPython:

conda install ipython

Aby zainstalować pełną dystrybucję Anaconda:

conda install anaconda

Jeśli potrzebujesz pakietów, które są dostępne dla pip, ale nie conda, po prostu zainstaluj pip i użyj pip, aby zainstalować te pakiety:

conda install pip
pip install django

Zwykle pandy instaluje się za pomocą jednego z menedżerów pakietów.

przykład pip:

pip install pandas

Będzie to prawdopodobnie wymagało instalacji szeregu zależności, w tym NumPy, będzie wymagało kompilatora do skompilowania wymaganych bitów kodu i może potrwać kilka minut.

Zainstaluj za pomocą anakondy

Najpierw pobierz anakondę ze strony Continuum. Albo za pomocą graficznego instalatora (Windows / OSX) lub uruchamiając skrypt powłoki (OSX / Linux). Obejmuje to pandy!


Jeśli nie chcesz, aby 150 pakietów było wygodnie pakowanych w anakondę, możesz zainstalować minicondę . Albo za pomocą graficznego instalatora (Windows) lub skryptu powłoki (OSX / Linux).

Zainstaluj pandy na miniconda, używając:

conda install pandas

Aby zaktualizować pandy do najnowszej wersji w wersji Anaconda lub Miniconda:

conda update pandas

Witaj świecie

Po zainstalowaniu Pandas można sprawdzić, czy działa poprawnie, tworząc zestaw danych losowo rozmieszczonych wartości i wykreślając jego histogram.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

wprowadź opis zdjęcia tutaj

Sprawdź niektóre statystyki danych (średnia, odchylenie standardowe itp.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

Opisowe statystyki

Statystyki opisowe (średnia, odchylenie standardowe, liczba obserwacji, minimum, maksimum i kwartyle) kolumn numerycznych można obliczyć za pomocą metody .describe() , która zwraca ramkę danych pandy statystyki opisowej.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Zauważ, że ponieważ C nie jest kolumną numeryczną, jest wykluczone z wyniku.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

W tym przypadku metoda podsumowuje dane kategoryczne według liczby obserwacji, liczby unikalnych elementów, trybu i częstotliwości trybu.



Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow