pandas Tutorial
Erste Schritte mit Pandas
Suche…
Bemerkungen
Pandas ist ein Python-Paket, das schnelle, flexible und ausdrucksstarke Datenstrukturen bietet, die die Arbeit mit "relationalen" oder "markierten" Daten sowohl einfach als auch intuitiv machen. Ziel ist es, der grundlegende Baustein auf hoher Ebene für die praktische Datenanalyse in Python zu sein.
Die offizielle Pandas-Dokumentation finden Sie hier .
Versionen
Pandas
Ausführung | Veröffentlichungsdatum |
---|---|
0,19,1 | 2016-11-03 |
0,19,0 | 2016-10-02 |
0,18,1 | 2016-05-03 |
0,18,0 | 2016-03-13 |
0,17,1 | 2015-11-21 |
0,17,0 | 2015-10-09 |
0,16,2 | 2015-06-12 |
0,16,1 | 2015-05-11 |
0,16,0 | 2015-03-22 |
0,15,2 | 2014-12-12 |
0,15,1 | 2014-11-09 |
0,15,0 | 2014-10-18 |
0,14,1 | 2014-07-11 |
0,14,0 | 2014-05-31 |
0,13,1 | 2014-02-03 |
0,13,0 | 2014-01-03 |
0,12,0 | 2013-07-23 |
Installation oder Setup
Detaillierte Anweisungen zum Einrichten oder Installieren von Pandas finden Sie hier in der offiziellen Dokumentation .
Pandas mit Anaconda installieren
Die Installation von Pandas und des restlichen NumPy- und SciPy- Stacks kann für unerfahrene Benutzer etwas schwierig sein.
Der einfachste Weg, nicht nur Pandas zu installieren, sondern Python und die beliebtesten Pakete, aus denen der SciPy-Stack (IPython, NumPy, Matplotlib, ...) besteht, sind mit Anaconda eine plattformübergreifende Plattform (Linux, Mac OS X, Windows) Python-Distribution für Datenanalyse und Scientific Computing.
Nach dem Ausführen eines einfachen Installationsprogramms hat der Benutzer Zugriff auf Pandas und den Rest des SciPy-Stapels, ohne dass etwas anderes installiert werden muss, und ohne auf die Kompilierung von Software warten zu müssen.
Installationsanleitungen für Anaconda finden Sie hier .
Eine vollständige Liste der Pakete, die als Teil der Anaconda-Distribution verfügbar sind, finden Sie hier .
Ein weiterer Vorteil der Installation mit Anaconda ist, dass Sie für die Installation keine Administratorrechte benötigen. Die Installation erfolgt im Home-Verzeichnis des Benutzers. Dies macht es auch einfach, Anaconda zu einem späteren Zeitpunkt zu löschen (einfach diesen Ordner löschen).
Pandas mit Miniconda installieren
Im vorherigen Abschnitt wurde beschrieben, wie Pandas als Teil der Anaconda-Distribution installiert werden. Dieser Ansatz bedeutet jedoch, dass Sie weit über einhundert Pakete installieren und das Installationsprogramm herunterladen müssen, das einige hundert Megabyte groß ist.
Wenn Sie mehr Kontrolle über die Pakete haben oder eine begrenzte Internet-Bandbreite haben möchten, ist die Installation von Pandas mit Miniconda möglicherweise eine bessere Lösung.
Conda ist der Paketmanager, auf dem die Anaconda-Distribution aufbaut. Es ist ein Paketmanager, der plattform- und sprachunabhängig ist (er kann eine ähnliche Rolle spielen wie eine Kombination aus Pip und Virtualenv).
Mit Miniconda können Sie eine minimale, eigenständige Python-Installation erstellen und anschließend den Befehl Conda verwenden , um zusätzliche Pakete zu installieren.
Zuerst müssen Sie Conda installieren, und das Herunterladen und Ausführen der Miniconda wird dies für Sie tun. Den Installer finden Sie hier .
Der nächste Schritt ist das Erstellen einer neuen Conda-Umgebung (diese entspricht einer virtualenv, kann aber auch genau angeben, welche Python-Version ebenfalls installiert werden soll). Führen Sie die folgenden Befehle in einem Terminalfenster aus:
conda create -n name_of_my_env python
Dadurch wird eine minimale Umgebung erstellt, in der nur Python installiert ist. Um dich selbst in diese Umgebung zu bringen:
source activate name_of_my_env
Unter Windows lautet der Befehl:
activate name_of_my_env
Der letzte Schritt ist die Installation von Pandas. Dies kann mit dem folgenden Befehl erfolgen:
conda install pandas
So installieren Sie eine bestimmte Pandas-Version:
conda install pandas=0.13.1
Um andere Pakete zu installieren, beispielsweise IPython:
conda install ipython
So installieren Sie die vollständige Anaconda-Distribution:
conda install anaconda
Wenn Sie Pakete benötigen, die für pip, aber nicht für conda verfügbar sind, installieren Sie einfach pip und verwenden Sie pip, um diese Pakete zu installieren:
conda install pip
pip install django
Normalerweise installieren Sie Pandas mit einem Paketmanager.
pip Beispiel:
pip install pandas
Dies erfordert wahrscheinlich die Installation einer Reihe von Abhängigkeiten, einschließlich NumPy, und erfordert einen Compiler, um die erforderlichen Codebits zu kompilieren. Dies kann einige Minuten dauern.
Installation über Anaconda
Laden Sie zunächst Anaconda von der Continuum-Site herunter . Entweder über das grafische Installationsprogramm (Windows / OSX) oder ein Shell-Skript (OSX / Linux). Dazu gehören Pandas!
Wenn Sie nicht möchten, dass die 150 Pakete bequem in Anaconda gebündelt werden, können Sie Miniconda installieren. Entweder über das grafische Installationsprogramm (Windows) oder über das Shell-Skript (OSX / Linux).
Installieren Sie Pandas auf Miniconda mit:
conda install pandas
Um Pandas auf die neueste Version in Anaconda oder Miniconda zu aktualisieren, verwenden Sie:
conda update pandas
Hallo Welt
Nach der Installation von Pandas können Sie überprüfen, ob es ordnungsgemäß funktioniert, indem Sie ein Dataset mit zufällig verteilten Werten erstellen und das Histogramm zeichnen.
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
Überprüfen Sie einige Statistiken der Daten (Mittelwert, Standardabweichung usw.).
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
Beschreibende Statistik
Beschreibende Statistiken (Mittelwert, Standardabweichung, Anzahl der Beobachtungen, Minimum, Maximum und Quartile) numerischer Spalten können mit der .describe()
-Methode berechnet werden, die einen Pandas-Datenrahmen mit beschreibenden Statistiken zurückgibt.
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
Beachten Sie, dass C
keine numerische Spalte ist, sondern von der Ausgabe ausgeschlossen wird.
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
In diesem Fall fasst das Verfahren kategoriale Daten nach Anzahl der Beobachtungen, Anzahl eindeutiger Elemente, Modus und Häufigkeit des Modus zusammen.