Suche…


Bemerkungen

Pandas ist ein Python-Paket, das schnelle, flexible und ausdrucksstarke Datenstrukturen bietet, die die Arbeit mit "relationalen" oder "markierten" Daten sowohl einfach als auch intuitiv machen. Ziel ist es, der grundlegende Baustein auf hoher Ebene für die praktische Datenanalyse in Python zu sein.

Die offizielle Pandas-Dokumentation finden Sie hier .

Versionen

Pandas

Ausführung Veröffentlichungsdatum
0,19,1 2016-11-03
0,19,0 2016-10-02
0,18,1 2016-05-03
0,18,0 2016-03-13
0,17,1 2015-11-21
0,17,0 2015-10-09
0,16,2 2015-06-12
0,16,1 2015-05-11
0,16,0 2015-03-22
0,15,2 2014-12-12
0,15,1 2014-11-09
0,15,0 2014-10-18
0,14,1 2014-07-11
0,14,0 2014-05-31
0,13,1 2014-02-03
0,13,0 2014-01-03
0,12,0 2013-07-23

Installation oder Setup

Detaillierte Anweisungen zum Einrichten oder Installieren von Pandas finden Sie hier in der offiziellen Dokumentation .

Pandas mit Anaconda installieren

Die Installation von Pandas und des restlichen NumPy- und SciPy- Stacks kann für unerfahrene Benutzer etwas schwierig sein.

Der einfachste Weg, nicht nur Pandas zu installieren, sondern Python und die beliebtesten Pakete, aus denen der SciPy-Stack (IPython, NumPy, Matplotlib, ...) besteht, sind mit Anaconda eine plattformübergreifende Plattform (Linux, Mac OS X, Windows) Python-Distribution für Datenanalyse und Scientific Computing.

Nach dem Ausführen eines einfachen Installationsprogramms hat der Benutzer Zugriff auf Pandas und den Rest des SciPy-Stapels, ohne dass etwas anderes installiert werden muss, und ohne auf die Kompilierung von Software warten zu müssen.

Installationsanleitungen für Anaconda finden Sie hier .

Eine vollständige Liste der Pakete, die als Teil der Anaconda-Distribution verfügbar sind, finden Sie hier .

Ein weiterer Vorteil der Installation mit Anaconda ist, dass Sie für die Installation keine Administratorrechte benötigen. Die Installation erfolgt im Home-Verzeichnis des Benutzers. Dies macht es auch einfach, Anaconda zu einem späteren Zeitpunkt zu löschen (einfach diesen Ordner löschen).

Pandas mit Miniconda installieren

Im vorherigen Abschnitt wurde beschrieben, wie Pandas als Teil der Anaconda-Distribution installiert werden. Dieser Ansatz bedeutet jedoch, dass Sie weit über einhundert Pakete installieren und das Installationsprogramm herunterladen müssen, das einige hundert Megabyte groß ist.

Wenn Sie mehr Kontrolle über die Pakete haben oder eine begrenzte Internet-Bandbreite haben möchten, ist die Installation von Pandas mit Miniconda möglicherweise eine bessere Lösung.

Conda ist der Paketmanager, auf dem die Anaconda-Distribution aufbaut. Es ist ein Paketmanager, der plattform- und sprachunabhängig ist (er kann eine ähnliche Rolle spielen wie eine Kombination aus Pip und Virtualenv).

Mit Miniconda können Sie eine minimale, eigenständige Python-Installation erstellen und anschließend den Befehl Conda verwenden , um zusätzliche Pakete zu installieren.

Zuerst müssen Sie Conda installieren, und das Herunterladen und Ausführen der Miniconda wird dies für Sie tun. Den Installer finden Sie hier .

Der nächste Schritt ist das Erstellen einer neuen Conda-Umgebung (diese entspricht einer virtualenv, kann aber auch genau angeben, welche Python-Version ebenfalls installiert werden soll). Führen Sie die folgenden Befehle in einem Terminalfenster aus:

conda create -n name_of_my_env python

Dadurch wird eine minimale Umgebung erstellt, in der nur Python installiert ist. Um dich selbst in diese Umgebung zu bringen:

source activate name_of_my_env

Unter Windows lautet der Befehl:

activate name_of_my_env

Der letzte Schritt ist die Installation von Pandas. Dies kann mit dem folgenden Befehl erfolgen:

conda install pandas

So installieren Sie eine bestimmte Pandas-Version:

conda install pandas=0.13.1

Um andere Pakete zu installieren, beispielsweise IPython:

conda install ipython

So installieren Sie die vollständige Anaconda-Distribution:

conda install anaconda

Wenn Sie Pakete benötigen, die für pip, aber nicht für conda verfügbar sind, installieren Sie einfach pip und verwenden Sie pip, um diese Pakete zu installieren:

conda install pip
pip install django

Normalerweise installieren Sie Pandas mit einem Paketmanager.

pip Beispiel:

pip install pandas

Dies erfordert wahrscheinlich die Installation einer Reihe von Abhängigkeiten, einschließlich NumPy, und erfordert einen Compiler, um die erforderlichen Codebits zu kompilieren. Dies kann einige Minuten dauern.

Installation über Anaconda

Laden Sie zunächst Anaconda von der Continuum-Site herunter . Entweder über das grafische Installationsprogramm (Windows / OSX) oder ein Shell-Skript (OSX / Linux). Dazu gehören Pandas!


Wenn Sie nicht möchten, dass die 150 Pakete bequem in Anaconda gebündelt werden, können Sie Miniconda installieren. Entweder über das grafische Installationsprogramm (Windows) oder über das Shell-Skript (OSX / Linux).

Installieren Sie Pandas auf Miniconda mit:

conda install pandas

Um Pandas auf die neueste Version in Anaconda oder Miniconda zu aktualisieren, verwenden Sie:

conda update pandas

Hallo Welt

Nach der Installation von Pandas können Sie überprüfen, ob es ordnungsgemäß funktioniert, indem Sie ein Dataset mit zufällig verteilten Werten erstellen und das Histogramm zeichnen.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

Geben Sie hier die Bildbeschreibung ein

Überprüfen Sie einige Statistiken der Daten (Mittelwert, Standardabweichung usw.).

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

Beschreibende Statistik

Beschreibende Statistiken (Mittelwert, Standardabweichung, Anzahl der Beobachtungen, Minimum, Maximum und Quartile) numerischer Spalten können mit der .describe() -Methode berechnet werden, die einen Pandas-Datenrahmen mit beschreibenden Statistiken zurückgibt.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Beachten Sie, dass C keine numerische Spalte ist, sondern von der Ausgabe ausgeschlossen wird.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

In diesem Fall fasst das Verfahren kategoriale Daten nach Anzahl der Beobachtungen, Anzahl eindeutiger Elemente, Modus und Häufigkeit des Modus zusammen.



Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow