Recherche…


Remarques

Pandas est un package Python fournissant des structures de données rapides, flexibles et expressives conçues pour rendre le travail avec des données «relationnelles» ou «étiquetées» à la fois simples et intuitives. Il se veut être le composant fondamental de haut niveau pour effectuer des analyses de données pratiques dans le monde réel en Python.

La documentation officielle Pandas peut être trouvée ici .

Versions

Les pandas

Version Date de sortie
0.19.1 2016-11-03
0.19.0 2016-10-02
0.18.1 2016-05-03
0.18.0 2016-03-13
0,17,1 2015-11-21
0,17,0 2015-10-09
0,16,2 2015-06-12
0.16.1 2015-05-11
0,16,0 2015-03-22
0.15.2 2014-12-12
0.15.1 2014-11-09
0,15,0 2014-10-18
0.14.1 2014-07-11
0,14,0 2014-05-31
0.13.1 2014-02-03
0.13.0 2014-01-03
0.12.0 2013-07-23

Installation ou configuration

Des instructions détaillées sur la mise en place ou l'installation de pandas sont disponibles dans la documentation officielle .

Installer des pandas avec Anaconda

Installer des pandas et le reste de la pile NumPy et SciPy peut être un peu difficile pour les utilisateurs inexpérimentés.

La manière la plus simple d’installer non seulement les pandas, mais aussi Python et les paquets les plus populaires constituant la pile SciPy (IPython, NumPy, Matplotlib, ...) est avec Anaconda , une plateforme multi-plateforme (Linux, Mac OS X, Windows) Distribution Python pour l'analyse de données et le calcul scientifique.

Après avoir exécuté un programme d'installation simple, l'utilisateur aura accès aux pandas et au reste de la pile SciPy sans avoir besoin d'installer autre chose, et sans avoir à attendre que des logiciels soient compilés.

Vous trouverez les instructions d'installation d'Anaconda ici .

Une liste complète des paquets disponibles dans le cadre de la distribution d'Anaconda peut être trouvée ici .

Un avantage supplémentaire de l'installation avec Anaconda est que vous n'avez pas besoin des droits d'administrateur pour l'installer, il sera installé dans le répertoire personnel de l'utilisateur, et cela rend également inutile de supprimer Anaconda ultérieurement (il suffit de supprimer ce dossier).

Installer des pandas avec Miniconda

La section précédente décrivait comment installer les pandas dans le cadre de la distribution Anaconda. Cependant, cette approche signifie que vous allez installer plus de cent paquets et que vous devrez télécharger le programme d’installation de quelques centaines de mégaoctets.

Si vous voulez avoir plus de contrôle sur les paquets, ou si vous avez une bande passante Internet limitée, installer des pandas avec Miniconda peut être une meilleure solution.

Conda est le gestionnaire de paquetages sur lequel la distribution Anaconda est construite. C'est un gestionnaire de paquets à la fois multi-plateforme et indépendant du langage (il peut jouer un rôle similaire à une combinaison pip et virtualenv).

Miniconda vous permet de créer une installation Python autonome minimale, puis d'utiliser la commande Conda pour installer des packages supplémentaires.

Tout d'abord, vous aurez besoin de Conda pour être installé et télécharger et exécuter le Miniconda le fera pour vous. L'installateur peut être trouvé ici .

L'étape suivante consiste à créer un nouvel environnement de conda (ceux-ci sont analogues à virtualenv, mais ils vous permettent également de spécifier précisément la version de Python à installer). Exécutez les commandes suivantes à partir d'une fenêtre de terminal:

conda create -n name_of_my_env python

Cela créera un environnement minimal avec seulement Python installé. Pour vous mettre dans cet environnement, exécutez:

source activate name_of_my_env

Sous Windows, la commande est la suivante:

activate name_of_my_env

La dernière étape requise consiste à installer des pandas. Cela peut être fait avec la commande suivante:

conda install pandas

Pour installer une version de pandas spécifique:

conda install pandas=0.13.1

Pour installer d'autres packages, IPython par exemple:

conda install ipython

Pour installer la distribution complète d'Anaconda:

conda install anaconda

Si vous avez besoin de paquets disponibles pour pip mais pas conda, installez simplement pip et utilisez pip pour installer ces paquets:

conda install pip
pip install django

Généralement, vous installez des pandas avec l'un des gestionnaires de paquets.

exemple pip:

pip install pandas

Cela nécessitera probablement l'installation d'un certain nombre de dépendances, y compris NumPy, nécessitera un compilateur pour compiler les bits de code requis, et cela peut prendre quelques minutes.

Installer via anaconda

Commencez par télécharger anaconda du site Continuum. Soit via l'installateur graphique (Windows / OSX) ou en exécutant un script shell (OSX / Linux). Cela comprend les pandas!


Si vous ne voulez pas que les 150 paquets soient regroupés dans anaconda, vous pouvez installer miniconda . Soit via l'installateur graphique (Windows) ou le script shell (OSX / Linux).

Installez les pandas sur miniconda en utilisant:

conda install pandas

Pour mettre à jour les pandas à la dernière version en utilisation anaconda ou miniconda:

conda update pandas

Bonjour le monde

Une fois Pandas installé, vous pouvez vérifier s'il fonctionne correctement en créant un ensemble de données réparties de manière aléatoire et en traçant son histogramme.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

entrer la description de l'image ici

Vérifiez certaines des statistiques des données (moyenne, écart-type, etc.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

Statistiques descriptives

Les statistiques descriptives (moyenne, écart-type, nombre d’observations, minimum, maximum et quartiles) des colonnes numériques peuvent être calculées à l’aide de la méthode .describe() , qui renvoie un ensemble de données descriptives de pandas.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Notez que puisque C n'est pas une colonne numérique, il est exclu de la sortie.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

Dans ce cas, la méthode résume les données catégorielles par le nombre d'observations, le nombre d'éléments uniques, le mode et la fréquence du mode.



Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow