pandas учебник
Начало работы с пандами
Поиск…
замечания
Pandas - это пакет Python, обеспечивающий быструю, гибкую и выразительную структуру данных, предназначенную для работы с «реляционными» или «помеченными» данными как простой, так и интуитивно понятной. Он призван стать фундаментальным строительным блоком высокого уровня для практического анализа данных реального мира в Python.
Официальную документацию Pandas можно найти здесь .
Версии
Панды
Версия | Дата выхода |
---|---|
0.19.1 | 2016-11-03 |
0.19.0 | 2016-10-02 |
0.18.1 | 2016-05-03 |
0.18.0 | 2016-03-13 |
0.17.1 | 2015-11-21 |
0.17.0 | 2015-10-09 |
0.16.2 | 2015-06-12 |
0.16.1 | 2015-05-11 |
0.16.0 | 2015-03-22 |
0.15.2 | 2014-12-12 |
0.15.1 | 2014-11-09 |
0.15.0 | 2014-10-18 |
0.14.1 | 2014-07-11 |
0.14.0 | 2014-05-31 |
0.13.1 | 2014-02-03 |
0.13.0 | 2014-01-03 |
0.12.0 | 2013-07-23 |
Установка или настройка
Подробные инструкции по установке или установке панд можно найти здесь, в официальной документации .
Установка панд с помощью Anaconda
Установка pandas и остальной части стека NumPy и SciPy может быть немного сложной для неопытных пользователей.
Самый простой способ установить не только pandas, но и Python и самые популярные пакеты, составляющие стек SciPy (IPython, NumPy, Matplotlib, ...), - это Anaconda , кросс-платформенная (Linux, Mac OS X, Windows) Распределение Python для анализа данных и научных вычислений.
После запуска простого установщика пользователь получит доступ к pandas и остальной части стека SciPy без необходимости устанавливать что-либо еще и без необходимости компилировать какое-либо программное обеспечение.
Инструкции по установке для Anaconda можно найти здесь .
Полный список пакетов, доступных в составе дистрибутива Anaconda, можно найти здесь .
Дополнительным преимуществом установки с Anaconda является то, что вам не требуются права администратора для его установки, она будет установлена в домашнем каталоге пользователя, и это также упростит удаление Anaconda на более позднюю дату (просто удалите эту папку).
Установка панд с помощью Miniconda
В предыдущем разделе описано, как установить pandas как часть дистрибутива Anaconda. Однако этот подход означает, что вы установите более ста пакетов и загрузите установщик размером в несколько сотен мегабайт.
Если вы хотите иметь больше контроля над пакетами или иметь ограниченную пропускную способность Интернета, то установка pandas с помощью Miniconda может быть лучшим решением.
Конда - это менеджер пакетов, на котором основан дистрибутив Anaconda. Это менеджер пакетов, который является как межплатформенным, так и языковым агностиком (он может играть аналогичную роль в сочетании с pip и virtualenv).
Miniconda позволяет создавать минимальную автономную установку Python, а затем использовать команду Conda для установки дополнительных пакетов.
Сначала вам понадобится Conda для установки, и загрузка и запуск Miniconda сделает это за вас. Установщик можно найти здесь .
Следующий шаг - создать новую среду conda (они аналогичны виртуальным, но они также позволяют точно указать, какую версию Python также установить). Выполните следующие команды из окна терминала:
conda create -n name_of_my_env python
Это создаст минимальную среду, в которой будет установлен только Python. Чтобы запустить себя в эту среду, выполните следующие действия:
source activate name_of_my_env
В Windows команда:
activate name_of_my_env
Последний шаг - установка панд. Это можно сделать с помощью следующей команды:
conda install pandas
Чтобы установить конкретную версию pandas:
conda install pandas=0.13.1
Чтобы установить другие пакеты, IPython, например:
conda install ipython
Чтобы установить полный дистрибутив Anaconda:
conda install anaconda
Если вам нужны пакеты, доступные для pip, но не conda, просто установите pip и используйте pip для установки этих пакетов:
conda install pip
pip install django
Обычно вы устанавливаете панды с одним из менеджеров пакетов.
Пример примера:
pip install pandas
Это, скорее всего, потребует установки ряда зависимостей, в том числе NumPy, потребует от компилятора компиляции необходимых битов кода и может занять несколько минут.
Установить через anaconda
Сначала загрузите anaconda с сайта Continuum. Либо через графический установщик (Windows / OSX), либо запустите сценарий оболочки (OSX / Linux). Сюда входят панды!
Если вы не хотите, чтобы 150 пакетов были в комплекте в анаконде, вы можете установить миниконду . Либо через графический установщик (Windows), либо скрипт оболочки (OSX / Linux).
Установите pandas на miniconda, используя:
conda install pandas
Чтобы обновить pandas до последней версии в anaconda или miniconda, используйте:
conda update pandas
Привет, мир
Как только Pandas будет установлен, вы можете проверить, работает ли он правильно, создав набор данных случайным образом распределенных значений и построив его гистограмму.
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
Проверьте некоторые данные статистики (среднее значение, стандартное отклонение и т. Д.).
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
Описательная статистика
Описательная статистика (среднее, стандартное отклонение, количество наблюдений, минимальное, максимальное и квартили) числовых столбцов может быть рассчитана с использованием .describe()
, который возвращает .describe()
pandas описательной статистики.
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
Заметим, что поскольку C
не является числовым столбцом, он исключается из вывода.
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
В этом случае метод суммирует категориальные данные по количеству наблюдений, количеству уникальных элементов, режиму и частоте режима.