pandas
Получение информации о DataFrames
Поиск…
Получение данных и использования памяти DataFrame
Чтобы получить основную информацию о DataFrame, включая имена столбцов и типы данных:
import pandas as pd
df = pd.DataFrame({'integers': [1, 2, 3],
'floats': [1.5, 2.5, 3],
'text': ['a', 'b', 'c'],
'ints with None': [1, None, 3]})
df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 0 to 2
Data columns (total 4 columns):
floats 3 non-null float64
integers 3 non-null int64
ints with None 2 non-null float64
text 3 non-null object
dtypes: float64(2), int64(1), object(1)
memory usage: 120.0+ bytes
Чтобы получить использование памяти DataFrame:
>>> df.info(memory_usage='deep')
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 0 to 2
Data columns (total 4 columns):
floats 3 non-null float64
integers 3 non-null int64
ints with None 2 non-null float64
text 3 non-null object
dtypes: float64(2), int64(1), object(1)
memory usage: 234.0 bytes
Список имен столбцов DataFrame
df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
Чтобы перечислить имена столбцов в DataFrame:
>>> list(df)
['a', 'b', 'c']
Этот метод понимания списка особенно полезен при использовании отладчика:
>>> [c for c in df]
['a', 'b', 'c']
Это долгий путь:
sampledf.columns.tolist()
Вы также можете распечатать их как индекс, а не список (это будет не очень заметно для фреймов данных со многими столбцами):
df.columns
Различные сводные статистические данные Dataframe.
import pandas as pd
df = pd.DataFrame(np.random.randn(5, 5), columns=list('ABCDE'))
Чтобы создать различные сводные статистические данные. Для числовых значений - число не-NA / нулевых значений ( count
), среднее ( mean
), стандартное отклонение std
и значения, известные как сводка с пятью цифрами :
-
min
: минимум (наименьшее наблюдение) -
25%
: нижняя квартиль или первый квартиль (Q1) -
50%
: медиана (среднее значение, Q2) -
75%
: верхний квартиль или третий квартиль (Q3) -
max
: максимум (наибольшее наблюдение)
>>> df.describe()
A B C D E
count 5.000000 5.000000 5.000000 5.000000 5.000000
mean -0.456917 -0.278666 0.334173 0.863089 0.211153
std 0.925617 1.091155 1.024567 1.238668 1.495219
min -1.494346 -2.031457 -0.336471 -0.821447 -2.106488
25% -1.143098 -0.407362 -0.246228 -0.087088 -0.082451
50% -0.536503 -0.163950 -0.004099 1.509749 0.313918
75% 0.092630 0.381407 0.120137 1.822794 1.060268
max 0.796729 0.828034 2.137527 1.891436 1.870520
Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow