pandas ट्यूटोरियल
पंडों के साथ शुरुआत हो रही है
खोज…
टिप्पणियों
पंडस एक पायथन पैकेज है जो "संबंधपरक" या "लेबल" डेटा को आसान और सहज दोनों के साथ काम करने के लिए डिज़ाइन किया गया तेज, लचीला और अभिव्यंजक डेटा संरचना प्रदान करता है। इसका उद्देश्य पायथन में व्यावहारिक, वास्तविक दुनिया डेटा विश्लेषण करने के लिए मौलिक उच्च-स्तरीय बिल्डिंग ब्लॉक होना है।
आधिकारिक पंडों के दस्तावेज यहां देखे जा सकते हैं ।
संस्करण
पांडा
संस्करण | रिलीज़ की तारीख |
---|---|
0.19.1 | 2016/11/03 |
0.19.0 | 2016/10/02 |
0.18.1 | 2016/05/03 |
0.18.0 | 2016/03/13 |
0.17.1 | 2015/11/21 |
0.17.0 | 2015/10/09 |
0.16.2 | 2015/06/12 |
0.16.1 | 2015/05/11 |
0.16.0 | 2015/03/22 |
0.15.2 | 2014-12-12 |
0.15.1 | 2014-11-09 |
0.15.0 | 2014-10-18 |
0.14.1 | 2014-07-11 |
0.14.0 | 2014-05-31 |
0.13.1 | 2014-02-03 |
0.13.0 | 2014-01-03 |
0.12.0 | 2013-07-23 |
स्थापना या सेटअप
पांडा को स्थापित करने या स्थापित करने के बारे में विस्तृत निर्देश आधिकारिक दस्तावेज में यहां देखे जा सकते हैं।
एनाकोंडा के साथ पांडा स्थापित करना
पांडा और बाकी न्यूपी और साइपी स्टैक को स्थापित करना अनुभवहीन उपयोगकर्ताओं के लिए थोड़ा मुश्किल हो सकता है।
न केवल पांडा, बल्कि पायथन और सबसे लोकप्रिय पैकेज स्थापित करने का सबसे सरल तरीका, जो कि SciPy स्टैक (IPython, NumPy, Matplotlib, ...) बनाता है, एनाकोंडा , एक क्रॉस-प्लेटफॉर्म (लिनक्स, मैक ओएस एक्स, विंडोज) के साथ है। डेटा एनालिटिक्स और वैज्ञानिक कंप्यूटिंग के लिए पायथन वितरण।
एक साधारण इंस्टॉलर को चलाने के बाद, उपयोगकर्ता के पास पांडा और बाकी SciPy स्टैक तक कुछ भी स्थापित करने की आवश्यकता के बिना एक्सेस होगा, और किसी भी सॉफ़्टवेयर के संकलन के लिए प्रतीक्षा करने की आवश्यकता के बिना।
एनाकोंडा के लिए इंस्टॉलेशन निर्देश यहां देखे जा सकते हैं ।
एनाकोंडा वितरण के हिस्से के रूप में उपलब्ध पैकेजों की एक पूरी सूची यहां पाई जा सकती है ।
एनाकोंडा के साथ स्थापित करने का एक अतिरिक्त लाभ यह है कि इसे स्थापित करने के लिए आपको व्यवस्थापक अधिकारों की आवश्यकता नहीं होती है, यह उपयोगकर्ता के होम डायरेक्टरी में स्थापित हो जाएगा, और यह एनाकोंडा को बाद की तारीख में हटाने के लिए तुच्छ बनाता है (बस उस फ़ोल्डर को हटा दें)।
मिनिकोंडा के साथ पंडों को स्थापित करना
पिछले खंड में बताया गया था कि एनाकोंडा वितरण के हिस्से के रूप में पांडा को कैसे स्थापित किया जाए। हालाँकि इस दृष्टिकोण का मतलब है कि आप एक सौ से अधिक पैकेजों को अच्छी तरह से स्थापित करेंगे और इसमें इंस्टॉलर डाउनलोड करना शामिल है जो आकार में कुछ सौ मेगाबाइट्स है।
यदि आप चाहते हैं कि किस पैकेज पर अधिक नियंत्रण हो, या एक सीमित इंटरनेट बैंडविड्थ हो, तो मिनिकोंडा के साथ पांडा स्थापित करना एक बेहतर समाधान हो सकता है।
कोंडा पैकेज मैनेजर है जिसे एनाकोंडा वितरण बनाया गया है। यह एक पैकेज मैनेजर है जो क्रॉस-प्लेटफॉर्म और भाषा अज्ञेय दोनों है (यह एक पाइप और वर्चुअन संयोजन के लिए एक समान भूमिका निभा सकता है)।
मिनिकोंडा आपको एक न्यूनतम स्व-निहित पायथन इंस्टॉलेशन बनाने की अनुमति देता है, और फिर अतिरिक्त पैकेज स्थापित करने के लिए कोंडा कमांड का उपयोग करता है।
सबसे पहले आपको Conda को स्थापित करने और डाउनलोड करने की आवश्यकता होगी और Miniconda को चलाना आपके लिए यह काम करेगा। इंस्टॉलर यहाँ पाया जा सकता है ।
अगला चरण एक नया कोंडा वातावरण बनाने के लिए है (ये एक वर्चुअन के अनुरूप हैं लेकिन ये आपको ठीक-ठीक निर्दिष्ट करने की अनुमति देते हैं कि कौन सा पायथन संस्करण भी स्थापित करना है)। टर्मिनल विंडो से निम्न कमांड चलाएँ:
conda create -n name_of_my_env python
यह केवल पायथन में स्थापित होने के साथ एक न्यूनतम वातावरण तैयार करेगा। इस वातावरण को चलाने के लिए अपने आप को अंदर रखना:
source activate name_of_my_env
विंडोज पर कमांड है:
activate name_of_my_env
पांडा को स्थापित करने के लिए आवश्यक अंतिम चरण है। यह निम्नलिखित कमांड के साथ किया जा सकता है:
conda install pandas
एक विशिष्ट पांडा संस्करण स्थापित करने के लिए:
conda install pandas=0.13.1
अन्य पैकेजों को स्थापित करने के लिए, उदाहरण के लिए IPython:
conda install ipython
पूर्ण एनाकोंडा वितरण स्थापित करने के लिए:
conda install anaconda
यदि आपको किसी ऐसे पैकेज की आवश्यकता है जो पाइप के लिए उपलब्ध हो, लेकिन कोंडा नहीं है, तो बस पाइप स्थापित करें, और इन पैकेजों को स्थापित करने के लिए पाइप का उपयोग करें:
conda install pip
pip install django
आमतौर पर, आप एक पैकेट मैनेजर के साथ पांडा स्थापित करेंगे।
पाइप उदाहरण:
pip install pandas
यह संभवत: NumPy सहित कई निर्भरताओं की स्थापना की आवश्यकता होगी, कोड के आवश्यक बिट्स को संकलित करने के लिए एक कंपाइलर की आवश्यकता होगी, और पूरा होने में कुछ मिनट लग सकते हैं।
एनाकोंडा के माध्यम से स्थापित करें
कॉन्टिनम साइट से सबसे पहले एनाकोंडा डाउनलोड करें । या तो ग्राफिकल इंस्टॉलर (विंडोज / ओएसएक्स) या शेल स्क्रिप्ट (ओएसएक्स / लिनक्स) चलाने के माध्यम से। इसमें पांडा शामिल हैं!
यदि आप 150 पैकेजों को आसानी से एनाकोंडा में नहीं बांधना चाहते हैं, तो आप मिनीकोन्डा को स्थापित कर सकते हैं। या तो ग्राफिकल इंस्टॉलर (विंडोज) या शेल स्क्रिप्ट (ओएसएक्स / लिनक्स) के माध्यम से।
उपयोग कर मिनिकोंडा पर पांडा स्थापित करें:
conda install pandas
एनाकोंडा या मिनिकोंडा उपयोग में नवीनतम संस्करण के लिए पांडा को अद्यतन करने के लिए:
conda update pandas
नमस्ते दुनिया
एक बार पंडों को स्थापित करने के बाद, आप यह जांच सकते हैं कि क्या यह बेतरतीब ढंग से वितरित मूल्यों का डेटासेट बनाकर काम कर रहा है या इसके हिस्टोग्राम की साजिश रच रहा है।
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
डेटा के कुछ आँकड़ों की जाँच करें (मतलब, मानक विचलन, आदि)
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
वर्णनात्मक आँकड़े
संख्यात्मक स्तंभों के वर्णनात्मक आँकड़े (मतलब, मानक विचलन, अवलोकनों की संख्या, न्यूनतम, अधिकतम और चतुर्थक) की गणना .describe()
विधि का उपयोग करके की जा सकती है, जो वर्णनात्मक आँकड़ों की एक पांडा .describe()
लौटाता है।
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
ध्यान दें कि चूंकि C
एक संख्यात्मक कॉलम नहीं है, इसलिए इसे आउटपुट से बाहर रखा गया है।
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
इस मामले में विधि टिप्पणियों की संख्या, अद्वितीय तत्वों की संख्या, मोड, और मोड की आवृत्ति द्वारा श्रेणीबद्ध डेटा को सारांशित करती है।