pandas ट्यूटोरियल
पंडों के साथ शुरुआत हो रही है

apache-spark HTML matplotlib MySQL postgresql Python Language R Language Regular Expressions SQL Microsoft SQL Server

टिप्पणियों

पंडस एक पायथन पैकेज है जो "संबंधपरक" या "लेबल" डेटा को आसान और सहज दोनों के साथ काम करने के लिए डिज़ाइन किया गया तेज, लचीला और अभिव्यंजक डेटा संरचना प्रदान करता है। इसका उद्देश्य पायथन में व्यावहारिक, वास्तविक दुनिया डेटा विश्लेषण करने के लिए मौलिक उच्च-स्तरीय बिल्डिंग ब्लॉक होना है।

आधिकारिक पंडों के दस्तावेज यहां देखे जा सकते हैं ।

संस्करण

पांडा

संस्करण	रिलीज़ की तारीख
0.19.1	2016/11/03
0.19.0	2016/10/02
0.18.1	2016/05/03
0.18.0	2016/03/13
0.17.1	2015/11/21
0.17.0	2015/10/09
0.16.2	2015/06/12
0.16.1	2015/05/11
0.16.0	2015/03/22
0.15.2	2014-12-12
0.15.1	2014-11-09
0.15.0	2014-10-18
0.14.1	2014-07-11
0.14.0	2014-05-31
0.13.1	2014-02-03
0.13.0	2014-01-03
0.12.0	2013-07-23

स्थापना या सेटअप

पांडा को स्थापित करने या स्थापित करने के बारे में विस्तृत निर्देश आधिकारिक दस्तावेज में यहां देखे जा सकते हैं।

एनाकोंडा के साथ पांडा स्थापित करना

पांडा और बाकी न्यूपी और साइपी स्टैक को स्थापित करना अनुभवहीन उपयोगकर्ताओं के लिए थोड़ा मुश्किल हो सकता है।

न केवल पांडा, बल्कि पायथन और सबसे लोकप्रिय पैकेज स्थापित करने का सबसे सरल तरीका, जो कि SciPy स्टैक (IPython, NumPy, Matplotlib, ...) बनाता है, एनाकोंडा , एक क्रॉस-प्लेटफॉर्म (लिनक्स, मैक ओएस एक्स, विंडोज) के साथ है। डेटा एनालिटिक्स और वैज्ञानिक कंप्यूटिंग के लिए पायथन वितरण।

एक साधारण इंस्टॉलर को चलाने के बाद, उपयोगकर्ता के पास पांडा और बाकी SciPy स्टैक तक कुछ भी स्थापित करने की आवश्यकता के बिना एक्सेस होगा, और किसी भी सॉफ़्टवेयर के संकलन के लिए प्रतीक्षा करने की आवश्यकता के बिना।

एनाकोंडा के लिए इंस्टॉलेशन निर्देश यहां देखे जा सकते हैं ।

एनाकोंडा वितरण के हिस्से के रूप में उपलब्ध पैकेजों की एक पूरी सूची यहां पाई जा सकती है ।

एनाकोंडा के साथ स्थापित करने का एक अतिरिक्त लाभ यह है कि इसे स्थापित करने के लिए आपको व्यवस्थापक अधिकारों की आवश्यकता नहीं होती है, यह उपयोगकर्ता के होम डायरेक्टरी में स्थापित हो जाएगा, और यह एनाकोंडा को बाद की तारीख में हटाने के लिए तुच्छ बनाता है (बस उस फ़ोल्डर को हटा दें)।

मिनिकोंडा के साथ पंडों को स्थापित करना

पिछले खंड में बताया गया था कि एनाकोंडा वितरण के हिस्से के रूप में पांडा को कैसे स्थापित किया जाए। हालाँकि इस दृष्टिकोण का मतलब है कि आप एक सौ से अधिक पैकेजों को अच्छी तरह से स्थापित करेंगे और इसमें इंस्टॉलर डाउनलोड करना शामिल है जो आकार में कुछ सौ मेगाबाइट्स है।

यदि आप चाहते हैं कि किस पैकेज पर अधिक नियंत्रण हो, या एक सीमित इंटरनेट बैंडविड्थ हो, तो मिनिकोंडा के साथ पांडा स्थापित करना एक बेहतर समाधान हो सकता है।

कोंडा पैकेज मैनेजर है जिसे एनाकोंडा वितरण बनाया गया है। यह एक पैकेज मैनेजर है जो क्रॉस-प्लेटफॉर्म और भाषा अज्ञेय दोनों है (यह एक पाइप और वर्चुअन संयोजन के लिए एक समान भूमिका निभा सकता है)।

मिनिकोंडा आपको एक न्यूनतम स्व-निहित पायथन इंस्टॉलेशन बनाने की अनुमति देता है, और फिर अतिरिक्त पैकेज स्थापित करने के लिए कोंडा कमांड का उपयोग करता है।

सबसे पहले आपको Conda को स्थापित करने और डाउनलोड करने की आवश्यकता होगी और Miniconda को चलाना आपके लिए यह काम करेगा। इंस्टॉलर यहाँ पाया जा सकता है ।

अगला चरण एक नया कोंडा वातावरण बनाने के लिए है (ये एक वर्चुअन के अनुरूप हैं लेकिन ये आपको ठीक-ठीक निर्दिष्ट करने की अनुमति देते हैं कि कौन सा पायथन संस्करण भी स्थापित करना है)। टर्मिनल विंडो से निम्न कमांड चलाएँ:

conda create -n name_of_my_env python

यह केवल पायथन में स्थापित होने के साथ एक न्यूनतम वातावरण तैयार करेगा। इस वातावरण को चलाने के लिए अपने आप को अंदर रखना:

source activate name_of_my_env

विंडोज पर कमांड है:

activate name_of_my_env

पांडा को स्थापित करने के लिए आवश्यक अंतिम चरण है। यह निम्नलिखित कमांड के साथ किया जा सकता है:

conda install pandas

एक विशिष्ट पांडा संस्करण स्थापित करने के लिए:

conda install pandas=0.13.1

अन्य पैकेजों को स्थापित करने के लिए, उदाहरण के लिए IPython:

conda install ipython

पूर्ण एनाकोंडा वितरण स्थापित करने के लिए:

conda install anaconda

यदि आपको किसी ऐसे पैकेज की आवश्यकता है जो पाइप के लिए उपलब्ध हो, लेकिन कोंडा नहीं है, तो बस पाइप स्थापित करें, और इन पैकेजों को स्थापित करने के लिए पाइप का उपयोग करें:

conda install pip
pip install django

आमतौर पर, आप एक पैकेट मैनेजर के साथ पांडा स्थापित करेंगे।

पाइप उदाहरण:

pip install pandas

यह संभवत: NumPy सहित कई निर्भरताओं की स्थापना की आवश्यकता होगी, कोड के आवश्यक बिट्स को संकलित करने के लिए एक कंपाइलर की आवश्यकता होगी, और पूरा होने में कुछ मिनट लग सकते हैं।

एनाकोंडा के माध्यम से स्थापित करें

कॉन्टिनम साइट से सबसे पहले एनाकोंडा डाउनलोड करें । या तो ग्राफिकल इंस्टॉलर (विंडोज / ओएसएक्स) या शेल स्क्रिप्ट (ओएसएक्स / लिनक्स) चलाने के माध्यम से। इसमें पांडा शामिल हैं!

यदि आप 150 पैकेजों को आसानी से एनाकोंडा में नहीं बांधना चाहते हैं, तो आप मिनीकोन्डा को स्थापित कर सकते हैं। या तो ग्राफिकल इंस्टॉलर (विंडोज) या शेल स्क्रिप्ट (ओएसएक्स / लिनक्स) के माध्यम से।

उपयोग कर मिनिकोंडा पर पांडा स्थापित करें:

conda install pandas

एनाकोंडा या मिनिकोंडा उपयोग में नवीनतम संस्करण के लिए पांडा को अद्यतन करने के लिए:

conda update pandas

नमस्ते दुनिया

एक बार पंडों को स्थापित करने के बाद, आप यह जांच सकते हैं कि क्या यह बेतरतीब ढंग से वितरित मूल्यों का डेटासेट बनाकर काम कर रहा है या इसके हिस्टोग्राम की साजिश रच रहा है।

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()

डेटा के कुछ आँकड़ों की जाँच करें (मतलब, मानक विचलन, आदि)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

वर्णनात्मक आँकड़े

संख्यात्मक स्तंभों के वर्णनात्मक आँकड़े (मतलब, मानक विचलन, अवलोकनों की संख्या, न्यूनतम, अधिकतम और चतुर्थक) की गणना .describe() विधि का उपयोग करके की जा सकती है, जो वर्णनात्मक आँकड़ों की एक पांडा .describe() लौटाता है।

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

ध्यान दें कि चूंकि C एक संख्यात्मक कॉलम नहीं है, इसलिए इसे आउटपुट से बाहर रखा गया है।

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

इस मामले में विधि टिप्पणियों की संख्या, अद्वितीय तत्वों की संख्या, मोड, और मोड की आवृत्ति द्वारा श्रेणीबद्ध डेटा को सारांशित करती है।

Modified text is an extract of the original Stack Overflow Documentation

के तहत लाइसेंस प्राप्त है CC BY-SA 3.0

से संबद्ध नहीं है Stack Overflow