hadoop ट्यूटोरियल
हूपअप के साथ शुरुआत करना

apache-spark Bash Java Language GNU/Linux MongoDB MySQL Python Language R Language Scala Language SQL

टिप्पणियों

Apache Hadoop क्या है?

Apache Hadoop सॉफ्टवेयर लाइब्रेरी एक ऐसा ढांचा है जो सरल प्रोग्रामिंग मॉडल का उपयोग करके कंप्यूटरों के समूहों में बड़े डेटा सेटों के वितरित प्रसंस्करण के लिए अनुमति देता है। इसे सिंगल सर्वर से लेकर हजारों मशीनों तक, प्रत्येक को स्थानीय अभिकलन और भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। उच्च-उपलब्धता प्रदान करने के लिए हार्डवेयर पर निर्भर होने के बजाय, लाइब्रेरी को स्वयं ही एप्लिकेशन परत में विफलताओं का पता लगाने और संभालने के लिए डिज़ाइन किया गया है, इसलिए कंप्यूटर के एक क्लस्टर के शीर्ष पर अत्यधिक-उपलब्ध सेवा प्रदान करना, जिनमें से प्रत्येक विफलताओं का खतरा हो सकता है।

Apache Hadoop में ये मॉड्यूल शामिल हैं:

Hadoop Common : सामान्य उपयोगिताओं जो अन्य Hadoop मॉड्यूल का समर्थन करती हैं।
Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) : एक वितरित फाइल सिस्टम जो एप्लिकेशन डेटा को उच्च-थ्रूपुट एक्सेस प्रदान करता है।
Hadoop YARN : नौकरी निर्धारण और क्लस्टर संसाधन प्रबंधन के लिए एक रूपरेखा।
Hadoop MapReduce : बड़े डेटा सेट के समानांतर प्रसंस्करण के लिए एक YARN- आधारित प्रणाली।

संदर्भ:

अपाचे होडोप

संस्करण

संस्करण	रिलीज नोट्स	रिलीज़ की तारीख
3.0.0-alpha1		2016/08/30
2.7.3	यहां क्लिक करें - 2.7.3	2016/01/25
2.6.4	यहां क्लिक करें - 2.6.4	2016/02/11
2.7.2	यहां क्लिक करें - 2.7.2	2016/01/25
2.6.3	यहां क्लिक करें - 2.6.3	2015/12/17
2.6.2	यहां क्लिक करें - 2.6.2	2015/10/28
2.7.1	यहां क्लिक करें - 2.7.1	2015/07/06

लिनक्स पर स्थापना या सेटअप

एक छद्म वितरित क्लस्टर सेटअप प्रक्रिया

आवश्यक शर्तें

JDK1.7 स्थापित करें और JAVA_HOME पर्यावरण चर सेट करें।
एक नया उपयोगकर्ता "हडूप" बनाएं।
useradd hadoop

पासवर्ड पासवर्ड-कम SSH अपने खाते में लॉगिन करें

 su - hadoop
 ssh-keygen
 << Press ENTER for all prompts >>
 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
 chmod 0600 ~/.ssh/authorized_keys

ssh localhost निष्पादित करके सत्यापित करें

IPet6 को अनुगमन के साथ /etc/sysctl.conf द्वारा अक्षम करें:

 net.ipv6.conf.all.disable_ipv6 = 1
 net.ipv6.conf.default.disable_ipv6 = 1
 net.ipv6.conf.lo.disable_ipv6 = 1

जाँच करें कि cat /proc/sys/net/ipv6/conf/all/disable_ipv6
(1 लौटना चाहिए)

स्थापना और कॉन्फ़िगरेशन:

wget कमांड का उपयोग करके अपाचे अभिलेखागार से Hadoop का आवश्यक संस्करण डाउनलोड करें।
```
 cd /opt/hadoop/
 wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gz
 tar -xvf hadoop-2.x.x.gz
 mv hadoop-2.x.x.gz hadoop 
(or)

 ln -s hadoop-2.x.x.gz hadoop
 chown -R hadoop:hadoop hadoop
```

नीचे पर्यावरण चर के साथ अपने शेल के आधार पर .bashrc / .kshrc अपडेट करें

  export HADOOP_PREFIX=/opt/hadoop/hadoop
  export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
  export JAVA_HOME=/java/home/path
  export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin

$HADOOP_HOME/etc/hadoop निर्देशिका में नीचे दी गई फाइलों को संपादित करें

कोर-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:8020</value>
    </property>
</configuration>

mapred-site.xml

इसके टेम्प्लेट से mapred-site.xml बनाएं

cp mapred-site.xml.template mapred-site.xml

  <configuration>
      <property>
          <name>mapreduce.framework.name</name>
          <value>yarn</value>
      </property>
  </configuration>

सूत-site.xml

 <configuration>
     <property>
         <name>yarn.resourcemanager.hostname</name>
         <value>localhost</value> 
     </property>
     <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
 </configuration>

HDFS-site.xml

 <configuration>
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
     <property>
         <name>dfs.namenode.name.dir</name>
         <value>file:///home/hadoop/hdfs/namenode</value>
     </property>
     <property>
         <name>dfs.datanode.data.dir</name> 
         <value>file:///home/hadoop/hdfs/datanode</value> 
     </property>
 </configuration>

हडूप डेटा को स्टोर करने के लिए पैरेंट फोल्डर बनाएं

mkdir -p /home/hadoop/hdfs

NameNode प्रारूप (निर्देशिका को साफ करता है और आवश्यक मेटा फाइलें बनाता है)
```
hdfs namenode -format
```

सभी सेवाएँ प्रारंभ करें:

start-dfs.sh && start-yarn.sh
mr-jobhistory-server.sh start historyserver

इसके बजाय start-all.sh (पदावनत) का उपयोग करें।

सभी चल रही जावा प्रक्रियाओं की जाँच करें
```
jps 
```
नामेनोड वेब इंटरफ़ेस: http: // localhost: 50070 /
संसाधन प्रबंधक वेब इंटरफ़ेस: http: // localhost: 8088 /
डेमॉन (सेवाओं) को रोकने के लिए:
```
stop-dfs.sh && stop-yarn.sh
mr-jobhistory-daemon.sh stop historyserver
```

इसके बजाय stop-all.sh (पदावनत) का उपयोग करें।

उबंटू पर हडोप की स्थापना

Hadoop उपयोगकर्ता बनाना:

sudo addgroup hadoop

एक उपयोगकर्ता जोड़ना:

sudo adduser --ingroup hadoop hduser001

SSH को कॉन्फ़िगर करना:

su -hduser001
ssh-keygen -t rsa -P ""
cat .ssh/id rsa.pub >> .ssh/authorized_keys

ध्यान दें: [: .ssh / authorized_keys: ऐसी कोई फ़ाइल या निर्देशिका बैश] अधिकृत कुंजी लेखन, जबकि आप त्रुटियों मिलता है। यहां देखें ।

Sudoer की सूची में hasoop उपयोगकर्ता जोड़ें:

sudo adduser hduser001 sudo

IPv6 अक्षम करना:

Hadoop स्थापित करना:

sudo add-apt-repository ppa:hadoop-ubuntu/stable
sudo apt-get install hadoop

Hadoop ओवरव्यू और HDFS

Hadoop एक वितरित कंप्यूटिंग वातावरण में भंडारण और डेटा-सेट के बड़े पैमाने पर प्रसंस्करण के लिए एक ओपन-सोर्स सॉफ्टवेयर फ्रेमवर्क है। यह Apache Software Foundation द्वारा प्रायोजित है। इसे सिंगल सर्वर से लेकर हजारों मशीनों तक, प्रत्येक को स्थानीय अभिकलन और भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। इतिहास

Hadoop को 2005 में Doug Cuting और Mike Cafarella ने बनाया था।
काटना, याहू पर कौन काम कर रहा था! उस समय, यह अपने बेटे के खिलौने के हाथी के नाम पर रखा गया था।
यह मूल रूप से खोज इंजन परियोजना के लिए वितरण का समर्थन करने के लिए विकसित किया गया था।

हडूप के प्रमुख मॉड्यूल

Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS): एक वितरित फाइल सिस्टम जो एप्लिकेशन डेटा को उच्च-थ्रूपुट एक्सेस प्रदान करता है। Hadoop MapReduce: गणना समूहों पर बड़े डेटा सेटों के वितरण के लिए एक सॉफ्टवेयर ढांचा। Hadoop फाइल सिस्टम बेसिक फीचर्स

अति दोष-सहिष्णु। उच्च थ्रूपुट। बड़े डेटा सेट के साथ अनुप्रयोगों के लिए उपयुक्त है। कमोडिटी हार्डवेयर से बाहर बनाया जा सकता है। नमनोडे और दतनोड्स

मास्टर / दास वास्तुकला। एचडीएफएस क्लस्टर में एक एकल नामेनोड शामिल है, जो एक मास्टर सर्वर है जो फ़ाइल सिस्टम नेमस्पेस का प्रबंधन करता है और क्लाइंट द्वारा फाइलों तक पहुंच को नियंत्रित करता है। DataNodes उन नोड्स से जुड़ी मेमोरी का प्रबंधन करता है, जिन पर वे चलते हैं। HDFS एक फ़ाइल सिस्टम नामस्थान को उजागर करता है और उपयोगकर्ता डेटा को फ़ाइलों में संग्रहीत करने की अनुमति देता है। एक फ़ाइल को एक या अधिक ब्लॉकों में विभाजित किया जाता है और ब्लॉक का सेट DataNodes में संग्रहीत किया जाता है। DataNodes: नामेनोड के निर्देश पर रीड क्रिएशन, रिक्वेस्ट लिखकर, ब्लॉक क्रिएशन, डिलीट, और प्रतिकृति परोसता है।

HDFS को एक बड़े क्लस्टर में मशीनों में बहुत बड़ी फ़ाइलों को संग्रहीत करने के लिए डिज़ाइन किया गया है। प्रत्येक फ़ाइल ब्लॉक का एक क्रम है। अंतिम को छोड़कर फ़ाइल के सभी ब्लॉक समान आकार के हैं। ब्लॉक को सहिष्णुता के लिए दोहराया जाता है। नामेनोड क्लस्टर में प्रत्येक DataNode से एक हार्टबीट और एक ब्लॉक -पोर्ट प्राप्त करता है। BlockReport में एक डेटानोड पर सभी ब्लॉक होते हैं। Hadoop Shell Commands

हडूप fs -ls पथ

बिल्ली

hadoop fs -cat PathOfFileToView

हडूप शेल कमांड के लिए लिंक: - https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html

Modified text is an extract of the original Stack Overflow Documentation

के तहत लाइसेंस प्राप्त है CC BY-SA 3.0

से संबद्ध नहीं है Stack Overflow