hadoop ट्यूटोरियल
हूपअप के साथ शुरुआत करना
खोज…
टिप्पणियों
Apache Hadoop क्या है?
Apache Hadoop सॉफ्टवेयर लाइब्रेरी एक ऐसा ढांचा है जो सरल प्रोग्रामिंग मॉडल का उपयोग करके कंप्यूटरों के समूहों में बड़े डेटा सेटों के वितरित प्रसंस्करण के लिए अनुमति देता है। इसे सिंगल सर्वर से लेकर हजारों मशीनों तक, प्रत्येक को स्थानीय अभिकलन और भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। उच्च-उपलब्धता प्रदान करने के लिए हार्डवेयर पर निर्भर होने के बजाय, लाइब्रेरी को स्वयं ही एप्लिकेशन परत में विफलताओं का पता लगाने और संभालने के लिए डिज़ाइन किया गया है, इसलिए कंप्यूटर के एक क्लस्टर के शीर्ष पर अत्यधिक-उपलब्ध सेवा प्रदान करना, जिनमें से प्रत्येक विफलताओं का खतरा हो सकता है।
Apache Hadoop में ये मॉड्यूल शामिल हैं:
- Hadoop Common : सामान्य उपयोगिताओं जो अन्य Hadoop मॉड्यूल का समर्थन करती हैं।
- Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) : एक वितरित फाइल सिस्टम जो एप्लिकेशन डेटा को उच्च-थ्रूपुट एक्सेस प्रदान करता है।
- Hadoop YARN : नौकरी निर्धारण और क्लस्टर संसाधन प्रबंधन के लिए एक रूपरेखा।
- Hadoop MapReduce : बड़े डेटा सेट के समानांतर प्रसंस्करण के लिए एक YARN- आधारित प्रणाली।
संदर्भ:
संस्करण
संस्करण | रिलीज नोट्स | रिलीज़ की तारीख |
---|---|---|
3.0.0-alpha1 | 2016/08/30 | |
2.7.3 | यहां क्लिक करें - 2.7.3 | 2016/01/25 |
2.6.4 | यहां क्लिक करें - 2.6.4 | 2016/02/11 |
2.7.2 | यहां क्लिक करें - 2.7.2 | 2016/01/25 |
2.6.3 | यहां क्लिक करें - 2.6.3 | 2015/12/17 |
2.6.2 | यहां क्लिक करें - 2.6.2 | 2015/10/28 |
2.7.1 | यहां क्लिक करें - 2.7.1 | 2015/07/06 |
लिनक्स पर स्थापना या सेटअप
एक छद्म वितरित क्लस्टर सेटअप प्रक्रिया
आवश्यक शर्तें
JDK1.7 स्थापित करें और JAVA_HOME पर्यावरण चर सेट करें।
एक नया उपयोगकर्ता "हडूप" बनाएं।
useradd hadoop
पासवर्ड पासवर्ड-कम SSH अपने खाते में लॉगिन करें
su - hadoop ssh-keygen << Press ENTER for all prompts >> cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
ssh localhost
निष्पादित करके सत्यापित करेंIPet6 को अनुगमन के साथ
/etc/sysctl.conf
द्वारा अक्षम करें:net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1
जाँच करें कि
cat /proc/sys/net/ipv6/conf/all/disable_ipv6
(1 लौटना चाहिए)
स्थापना और कॉन्फ़िगरेशन:
wget
कमांड का उपयोग करके अपाचे अभिलेखागार से Hadoop का आवश्यक संस्करण डाउनलोड करें।cd /opt/hadoop/ wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gz tar -xvf hadoop-2.x.x.gz mv hadoop-2.x.x.gz hadoop (or) ln -s hadoop-2.x.x.gz hadoop chown -R hadoop:hadoop hadoop
नीचे पर्यावरण चर के साथ अपने शेल के आधार पर
.bashrc
/.kshrc
अपडेट करेंexport HADOOP_PREFIX=/opt/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export JAVA_HOME=/java/home/path export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin
$HADOOP_HOME/etc/hadoop
निर्देशिका में नीचे दी गई फाइलों को संपादित करेंकोर-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020</value> </property> </configuration>
mapred-site.xml
इसके टेम्प्लेट से
mapred-site.xml
बनाएंcp mapred-site.xml.template mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
सूत-site.xml
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
HDFS-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
हडूप डेटा को स्टोर करने के लिए पैरेंट फोल्डर बनाएं
mkdir -p /home/hadoop/hdfs
NameNode प्रारूप (निर्देशिका को साफ करता है और आवश्यक मेटा फाइलें बनाता है)
hdfs namenode -format
सभी सेवाएँ प्रारंभ करें:
start-dfs.sh && start-yarn.sh mr-jobhistory-server.sh start historyserver
इसके बजाय start-all.sh (पदावनत) का उपयोग करें।
सभी चल रही जावा प्रक्रियाओं की जाँच करें
jps
नामेनोड वेब इंटरफ़ेस: http: // localhost: 50070 /
संसाधन प्रबंधक वेब इंटरफ़ेस: http: // localhost: 8088 /
डेमॉन (सेवाओं) को रोकने के लिए:
stop-dfs.sh && stop-yarn.sh mr-jobhistory-daemon.sh stop historyserver
इसके बजाय stop-all.sh (पदावनत) का उपयोग करें।
उबंटू पर हडोप की स्थापना
Hadoop उपयोगकर्ता बनाना:
sudo addgroup hadoop
एक उपयोगकर्ता जोड़ना:
sudo adduser --ingroup hadoop hduser001
SSH को कॉन्फ़िगर करना:
su -hduser001
ssh-keygen -t rsa -P ""
cat .ssh/id rsa.pub >> .ssh/authorized_keys
ध्यान दें: [: .ssh / authorized_keys: ऐसी कोई फ़ाइल या निर्देशिका बैश] अधिकृत कुंजी लेखन, जबकि आप त्रुटियों मिलता है। यहां देखें ।
Sudoer की सूची में hasoop उपयोगकर्ता जोड़ें:
sudo adduser hduser001 sudo
IPv6 अक्षम करना:
Hadoop स्थापित करना:
sudo add-apt-repository ppa:hadoop-ubuntu/stable
sudo apt-get install hadoop
Hadoop ओवरव्यू और HDFS
- Hadoop एक वितरित कंप्यूटिंग वातावरण में भंडारण और डेटा-सेट के बड़े पैमाने पर प्रसंस्करण के लिए एक ओपन-सोर्स सॉफ्टवेयर फ्रेमवर्क है। यह Apache Software Foundation द्वारा प्रायोजित है। इसे सिंगल सर्वर से लेकर हजारों मशीनों तक, प्रत्येक को स्थानीय अभिकलन और भंडारण प्रदान करने के लिए डिज़ाइन किया गया है।
- Hadoop को 2005 में Doug Cuting और Mike Cafarella ने बनाया था।
- काटना, याहू पर कौन काम कर रहा था! उस समय, यह अपने बेटे के खिलौने के हाथी के नाम पर रखा गया था।
- यह मूल रूप से खोज इंजन परियोजना के लिए वितरण का समर्थन करने के लिए विकसित किया गया था।
- Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS): एक वितरित फाइल सिस्टम जो एप्लिकेशन डेटा को उच्च-थ्रूपुट एक्सेस प्रदान करता है। Hadoop MapReduce: गणना समूहों पर बड़े डेटा सेटों के वितरण के लिए एक सॉफ्टवेयर ढांचा।
- अति दोष-सहिष्णु। उच्च थ्रूपुट। बड़े डेटा सेट के साथ अनुप्रयोगों के लिए उपयुक्त है। कमोडिटी हार्डवेयर से बाहर बनाया जा सकता है।
- मास्टर / दास वास्तुकला। एचडीएफएस क्लस्टर में एक एकल नामेनोड शामिल है, जो एक मास्टर सर्वर है जो फ़ाइल सिस्टम नेमस्पेस का प्रबंधन करता है और क्लाइंट द्वारा फाइलों तक पहुंच को नियंत्रित करता है। DataNodes उन नोड्स से जुड़ी मेमोरी का प्रबंधन करता है, जिन पर वे चलते हैं। HDFS एक फ़ाइल सिस्टम नामस्थान को उजागर करता है और उपयोगकर्ता डेटा को फ़ाइलों में संग्रहीत करने की अनुमति देता है। एक फ़ाइल को एक या अधिक ब्लॉकों में विभाजित किया जाता है और ब्लॉक का सेट DataNodes में संग्रहीत किया जाता है। DataNodes: नामेनोड के निर्देश पर रीड क्रिएशन, रिक्वेस्ट लिखकर, ब्लॉक क्रिएशन, डिलीट, और प्रतिकृति परोसता है।
- HDFS को एक बड़े क्लस्टर में मशीनों में बहुत बड़ी फ़ाइलों को संग्रहीत करने के लिए डिज़ाइन किया गया है। प्रत्येक फ़ाइल ब्लॉक का एक क्रम है। अंतिम को छोड़कर फ़ाइल के सभी ब्लॉक समान आकार के हैं। ब्लॉक को सहिष्णुता के लिए दोहराया जाता है। नामेनोड क्लस्टर में प्रत्येक DataNode से एक हार्टबीट और एक ब्लॉक -पोर्ट प्राप्त करता है। BlockReport में एक डेटानोड पर सभी ब्लॉक होते हैं।
- सामान्य आदेशों का उपयोग किया जाता है: -
- ls उपयोग: हडूप fs -ls पथ (सूची के लिए dir / फ़ाइल पथ)। बिल्ली का उपयोग: hadoop fs -cat PathOfFileToView
हडूप शेल कमांड के लिए लिंक: - https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html