खोज…


टिप्पणियों

Apache Hadoop क्या है?

Apache Hadoop सॉफ्टवेयर लाइब्रेरी एक ऐसा ढांचा है जो सरल प्रोग्रामिंग मॉडल का उपयोग करके कंप्यूटरों के समूहों में बड़े डेटा सेटों के वितरित प्रसंस्करण के लिए अनुमति देता है। इसे सिंगल सर्वर से लेकर हजारों मशीनों तक, प्रत्येक को स्थानीय अभिकलन और भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। उच्च-उपलब्धता प्रदान करने के लिए हार्डवेयर पर निर्भर होने के बजाय, लाइब्रेरी को स्वयं ही एप्लिकेशन परत में विफलताओं का पता लगाने और संभालने के लिए डिज़ाइन किया गया है, इसलिए कंप्यूटर के एक क्लस्टर के शीर्ष पर अत्यधिक-उपलब्ध सेवा प्रदान करना, जिनमें से प्रत्येक विफलताओं का खतरा हो सकता है।

Apache Hadoop में ये मॉड्यूल शामिल हैं:

  • Hadoop Common : सामान्य उपयोगिताओं जो अन्य Hadoop मॉड्यूल का समर्थन करती हैं।
  • Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) : एक वितरित फाइल सिस्टम जो एप्लिकेशन डेटा को उच्च-थ्रूपुट एक्सेस प्रदान करता है।
  • Hadoop YARN : नौकरी निर्धारण और क्लस्टर संसाधन प्रबंधन के लिए एक रूपरेखा।
  • Hadoop MapReduce : बड़े डेटा सेट के समानांतर प्रसंस्करण के लिए एक YARN- आधारित प्रणाली।

संदर्भ:

अपाचे होडोप

संस्करण

संस्करण रिलीज नोट्स रिलीज़ की तारीख
3.0.0-alpha1 2016/08/30
2.7.3 यहां क्लिक करें - 2.7.3 2016/01/25
2.6.4 यहां क्लिक करें - 2.6.4 2016/02/11
2.7.2 यहां क्लिक करें - 2.7.2 2016/01/25
2.6.3 यहां क्लिक करें - 2.6.3 2015/12/17
2.6.2 यहां क्लिक करें - 2.6.2 2015/10/28
2.7.1 यहां क्लिक करें - 2.7.1 2015/07/06

लिनक्स पर स्थापना या सेटअप

एक छद्म वितरित क्लस्टर सेटअप प्रक्रिया

आवश्यक शर्तें

  • JDK1.7 स्थापित करें और JAVA_HOME पर्यावरण चर सेट करें।

  • एक नया उपयोगकर्ता "हडूप" बनाएं।

    useradd hadoop

  • पासवर्ड पासवर्ड-कम SSH अपने खाते में लॉगिन करें

     su - hadoop
     ssh-keygen
     << Press ENTER for all prompts >>
     cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
     chmod 0600 ~/.ssh/authorized_keys
    
  • ssh localhost निष्पादित करके सत्यापित करें

  • IPet6 को अनुगमन के साथ /etc/sysctl.conf द्वारा अक्षम करें:

     net.ipv6.conf.all.disable_ipv6 = 1
     net.ipv6.conf.default.disable_ipv6 = 1
     net.ipv6.conf.lo.disable_ipv6 = 1
    
  • जाँच करें कि cat /proc/sys/net/ipv6/conf/all/disable_ipv6

    (1 लौटना चाहिए)

स्थापना और कॉन्फ़िगरेशन:

  • wget कमांड का उपयोग करके अपाचे अभिलेखागार से Hadoop का आवश्यक संस्करण डाउनलोड करें।

     cd /opt/hadoop/
     wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gz
     tar -xvf hadoop-2.x.x.gz
     mv hadoop-2.x.x.gz hadoop 
    (or)
    
     ln -s hadoop-2.x.x.gz hadoop
     chown -R hadoop:hadoop hadoop
    
  • नीचे पर्यावरण चर के साथ अपने शेल के आधार पर .bashrc / .kshrc अपडेट करें

      export HADOOP_PREFIX=/opt/hadoop/hadoop
      export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
      export JAVA_HOME=/java/home/path
      export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin
    
  • $HADOOP_HOME/etc/hadoop निर्देशिका में नीचे दी गई फाइलों को संपादित करें

    • कोर-site.xml

      <configuration>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://localhost:8020</value>
          </property>
      </configuration> 
      
    • mapred-site.xml

      इसके टेम्प्लेट से mapred-site.xml बनाएं

      cp mapred-site.xml.template mapred-site.xml

        <configuration>
            <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
            </property>
        </configuration> 
      
    • सूत-site.xml

       <configuration>
           <property>
               <name>yarn.resourcemanager.hostname</name>
               <value>localhost</value> 
           </property>
           <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
           </property>
       </configuration>
      
    • HDFS-site.xml

       <configuration>
           <property>
               <name>dfs.replication</name>
               <value>1</value>
           </property>
           <property>
               <name>dfs.namenode.name.dir</name>
               <value>file:///home/hadoop/hdfs/namenode</value>
           </property>
           <property>
               <name>dfs.datanode.data.dir</name> 
               <value>file:///home/hadoop/hdfs/datanode</value> 
           </property>
       </configuration>
      

    हडूप डेटा को स्टोर करने के लिए पैरेंट फोल्डर बनाएं

    mkdir -p /home/hadoop/hdfs
    
  • NameNode प्रारूप (निर्देशिका को साफ करता है और आवश्यक मेटा फाइलें बनाता है)

    hdfs namenode -format
    
  • सभी सेवाएँ प्रारंभ करें:

    start-dfs.sh && start-yarn.sh
    mr-jobhistory-server.sh start historyserver
    

इसके बजाय start-all.sh (पदावनत) का उपयोग करें।

  • सभी चल रही जावा प्रक्रियाओं की जाँच करें

    jps 
    
  • नामेनोड वेब इंटरफ़ेस: http: // localhost: 50070 /

  • संसाधन प्रबंधक वेब इंटरफ़ेस: http: // localhost: 8088 /

  • डेमॉन (सेवाओं) को रोकने के लिए:

    stop-dfs.sh && stop-yarn.sh
    mr-jobhistory-daemon.sh stop historyserver
    

इसके बजाय stop-all.sh (पदावनत) का उपयोग करें।

उबंटू पर हडोप की स्थापना

Hadoop उपयोगकर्ता बनाना:

sudo addgroup hadoop

एक उपयोगकर्ता जोड़ना:

sudo adduser --ingroup hadoop hduser001

यहाँ छवि विवरण दर्ज करें

SSH को कॉन्फ़िगर करना:

su -hduser001
ssh-keygen -t rsa -P ""
cat .ssh/id rsa.pub >> .ssh/authorized_keys

ध्यान दें: [: .ssh / authorized_keys: ऐसी कोई फ़ाइल या निर्देशिका बैश] अधिकृत कुंजी लेखन, जबकि आप त्रुटियों मिलता है। यहां देखें

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

Sudoer की सूची में hasoop उपयोगकर्ता जोड़ें:

sudo adduser hduser001 sudo

यहाँ छवि विवरण दर्ज करें

IPv6 अक्षम करना:

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

Hadoop स्थापित करना:

sudo add-apt-repository ppa:hadoop-ubuntu/stable
sudo apt-get install hadoop

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

Hadoop ओवरव्यू और HDFS

यहाँ छवि विवरण दर्ज करें

    Hadoop एक वितरित कंप्यूटिंग वातावरण में भंडारण और डेटा-सेट के बड़े पैमाने पर प्रसंस्करण के लिए एक ओपन-सोर्स सॉफ्टवेयर फ्रेमवर्क है। यह Apache Software Foundation द्वारा प्रायोजित है। इसे सिंगल सर्वर से लेकर हजारों मशीनों तक, प्रत्येक को स्थानीय अभिकलन और भंडारण प्रदान करने के लिए डिज़ाइन किया गया है।
इतिहास

  • Hadoop को 2005 में Doug Cuting और Mike Cafarella ने बनाया था।
  • काटना, याहू पर कौन काम कर रहा था! उस समय, यह अपने बेटे के खिलौने के हाथी के नाम पर रखा गया था।
  • यह मूल रूप से खोज इंजन परियोजना के लिए वितरण का समर्थन करने के लिए विकसित किया गया था।
हडूप के प्रमुख मॉड्यूल

    Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS): एक वितरित फाइल सिस्टम जो एप्लिकेशन डेटा को उच्च-थ्रूपुट एक्सेस प्रदान करता है। Hadoop MapReduce: गणना समूहों पर बड़े डेटा सेटों के वितरण के लिए एक सॉफ्टवेयर ढांचा।
Hadoop फाइल सिस्टम बेसिक फीचर्स

    अति दोष-सहिष्णु। उच्च थ्रूपुट। बड़े डेटा सेट के साथ अनुप्रयोगों के लिए उपयुक्त है। कमोडिटी हार्डवेयर से बाहर बनाया जा सकता है।
नमनोडे और दतनोड्स

    मास्टर / दास वास्तुकला। एचडीएफएस क्लस्टर में एक एकल नामेनोड शामिल है, जो एक मास्टर सर्वर है जो फ़ाइल सिस्टम नेमस्पेस का प्रबंधन करता है और क्लाइंट द्वारा फाइलों तक पहुंच को नियंत्रित करता है। DataNodes उन नोड्स से जुड़ी मेमोरी का प्रबंधन करता है, जिन पर वे चलते हैं। HDFS एक फ़ाइल सिस्टम नामस्थान को उजागर करता है और उपयोगकर्ता डेटा को फ़ाइलों में संग्रहीत करने की अनुमति देता है। एक फ़ाइल को एक या अधिक ब्लॉकों में विभाजित किया जाता है और ब्लॉक का सेट DataNodes में संग्रहीत किया जाता है। DataNodes: नामेनोड के निर्देश पर रीड क्रिएशन, रिक्वेस्ट लिखकर, ब्लॉक क्रिएशन, डिलीट, और प्रतिकृति परोसता है।

यहाँ छवि विवरण दर्ज करें

    HDFS को एक बड़े क्लस्टर में मशीनों में बहुत बड़ी फ़ाइलों को संग्रहीत करने के लिए डिज़ाइन किया गया है। प्रत्येक फ़ाइल ब्लॉक का एक क्रम है। अंतिम को छोड़कर फ़ाइल के सभी ब्लॉक समान आकार के हैं। ब्लॉक को सहिष्णुता के लिए दोहराया जाता है। नामेनोड क्लस्टर में प्रत्येक DataNode से एक हार्टबीट और एक ब्लॉक -पोर्ट प्राप्त करता है। BlockReport में एक डेटानोड पर सभी ब्लॉक होते हैं।
Hadoop Shell Commands

    सामान्य आदेशों का उपयोग किया जाता है: -
      ls उपयोग: हडूप fs -ls पथ (सूची के लिए dir / फ़ाइल पथ)। बिल्ली का उपयोग: hadoop fs -cat PathOfFileToView

यहाँ छवि विवरण दर्ज करें

हडूप शेल कमांड के लिए लिंक: - https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html



Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow