Поиск…


замечания

Что такое Apache Hadoop?

Библиотека программного обеспечения Apache Hadoop представляет собой структуру, которая позволяет распределенную обработку больших наборов данных в кластерах компьютеров с использованием простых моделей программирования. Он предназначен для масштабирования от отдельных серверов до тысяч компьютеров, каждый из которых предлагает локальные вычисления и хранение. Вместо того, чтобы полагаться на аппаратное обеспечение для обеспечения высокой доступности, сама библиотека предназначена для обнаружения и обработки сбоев на уровне приложений, поэтому предоставление высокодоступного сервиса поверх кластера компьютеров, каждый из которых может быть подвержен ошибкам.

Apache Hadoop включает в себя следующие модули:

  • Hadoop Common : общие утилиты, поддерживающие другие модули Hadoop.
  • Распределенная файловая система Hadoop (HDFS) : распределенная файловая система, обеспечивающая высокопроизводительный доступ к данным приложения.
  • Hadoop YARN : структура планирования рабочих мест и управления ресурсами кластера.
  • Hadoop MapReduce : система на основе YARN для параллельной обработки больших наборов данных.

Ссылка:

Apache Hadoop

Версии

Версия Примечания к выпуску Дата выхода
3.0.0-альфа1 2016-08-30
2.7.3 Нажмите здесь - 2.7.3 2016-01-25
2.6.4 Нажмите здесь - 2.6.4 2016-02-11
2.7.2 Нажмите здесь - 2.7.2 2016-01-25
2.6.3 Нажмите здесь - 2.6.3 2015-12-17
2.6.2 Нажмите здесь - 2.6.2 2015-10-28
2.7.1 Нажмите здесь - 2.7.1 2015-07-06

Установка или настройка в Linux

Процедура установки псевдораспределенного кластера

Предпосылки

  • Установите JDK1.7 и установите переменную среды JAVA_HOME.

  • Создайте нового пользователя как «hadoop».

    useradd hadoop

  • Установка пароля без SSH-входа в свою учетную запись

     su - hadoop
     ssh-keygen
     << Press ENTER for all prompts >>
     cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
     chmod 0600 ~/.ssh/authorized_keys
    
  • Проверить, выполнив ssh localhost

  • Отключите IPV6, отредактировав /etc/sysctl.conf следующим образом:

     net.ipv6.conf.all.disable_ipv6 = 1
     net.ipv6.conf.default.disable_ipv6 = 1
     net.ipv6.conf.lo.disable_ipv6 = 1
    
  • Убедитесь, что использование cat /proc/sys/net/ipv6/conf/all/disable_ipv6

    (следует вернуть 1)

Установка и настройка:

  • Загрузите требуемую версию Hadoop из архивов Apache с помощью команды wget .

     cd /opt/hadoop/
     wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gz
     tar -xvf hadoop-2.x.x.gz
     mv hadoop-2.x.x.gz hadoop 
    (or)
    
     ln -s hadoop-2.x.x.gz hadoop
     chown -R hadoop:hadoop hadoop
    
  • Обновите .kshrc .bashrc / .kshrc на основе вашей оболочки с переменными среды ниже

      export HADOOP_PREFIX=/opt/hadoop/hadoop
      export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
      export JAVA_HOME=/java/home/path
      export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin
    
  • В $HADOOP_HOME/etc/hadoop редактируйте ниже файлы

    • ядро-site.xml

      <configuration>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://localhost:8020</value>
          </property>
      </configuration> 
      
    • mapred-site.xml

      Создайте mapred-site.xml из его шаблона

      cp mapred-site.xml.template mapred-site.xml

        <configuration>
            <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
            </property>
        </configuration> 
      
    • Пряжа-site.xml

       <configuration>
           <property>
               <name>yarn.resourcemanager.hostname</name>
               <value>localhost</value> 
           </property>
           <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
           </property>
       </configuration>
      
    • HDFS-site.xml

       <configuration>
           <property>
               <name>dfs.replication</name>
               <value>1</value>
           </property>
           <property>
               <name>dfs.namenode.name.dir</name>
               <value>file:///home/hadoop/hdfs/namenode</value>
           </property>
           <property>
               <name>dfs.datanode.data.dir</name> 
               <value>file:///home/hadoop/hdfs/datanode</value> 
           </property>
       </configuration>
      

    Создайте родительскую папку для хранения данных hadoop

    mkdir -p /home/hadoop/hdfs
    
  • Format NameNode (очищает каталог и создает необходимые метафайлы)

    hdfs namenode -format
    
  • Начать все услуги:

    start-dfs.sh && start-yarn.sh
    mr-jobhistory-server.sh start historyserver
    

Вместо этого используйте start -all.sh (устаревший).

  • Проверить все запущенные java-процессы

    jps 
    
  • Веб-интерфейс Namenode: http: // localhost: 50070 /

  • Менеджер ресурсов Веб-интерфейс: http: // localhost: 8088 /

  • Чтобы остановить демоны (службы):

    stop-dfs.sh && stop-yarn.sh
    mr-jobhistory-daemon.sh stop historyserver
    

Вместо этого используйте stop -all.sh (устаревший).

Установка Hadoop на ubuntu

Создание пользователя Hadoop:

sudo addgroup hadoop

Добавление пользователя:

sudo adduser --ingroup hadoop hduser001

введите описание изображения здесь

Настройка SSH:

su -hduser001
ssh-keygen -t rsa -P ""
cat .ssh/id rsa.pub >> .ssh/authorized_keys

Примечание . Если вы получаете ошибки [ bash: .ssh / authorized_keys: Нет такого файла или каталога ] при написании авторизованного ключа. Проверьте здесь .

введите описание изображения здесь введите описание изображения здесь введите описание изображения здесь

Добавить пользователя hadoop в список sudoer:

sudo adduser hduser001 sudo

введите описание изображения здесь

Отключение IPv6:

введите описание изображения здесь введите описание изображения здесь

Установка Hadoop:

sudo add-apt-repository ppa:hadoop-ubuntu/stable
sudo apt-get install hadoop

введите описание изображения здесь введите описание изображения здесь

Обзор Hadoop и HDFS

введите описание изображения здесь

    Hadoop - это программная среда с открытым исходным кодом для хранения и крупномасштабной обработки наборов данных в распределенной вычислительной среде. Он спонсируется Apache Software Foundation. Он предназначен для масштабирования от отдельных серверов до тысяч компьютеров, каждый из которых предлагает локальные вычисления и хранение.
история

  • Hadoop был создан Дугом Реттингем и Майком Кафареллой в 2005 году.
  • Резка, кто работал в Yahoo! в то время назвал его после игрушечного слона своего сына.
  • Он был первоначально разработан для поддержки распространения для проекта поисковой системы.
Основные модули hadoop

    Распределенная файловая система Hadoop (HDFS): распределенная файловая система, обеспечивающая высокопроизводительный доступ к данным приложения. Hadoop MapReduce: программная среда для распределенной обработки больших наборов данных на вычислительных кластерах.
Основные функции файловой системы Hadoop

    Высокая отказоустойчивость. Высокая пропускная способность. Подходит для приложений с большими наборами данных. Может быть построен из товарного оборудования.
Namenode и Datanodes

    Архитектура ведущего / ведомого. Кластер HDFS состоит из одного Namenode, главного сервера, который управляет пространством имен файловой системы и регулирует доступ к файлам клиентами. DataNodes управляют хранилищем, прикрепленным к узлам, на которых они работают. HDFS предоставляет пространство имен файловой системы и позволяет сохранять пользовательские данные в файлах. Файл разбивается на один или несколько блоков, а набор блоков хранится в DataNodes. DataNodes: служит для чтения, записи запросов, выполнения создания, удаления и репликации блока по команде Namenode.

введите описание изображения здесь

    HDFS предназначен для хранения очень больших файлов на машинах в большом кластере. Каждый файл представляет собой последовательность блоков. Все блоки в файле, кроме последнего, имеют одинаковый размер. Блоки реплицируются для отказоустойчивости. Namenode получает Heartbeat и BlockReport от каждого DataNode в кластере. BlockReport содержит все блоки в Datanode.
Команды оболочки Hadoop

    Используемые общие команды: -
      ls Использование: hasoop fs -ls Путь (путь к файлу / директории ). Использование Cat : hadoop fs -cat PathOfFileToView

введите описание изображения здесь

Ссылка на команды оболочки оболочки: https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html



Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow