hadoop учебник
Начало работы с hadoop
Поиск…
замечания
Что такое Apache Hadoop?
Библиотека программного обеспечения Apache Hadoop представляет собой структуру, которая позволяет распределенную обработку больших наборов данных в кластерах компьютеров с использованием простых моделей программирования. Он предназначен для масштабирования от отдельных серверов до тысяч компьютеров, каждый из которых предлагает локальные вычисления и хранение. Вместо того, чтобы полагаться на аппаратное обеспечение для обеспечения высокой доступности, сама библиотека предназначена для обнаружения и обработки сбоев на уровне приложений, поэтому предоставление высокодоступного сервиса поверх кластера компьютеров, каждый из которых может быть подвержен ошибкам.
Apache Hadoop включает в себя следующие модули:
- Hadoop Common : общие утилиты, поддерживающие другие модули Hadoop.
- Распределенная файловая система Hadoop (HDFS) : распределенная файловая система, обеспечивающая высокопроизводительный доступ к данным приложения.
- Hadoop YARN : структура планирования рабочих мест и управления ресурсами кластера.
- Hadoop MapReduce : система на основе YARN для параллельной обработки больших наборов данных.
Ссылка:
Версии
Версия | Примечания к выпуску | Дата выхода |
---|---|---|
3.0.0-альфа1 | 2016-08-30 | |
2.7.3 | Нажмите здесь - 2.7.3 | 2016-01-25 |
2.6.4 | Нажмите здесь - 2.6.4 | 2016-02-11 |
2.7.2 | Нажмите здесь - 2.7.2 | 2016-01-25 |
2.6.3 | Нажмите здесь - 2.6.3 | 2015-12-17 |
2.6.2 | Нажмите здесь - 2.6.2 | 2015-10-28 |
2.7.1 | Нажмите здесь - 2.7.1 | 2015-07-06 |
Установка или настройка в Linux
Процедура установки псевдораспределенного кластера
Предпосылки
Установите JDK1.7 и установите переменную среды JAVA_HOME.
Создайте нового пользователя как «hadoop».
useradd hadoop
Установка пароля без SSH-входа в свою учетную запись
su - hadoop ssh-keygen << Press ENTER for all prompts >> cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
Проверить, выполнив
ssh localhost
Отключите IPV6, отредактировав
/etc/sysctl.conf
следующим образом:net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1
Убедитесь, что использование
cat /proc/sys/net/ipv6/conf/all/disable_ipv6
(следует вернуть 1)
Установка и настройка:
Загрузите требуемую версию Hadoop из архивов Apache с помощью команды
wget
.cd /opt/hadoop/ wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gz tar -xvf hadoop-2.x.x.gz mv hadoop-2.x.x.gz hadoop (or) ln -s hadoop-2.x.x.gz hadoop chown -R hadoop:hadoop hadoop
Обновите
.kshrc
.bashrc
/.kshrc
на основе вашей оболочки с переменными среды нижеexport HADOOP_PREFIX=/opt/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export JAVA_HOME=/java/home/path export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin
В
$HADOOP_HOME/etc/hadoop
редактируйте ниже файлыядро-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020</value> </property> </configuration>
mapred-site.xml
Создайте
mapred-site.xml
из его шаблонаcp mapred-site.xml.template mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Пряжа-site.xml
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
HDFS-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
Создайте родительскую папку для хранения данных hadoop
mkdir -p /home/hadoop/hdfs
Format NameNode (очищает каталог и создает необходимые метафайлы)
hdfs namenode -format
Начать все услуги:
start-dfs.sh && start-yarn.sh mr-jobhistory-server.sh start historyserver
Вместо этого используйте start -all.sh (устаревший).
Проверить все запущенные java-процессы
jps
Веб-интерфейс Namenode: http: // localhost: 50070 /
Менеджер ресурсов Веб-интерфейс: http: // localhost: 8088 /
Чтобы остановить демоны (службы):
stop-dfs.sh && stop-yarn.sh mr-jobhistory-daemon.sh stop historyserver
Вместо этого используйте stop -all.sh (устаревший).
Установка Hadoop на ubuntu
Создание пользователя Hadoop:
sudo addgroup hadoop
Добавление пользователя:
sudo adduser --ingroup hadoop hduser001
Настройка SSH:
su -hduser001
ssh-keygen -t rsa -P ""
cat .ssh/id rsa.pub >> .ssh/authorized_keys
Примечание . Если вы получаете ошибки [ bash: .ssh / authorized_keys: Нет такого файла или каталога ] при написании авторизованного ключа. Проверьте здесь .
Добавить пользователя hadoop в список sudoer:
sudo adduser hduser001 sudo
Отключение IPv6:
Установка Hadoop:
sudo add-apt-repository ppa:hadoop-ubuntu/stable
sudo apt-get install hadoop
Обзор Hadoop и HDFS
- Hadoop - это программная среда с открытым исходным кодом для хранения и крупномасштабной обработки наборов данных в распределенной вычислительной среде. Он спонсируется Apache Software Foundation. Он предназначен для масштабирования от отдельных серверов до тысяч компьютеров, каждый из которых предлагает локальные вычисления и хранение.
- Hadoop был создан Дугом Реттингем и Майком Кафареллой в 2005 году.
- Резка, кто работал в Yahoo! в то время назвал его после игрушечного слона своего сына.
- Он был первоначально разработан для поддержки распространения для проекта поисковой системы.
- Распределенная файловая система Hadoop (HDFS): распределенная файловая система, обеспечивающая высокопроизводительный доступ к данным приложения. Hadoop MapReduce: программная среда для распределенной обработки больших наборов данных на вычислительных кластерах.
- Высокая отказоустойчивость. Высокая пропускная способность. Подходит для приложений с большими наборами данных. Может быть построен из товарного оборудования.
- Архитектура ведущего / ведомого. Кластер HDFS состоит из одного Namenode, главного сервера, который управляет пространством имен файловой системы и регулирует доступ к файлам клиентами. DataNodes управляют хранилищем, прикрепленным к узлам, на которых они работают. HDFS предоставляет пространство имен файловой системы и позволяет сохранять пользовательские данные в файлах. Файл разбивается на один или несколько блоков, а набор блоков хранится в DataNodes. DataNodes: служит для чтения, записи запросов, выполнения создания, удаления и репликации блока по команде Namenode.
- HDFS предназначен для хранения очень больших файлов на машинах в большом кластере. Каждый файл представляет собой последовательность блоков. Все блоки в файле, кроме последнего, имеют одинаковый размер. Блоки реплицируются для отказоустойчивости. Namenode получает Heartbeat и BlockReport от каждого DataNode в кластере. BlockReport содержит все блоки в Datanode.
- Используемые общие команды: -
- ls Использование: hasoop fs -ls Путь (путь к файлу / директории ). Использование Cat : hadoop fs -cat PathOfFileToView
Ссылка на команды оболочки оболочки: https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html