Огляд встановлення Hadoop

У наступній статті «Встановити Hadoop» викладено основні відомості про найпоширеніші ключові модулі рамки Hadoop та поетапна установка для Hadoop. Apache Hadoop - це сукупність програмного забезпечення, що дозволяє обробляти великі набори даних та розподіляти сховища в кластері різних типів комп'ютерної системи. В даний час Hadoop залишається найбільш широко використовуваною аналітичною платформою для великих даних ("Санчіта Лобо, автор навчального блогу Analytics", друге).

Hadoop Framework

Рамка Apache Hadoop складається з наступних ключових модулів.

  • Apache Hadoop Common.
  • Розподілена файлова система Apache Hadoop (HDFS).
  • Карта Apache Hadoop зменшити
  • Apache Hadoop YARN (ще один менеджер із ресурсів).

Apache Hadoop Common

Модуль Apache Hadoop Common складається з спільних бібліотек, які використовуються в усіх інших модулях, включаючи управління ключами, загальні пакети вводу-виводу, бібліотеки для збору метрик та утиліти для реєстру, безпеки та потокової передачі.

HDFS

HDFS заснований на файловій системі Google і побудований для роботи на апаратному забезпеченні з низькими витратами. HDFS толерантний до несправностей і розроблений для додатків, що мають великі набори даних.

MapReduce

MapReduce - це властива паралельна модель програмування для обробки даних, і Hadoop може запускати програми MapReduce, написані на різних мовах, таких як Java. MapReduce працює, розділяючи обробку на фазу карти і зменшує фазу.

Apache Hadoop Пряжа

Apache Hadoop YARN є основною складовою, і це управління ресурсами та технологія планування завдань у розподіленій системі обробки Hadoop.

У цій статті ми обговоримо встановлення та конфігурацію Hadoop 2.7.4 на одному кластерному вузлі та перевіримо конфігурацію, запустивши програму MapReduce під назвою wordcount для підрахунку кількості слів у файлі. Далі ми розглянемо кілька важливих команд файлової системи Hadoop.

Крок до встановлення Hadoop

Далі наведено короткий виклад завдань, що стосуються конфігурації Apache Hadoop.

Завдання 1: Перше завдання установки Hadoop включало налаштування шаблону віртуальної машини, який був налаштований з Cent OS7. Такі пакети, як Java SDK 1.8 та Runtime Systems, необхідні для запуску Hadoop, були завантажені, а змінна середовище Java для Hadoop була налаштована шляхом редагування bash_rc.

Завдання 2: Пакет Hadoop Release 2.7.4 був завантажений з веб-сайту apache і був вилучений в папку opt. Потім було перейменовано на Hadoop для легкого доступу.

Завдання 3: Після вилучення пакетів Hadoop наступним кроком було налаштування змінної середовища для користувача Hadoop з наступною конфігурацією файлів XML вузла Hadoop. На цьому етапі NameNode був налаштований у core-site.xml, а DataNode - у hdfs-site.xml. Менеджер ресурсів та диспетчер вузлів були налаштовані в межах пряжі-site.xml.

Завдання 4: Брандмауер був відключений, щоб запустити YARN та DFS. Команда JPS була використана для перевірки, чи відповідні демони працюють у фоновому режимі. Номер порту для доступу до Hadoop був налаштований на http: // localhost: 50070 /

Завдання 5: Наступні кілька кроків були використані для перевірки та тестування Hadoop. Для цього ми створили тимчасовий тестовий файл у вхідному каталозі програми WordCount. Для підрахунку кількості слів у файлі була використана програма зменшення карт Hadoop-MapReduce-example2.7.4.jar. Результати оцінювались на локальному хості та були проаналізовані журнали поданої заявки. Усі подані програми MapReduce можна переглянути в інтерфейсі онлайн, номер порта за замовчуванням - 8088.

Завдання 6: У заключному завданні ми введемо кілька основних команд файлової системи Hadoop та перевіримо їх використання. Ми побачимо, як можна створити каталог у файловій системі Hadoop, перерахуємо вміст каталогу, його розмір у байтах. Далі ми побачимо, як видалити певний каталог та файл.

Результати установки Hadoop

Далі показані результати кожного з вищезазначених завдань:

Результат завдання 1

Нова віртуальна машина із зображенням cenOS7 налаштована для роботи Apache Hadoop. На малюнку 1 показано, як зображення CenOS 7 було налаштовано у віртуальній машині. На малюнку 1.2 показана конфігурація змінної середовища JAVA в .bash_rc.

Рисунок 1: Конфігурація віртуальної машини

Малюнок 1.2: Конфігурація змінної середовища Java

Результат завдання 2

На малюнку 2 показано завдання, яке виконується з метою вилучення пакета Hadoop 2.7.4, щоб вибрати папку.

Малюнок 2: Видобуток пакету Hadoop 2.7.4

Результат завдання 3

На малюнку 3 показана конфігурація змінної середовища для користувача Hadoop, на малюнках 3.1 - 3.4 показана конфігурація для XML-файлів, необхідних для конфігурації Hadoop.

Малюнок 3: Налаштування змінної середовища для користувача Hadoop

Малюнок 3.1: Конфігурація core-site.xml

Малюнок 3.2: Конфігурація hdfs-site.xml

Малюнок 3.3: Конфігурація файлу mapred-site.xml

Малюнок 3.4: Конфігурація файлу пряжі-site.xml

Результат завдання 4

На малюнку 4 показано використання команди jps для перевірки відповідних демонів у фоновому режимі, а на наступному малюнку показано Інтернет-інтерфейс користувача Hadoop.

Рисунок 4: Команда jps для перевірки запущених демонів.

Малюнок 4.1: Доступ до онлайн-інтерфейсу Hadoop через порт http://hadoop1.example.comwhat0070/

Результат завдання 5

На малюнку 5 показаний результат для програми MapReduce під назвою wordcount, який підраховує кількість слів у файлі. Наступна пара фігур відображає Інтернет-інтерфейс менеджера ресурсів YARN для поданого завдання.

Рисунок 5: Результати програми MapReduce

Малюнок 5.1: Надісланий додаток для зменшення карт.

Малюнок 5.2: Журнали для поданої програми MapReduce.

Результат завдання 6

На малюнку 6 показано, як створити каталог у файловій системі Hadoop та виконати список каталогу hdfs.

Малюнок 6: Створення каталогу у файловій системі Hadoop

На малюнку 6.1 показано, як розмістити файл у розподіленій файловій системі Hadoop, а на рисунку 6.2 - створений файл у каталозі dirB.

Малюнок 6.1: Створення файлу в HDFS.

Малюнок 6.2: Створено новий файл.

Наступні цифри показують, як перелічити вміст певних каталогів:

Малюнок 6.3: Вміст dirA

Малюнок 6.4: Вміст dirB

На наступному малюнку показано, як можна відобразити розмір файлу та каталогу:

Малюнок 6.5: Відображення розміру файлу та каталогу.

Видалення каталогу або файлу може бути легко виконано командою -rm.

Малюнок 6.6: Щоб видалити файл.

Висновок

Big Data зіграв дуже важливу роль у формуванні сучасного світового ринку. Рамка Hadoop полегшує життя аналітика даних під час роботи над великими наборами даних. Конфігурація Apache Hadoop була досить простою, а інтерфейс користувача в Інтернеті надав користувачеві безліч варіантів настройки та управління додатком. Hadoop масово використовується в організаціях для зберігання даних, машинного навчання та резервного копіювання даних. Керування великим обсягом даних було досить зручним через розподілене середовище Hadoop та MapReduce. Розвиток Hadoop був досить дивовижним порівняно з реляційними базами даних, оскільки у них відсутні параметри настройки та продуктивності. Apache Hadoop - зручне та дешеве рішення для ефективного управління та зберігання великих даних. HDFS також допомагає зберігати дані.

Рекомендовані статті

Це посібник із встановлення Hadoop. Тут ми обговорюємо вступ до установки Hadoop, поетапна установка Hadoop разом з результатами інсталяції Hadoop. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Вступ у Hadoop Streaming
  2. Що таке кластер Hadoop і як він працює?
  3. Екосистема Apache Hadoop та її компоненти
  4. Що таке альтернативи Hadoop?

Категорія: