Інтерв'ю з питаннями та відповідями кластеру Hadoop

Мета цієї статті - допомогти всім претендентам на великі дані відповісти на всі запитання інтерв'ю Hadoop Cluster, пов’язані зі створенням середовища великих даних в організації. Ця анкета допоможе у створенні вузлів даних, вузла імен та визначення потужності розміщеного сервера демонів великих даних.

Тож якщо ви нарешті знайшли роботу своєї мрії в кластері Hadoop, але хочете задуматися, як зламати інтерв'ю з Hadoop Cluster і що може бути ймовірним питанням інтерв'ю Hadoop Cluster. Кожне інтерв'ю різне, а сфера роботи теж різна. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді Hadoop Cluster Interview, щоб допомогти вам досягти успіху в інтерв'ю.

Одні з найважливіших запитань щодо інтерв'ю Hadoop, які часто задаються в інтерв'ю, є наступними:

1.Які основні компоненти Hadoop в кластері Hadoop?

Відповідь:
Hadoop - це структура, де ми обробляємо великі дані або Hadoop - це платформа, де можна обробляти величезну кількість даних на товарних серверах. Hadoop - це поєднання багатьох компонентів. Далі наведені основні компоненти в середовищі Hadoop.
Вузол імені : Головний вузол піклується про всю інформацію про вузли даних та місце зберігання даних у форматі метаданих.
Вторинний вузол імені : Він працює як основний вузол імені, якщо Первинний вузол імені знижується.
HDFS (розподілена файлова система Hadoop) : вона забезпечує все зберігання кластера Hadoop.
Вузли даних : Вузли даних - це ведені вузли. Фактичні дані зберігаються на Slave Nodes для обробки.
ПРАВА (ще один переговорник ресурсів) : Програмне забезпечення для написання програм та обробки величезної кількості даних. Він надає ті ж функції, що і MapReduce. Крім того, це дозволить кожному пакетному завданню виконуватись паралельно у кластері Hadoop.

2.Як планувати зберігання даних у кластері Hadoop?

Відповідь:
Зберігання базується на формулі (Storage = Щоденне введення даних * Replication).
Якщо кластер Hadoop щодня отримує дані 120 ТБ і у нас є коефіцієнт реплікації за замовчуванням, тому щоденна потреба в зберіганні даних буде
Вимога на зберігання = 120 ТБ (щоденне введення даних) * 3 (тиражування за замовчуванням) => 360 ТБ
Як результат, нам потрібно створити щонайменше 360 ТБ кластер даних для щоденної потреби в прийомі даних.
Зберігання також залежить від вимоги збереження даних. У випадку, якщо ми хочемо, щоб дані зберігалися протягом двох років в одному кластері, тому нам потрібно організувати вузли даних відповідно до вимог збереження.

3. Розрахувати номери вузла даних.

Відповідь:
Нам потрібно обчислити кількість вузлів даних, необхідних для кластеру Hadoop. Припустимо, у нас є сервери з JBOD 10 дисками, і кожен диск має 4 ТБ розміру, тому кожен сервер має 40 ТБ. Кластер Hadoop отримує дані 120 ТБ на день і 360 ТБ після застосування коефіцієнта реплікації за замовчуванням.
Ніяких вузлів даних = Щоденний прийом даних / ємність вузла даних
Ніяких вузлів даних = 360/40 => 9 вузлів даних
Отже, для кластера Hadoop, що отримує 120 ТБ даних із вищезгаданою конфігурацією, потрібно встановити лише 9 вузлів даних.

4.Як змінити коефіцієнт реплікації в кластері Hadoop?

Відповідь:
Відредагуйте файл hdfs-site.xml. Шлях за замовчуванням знаходиться під конф / папкою каталогу інсталяції Hadoop. змінити / додати наступне властивість у hdfs-site.xml:
dfs.replication
3
Блокова реплікація
Не обов'язково мати коефіцієнт реплікації 3. Його також можна встановити як 1. Фактор реплікації 5 також працює в кластері Hadoop. Встановлення значень за замовчуванням робить кластер більш ефективним, і необхідне мінімальне обладнання.
Збільшення коефіцієнта реплікації призведе до збільшення вимог до апаратного забезпечення, оскільки зберігання даних збільшується на коефіцієнт реплікації.

5.Який розмір блоку даних за замовчуванням у Hadoop та як його змінити?

Відповідь:
Розмір блоку скоротити / розділити дані на блоки та зберегти їх на різних різних вузлах даних.
За замовчуванням розмір блоку становить 128 Мб (в Apache Hadoop), і ми можемо змінити розмір блоку за замовчуванням.
Відредагуйте файл hdfs-site.xml. Шлях за замовчуванням знаходиться під конф / папкою каталогу інсталяції Hadoop. змінити / додати наступне властивість у hdfs-site.xml:
dfs.block.size
134217728
Розмір блоку
розмір блоку в байтах становить 134, 217, 728 або 128 МБ. Також вкажіть розмір із суфіксом (нечутливим до регістру), таким як k (кіло-), m (мега-), g (giga-) або t (tera-), щоб встановити розмір блоку в KB, MB, TB тощо…

6. Як довго кластер Hadoop повинен зберігати видалений файл HDFS у каталозі видалення / сміття?

Відповідь:
"Fs.trash.interval" - це параметр, який визначає, як довго HDFS може зберігати будь-який видалений файл у середовищі Hadoop, щоб отримати видалений файл.
Інтервальний період можна визначити лише в хвилинах. Для інтервалу пошуку 2 дні нам потрібно вказати властивість у поточному форматі.
Відредагуйте файл core-site.xml та додайте / модифікуйте його за допомогою наступного властивості
fs.trash.interval
2880 рік
За замовчуванням інтервал пошуку дорівнює 0, але адміністратор Hadoop може додавати / змінювати вищевказані властивості відповідно до вимог.

7.Які основні команди для запуску та зупинки демонів Hadoop?

Відповідь:
Усі команди для запуску та зупинки демонів, що зберігаються в sbin / folder.
./sbin/stop-all.sh - Щоб зупинити всі демони одразу.
Вузол запуску імені hadoop-daemon.sh
Hadoop-daemon.sh запустити вузол даних
yarn-daemon.sh, запустіть менеджер ресурсів
yarn-daemon.sh, запустіть менеджер вузлів
mr-jobhistory-daemon.sh запустити сервер історії запуску

8.Яка властивість визначати розподіл пам'яті для завдань, якими керується YARN?

Відповідь:
Властивість "yarn.nodemanager.resource.memory-mb" потрібно змінити / додати, щоб змінити розподіл пам'яті для всіх завдань, якими керує YARN.
Він визначає об'єм оперативної пам'яті в МБ. Вузли даних потребують 70% фактичної оперативної пам’яті, яка використовується для YARN. Вузол передачі даних з 96 Гб буде використовувати 68 ГБ для ПРАВ, решту оперативної пам’яті використовує демон Вузол даних для «Не-ПРАЦІ»
Відредагуйте файл “yarn.xml file” та додайте / модифікуйте наступне властивість.
yarn.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb за замовчуванням становить 8, 192MB (8GB). Якщо вузли даних мають велику ємність оперативної пам’яті, ми повинні змінити значення до 70%, інакше ми витрачаємо пам'ять.

9.Які рекомендації щодо розміру вузла імен?

Відповідь:
Наступні деталі рекомендуються для налаштування головного вузла на самому початковому етапі.
Процесори: Для процесів достатньо одного процесора з 6-8 ядрами.
Пам'ять оперативної пам’яті: сервер для обробки даних та завдань повинен мати не менше 24-96 Гб оперативної пам’яті.
Зберігання. Оскільки дані про HDFS не зберігаються в Master вузлі. Ви можете отримати 1-2TB як локальне сховище
Оскільки важко визначитися з майбутніми навантаженнями, то спроектуйте кластер, вибравши апаратне забезпечення, таке як процесор, оперативна пам’ять та пам'ять, яке легко оновлюється з часом.

10.Які порти за замовчуванням у кластері Hadoop?

Відповідь:

Ім'я демонаПорт за замовчуванням
Ім'я Вузол.50070
Вузли даних.50075
Вузол вторинної назви.50090
Вузол резервного копіювання / контрольної точки.50105
Робота відстежувача.50030
Завдання трекерів.50060

Рекомендовані статті

Це посібник щодо списку запитань та відповідей щодо інтерв'ю кластера Hadoop, щоб кандидат міг легко розбити ці запитання щодо інтерв'ю Hadoop. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Питання для інтерв'ю Elasticsearch та відповіді - найкращі та найкорисніші
  2. 9 Дивовижні запитання та відповіді щодо інтерв'ю MapReduce
  3. 8 Найкорисніших посібників з питань інтерв'ю Big Data
  4. Питання для інтерв'ю ETL та відповідь, які ви повинні знати