Питання та відповіді щодо інтерв'ю кластера Hadoop - Топ-10 найкорисніших

Інтерв'ю з питаннями та відповідями кластеру Hadoop

Мета цієї статті - допомогти всім претендентам на великі дані відповісти на всі запитання інтерв'ю Hadoop Cluster, пов’язані зі створенням середовища великих даних в організації. Ця анкета допоможе у створенні вузлів даних, вузла імен та визначення потужності розміщеного сервера демонів великих даних.

Тож якщо ви нарешті знайшли роботу своєї мрії в кластері Hadoop, але хочете задуматися, як зламати інтерв'ю з Hadoop Cluster і що може бути ймовірним питанням інтерв'ю Hadoop Cluster. Кожне інтерв'ю різне, а сфера роботи теж різна. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді Hadoop Cluster Interview, щоб допомогти вам досягти успіху в інтерв'ю.

Одні з найважливіших запитань щодо інтерв'ю Hadoop, які часто задаються в інтерв'ю, є наступними:

1.Які основні компоненти Hadoop в кластері Hadoop?

Відповідь:
Hadoop - це структура, де ми обробляємо великі дані або Hadoop - це платформа, де можна обробляти величезну кількість даних на товарних серверах. Hadoop - це поєднання багатьох компонентів. Далі наведені основні компоненти в середовищі Hadoop.
Вузол імені : Головний вузол піклується про всю інформацію про вузли даних та місце зберігання даних у форматі метаданих.
Вторинний вузол імені : Він працює як основний вузол імені, якщо Первинний вузол імені знижується.
HDFS (розподілена файлова система Hadoop) : вона забезпечує все зберігання кластера Hadoop.
Вузли даних : Вузли даних - це ведені вузли. Фактичні дані зберігаються на Slave Nodes для обробки.
ПРАВА (ще один переговорник ресурсів) : Програмне забезпечення для написання програм та обробки величезної кількості даних. Він надає ті ж функції, що і MapReduce. Крім того, це дозволить кожному пакетному завданню виконуватись паралельно у кластері Hadoop.

2.Як планувати зберігання даних у кластері Hadoop?

Відповідь:
Зберігання базується на формулі (Storage = Щоденне введення даних * Replication).
Якщо кластер Hadoop щодня отримує дані 120 ТБ і у нас є коефіцієнт реплікації за замовчуванням, тому щоденна потреба в зберіганні даних буде
Вимога на зберігання = 120 ТБ (щоденне введення даних) * 3 (тиражування за замовчуванням) => 360 ТБ
Як результат, нам потрібно створити щонайменше 360 ТБ кластер даних для щоденної потреби в прийомі даних.
Зберігання також залежить від вимоги збереження даних. У випадку, якщо ми хочемо, щоб дані зберігалися протягом двох років в одному кластері, тому нам потрібно організувати вузли даних відповідно до вимог збереження.

3. Розрахувати номери вузла даних.

Відповідь:
Нам потрібно обчислити кількість вузлів даних, необхідних для кластеру Hadoop. Припустимо, у нас є сервери з JBOD 10 дисками, і кожен диск має 4 ТБ розміру, тому кожен сервер має 40 ТБ. Кластер Hadoop отримує дані 120 ТБ на день і 360 ТБ після застосування коефіцієнта реплікації за замовчуванням.
Ніяких вузлів даних = Щоденний прийом даних / ємність вузла даних
Ніяких вузлів даних = 360/40 => 9 вузлів даних
Отже, для кластера Hadoop, що отримує 120 ТБ даних із вищезгаданою конфігурацією, потрібно встановити лише 9 вузлів даних.

4.Як змінити коефіцієнт реплікації в кластері Hadoop?

Відповідь:
Відредагуйте файл hdfs-site.xml. Шлях за замовчуванням знаходиться під конф / папкою каталогу інсталяції Hadoop. змінити / додати наступне властивість у hdfs-site.xml:
dfs.replication
3
Блокова реплікація
Не обов'язково мати коефіцієнт реплікації 3. Його також можна встановити як 1. Фактор реплікації 5 також працює в кластері Hadoop. Встановлення значень за замовчуванням робить кластер більш ефективним, і необхідне мінімальне обладнання.
Збільшення коефіцієнта реплікації призведе до збільшення вимог до апаратного забезпечення, оскільки зберігання даних збільшується на коефіцієнт реплікації.

5.Який розмір блоку даних за замовчуванням у Hadoop та як його змінити?

Відповідь:
Розмір блоку скоротити / розділити дані на блоки та зберегти їх на різних різних вузлах даних.
За замовчуванням розмір блоку становить 128 Мб (в Apache Hadoop), і ми можемо змінити розмір блоку за замовчуванням.
Відредагуйте файл hdfs-site.xml. Шлях за замовчуванням знаходиться під конф / папкою каталогу інсталяції Hadoop. змінити / додати наступне властивість у hdfs-site.xml:
dfs.block.size
134217728
Розмір блоку
розмір блоку в байтах становить 134, 217, 728 або 128 МБ. Також вкажіть розмір із суфіксом (нечутливим до регістру), таким як k (кіло-), m (мега-), g (giga-) або t (tera-), щоб встановити розмір блоку в KB, MB, TB тощо…

6. Як довго кластер Hadoop повинен зберігати видалений файл HDFS у каталозі видалення / сміття?

Відповідь:
"Fs.trash.interval" - це параметр, який визначає, як довго HDFS може зберігати будь-який видалений файл у середовищі Hadoop, щоб отримати видалений файл.
Інтервальний період можна визначити лише в хвилинах. Для інтервалу пошуку 2 дні нам потрібно вказати властивість у поточному форматі.
Відредагуйте файл core-site.xml та додайте / модифікуйте його за допомогою наступного властивості
fs.trash.interval
2880 рік
За замовчуванням інтервал пошуку дорівнює 0, але адміністратор Hadoop може додавати / змінювати вищевказані властивості відповідно до вимог.

7.Які основні команди для запуску та зупинки демонів Hadoop?

Відповідь:
Усі команди для запуску та зупинки демонів, що зберігаються в sbin / folder.
./sbin/stop-all.sh - Щоб зупинити всі демони одразу.
Вузол запуску імені hadoop-daemon.sh
Hadoop-daemon.sh запустити вузол даних
yarn-daemon.sh, запустіть менеджер ресурсів
yarn-daemon.sh, запустіть менеджер вузлів
mr-jobhistory-daemon.sh запустити сервер історії запуску

8.Яка властивість визначати розподіл пам'яті для завдань, якими керується YARN?

Відповідь:
Властивість "yarn.nodemanager.resource.memory-mb" потрібно змінити / додати, щоб змінити розподіл пам'яті для всіх завдань, якими керує YARN.
Він визначає об'єм оперативної пам'яті в МБ. Вузли даних потребують 70% фактичної оперативної пам’яті, яка використовується для YARN. Вузол передачі даних з 96 Гб буде використовувати 68 ГБ для ПРАВ, решту оперативної пам’яті використовує демон Вузол даних для «Не-ПРАЦІ»
Відредагуйте файл “yarn.xml file” та додайте / модифікуйте наступне властивість.
yarn.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb за замовчуванням становить 8, 192MB (8GB). Якщо вузли даних мають велику ємність оперативної пам’яті, ми повинні змінити значення до 70%, інакше ми витрачаємо пам'ять.

9.Які рекомендації щодо розміру вузла імен?

Відповідь:
Наступні деталі рекомендуються для налаштування головного вузла на самому початковому етапі.
Процесори: Для процесів достатньо одного процесора з 6-8 ядрами.
Пам'ять оперативної пам’яті: сервер для обробки даних та завдань повинен мати не менше 24-96 Гб оперативної пам’яті.
Зберігання. Оскільки дані про HDFS не зберігаються в Master вузлі. Ви можете отримати 1-2TB як локальне сховище
Оскільки важко визначитися з майбутніми навантаженнями, то спроектуйте кластер, вибравши апаратне забезпечення, таке як процесор, оперативна пам’ять та пам'ять, яке легко оновлюється з часом.

10.Які порти за замовчуванням у кластері Hadoop?

Відповідь:

Ім'я демона	Порт за замовчуванням
Ім'я Вузол.	50070
Вузли даних.	50075
Вузол вторинної назви.	50090
Вузол резервного копіювання / контрольної точки.	50105
Робота відстежувача.	50030
Завдання трекерів.	50060

Питання та відповіді щодо інтерв'ю кластера Hadoop - Топ-10 найкорисніших

Зміст:

Інтерв'ю з питаннями та відповідями кластеру Hadoop

1.Які основні компоненти Hadoop в кластері Hadoop?

2.Як планувати зберігання даних у кластері Hadoop?

3. Розрахувати номери вузла даних.

4.Як змінити коефіцієнт реплікації в кластері Hadoop?

5.Який розмір блоку даних за замовчуванням у Hadoop та як його змінити?

6. Як довго кластер Hadoop повинен зберігати видалений файл HDFS у каталозі видалення / сміття?

7.Які основні команди для запуску та зупинки демонів Hadoop?

8.Яка властивість визначати розподіл пам'яті для завдань, якими керується YARN?

9.Які рекомендації щодо розміру вузла імен?

10.Які порти за замовчуванням у кластері Hadoop?

Рекомендовані статті

Перетворіть фотографію у візерунок кольорових точок за допомогою Photoshop

Ефект живопису фотошопа пуантилізму

Як заповнити форму фотографією у Photoshop

Перетворіть фотографію в колаж із Photoshop

Кольоровий ефект веселки очей у Photoshop

Як редагувати розумні фільтри у Photoshop CS3

Як застосувати розумний фільтр у Photoshop CS3

Як обрізати зображення у формі кола за допомогою Photoshop

Режими суміші та непрозорість суміші фільтрів Photoshop CS3

Виправлення тону та кольору за допомогою рівнів у Photoshop

Функціональне програмування проти OOP - який корисніший

Функціональне тестування проти нефункціонального тестування - 10 кращих відмінностей, які потрібно дізнатися

Формула F-випробувань - Як розрахувати F-тест (приклади з шаблоном Excel)

FTP-сервер у Linux - Кроки щодо встановлення та налаштування сервера VSFTPD

FAQ щодо FRM - Експертиза з управління фінансовими ризиками