Питання для інтерв'ю Hadoop Admin - Найкорисніші та найпопулярніші

Вступ до запитань та відповідей щодо інтерв'ю Hadoop

Таким чином, ви нарешті знайшли роботу своєї мрії у Hadoop Admin, але цікавитесь, як зламати інтерв'ю Hadoop Admin та що може бути ймовірним питанням інтерв'ю Hadoop Admin. Кожне інтерв'ю різне, а сфера роботи теж різна. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді щодо інтерв'ю Hadoop, щоб допомогти вам досягти успіху в інтерв'ю.

Нижче наведено питання щодо інтерв'ю Hadoop Admin, які допоможуть вам розбити інтерв'ю з Hadoop.

1. Що таке обізнаність у стійці? І навіщо це потрібно?

Відповідь:
Поінформованість про стійки - це про розподіл вузлів даних по декількох стійках. HDFS дотримується алгоритму обізнаності стійок для розміщення блоків даних. Стійка містить кілька серверів. А для кластера може бути кілька стійок. Скажімо, існує кластер Hadoop, створений з 12 вузлами. Можуть бути 3 стелажі з 4 серверами на кожному. Всі 3 стійки з'єднані так, що всі 12 вузлів з'єднані і утворюють кластер. При прийнятті рішення про кількість стійок важливим моментом слід вважати коефіцієнт реплікації. Якщо є 100 ГБ даних, які збираються щодня надходити з коефіцієнтом реплікації 3. Тоді це 300 ГБ даних, які повинні знаходитись на кластері. Краще варіант реплікації даних через стійки. Навіть якщо будь-який вузол опуститься, репліка буде в іншій стійці.

2. Який розмір блоку за замовчуванням і як він визначається?

Відповідь:
128 Мб і визначено в hdfs-site.xml, а також це налаштовується залежно від обсягу даних та рівня доступу. Скажімо, 100 Гб даних, що протікають за день, дані виокремлюються та зберігаються в кластері. Якою буде кількість файлів? 800 файлів. (1024 * 100/128) (1024 à перетворив ГБ в МБ.) Існує два способи встановити розмір блоку даних.

hadoop fs -D fs.local.block.size = 134217728 (у бітах)
У hdfs-site.xml додайте це властивість à block.size з розміром бітів.

Якщо ви зміните розмір за замовчуванням на 512 Мб, оскільки розмір даних величезний, то генеровані файли no.of становитимуть 200. (1024 * 100/512)

3. Як отримати звіт файлової системи hdfs? Про доступність диска та про кількість активних вузлів?

Відповідь:
Команда: sudo -u hdfs dfsadmin –звіт

Це список інформації, яку він відображає,

Налаштована ємність - загальна ємність, доступна в hdfs
Нинішня ємність - це загальна кількість простору, що виділяється для ресурсів, що знаходяться поруч із метасторінгом та використанням фсимідж-простору.
Залишок DFS - це кількість місця для зберігання, яка все ще доступна HDFS, для зберігання більшої кількості файлів
Використовуваний DFS - це місце для зберігання, яке використовує HDFS.
Використовуваний DFS% - у відсотках
Під тиражуються блоки - кількість блоків
Блоки з пошкодженими репліками - якщо якісь пошкоджені блоки
Блоки відсутні
Блоки відсутні (з фактором реплікації 1)

4. Що таке балансир Hadoop і чому це потрібно?

Відповідь:
Дані, що поширюються по вузлах, не розподіляються у правильній пропорції, тобто використання кожного вузла може бути не збалансованим. Один вузол може бути надмірно використаний, а другий може бути недостатньо використаний. Це призводить до отримання високого затратного ефекту під час запуску будь-якого процесу, і це в кінцевому підсумку буде працювати при великому використанні цих вузлів. Для того, щоб вирішити це, використовується балансир Hadoop, який буде врівноважувати використання даних у вузлах. Отже, коли виконується балансир, дані переміщуються туди, де заповнюються недостатньо використані вузли, і надмірно використані вузли будуть звільнені.

5. Різниця між Cloudera і Ambari?

Відповідь:

Менеджер Cloudera	Амбарі
Інструмент адміністрування для Cloudera	Інструмент адміністрування для роботи Horton
Відстежує та керує усім кластером та повідомляє про використання та будь-які проблеми	Відстежує та керує усім кластером та повідомляє про використання та будь-які проблеми
Поставляється з платною послугою Cloudera	Відкрите джерело

6. Які основні дії виконує адміністратор Hadoop?

Відповідь:
Контроль здоров'я кластера - Є багато сторінок додатків, які потрібно контролювати, якщо якісь процеси запущені. (Сервер історії робочих місць, менеджер ресурсів YARN, менеджер / амбарій Cloudera залежно від розподілу)

увімкніть безпеку - SSL або Kerberos

Продуктивність мелодії - Hadoop балансир

Додайте нові вузли даних за потребою - Зміни та конфігурації інфраструктури

Необов’язково ввімкнути сервер відстеження історії завдань MapReduce à Іноді перезапуск послуг допоможе звільнити кеш-пам'ять. Це коли кластер із порожнім процесом.

7. Що таке Керберос?

Відповідь:
Це потрібна автентифікація, необхідна для синхронізації кожної служби для запуску процесу. Рекомендується ввімкнути Kerberos. Оскільки ми маємо справу з розподіленими обчисленнями, завжди корисною практикою є шифрування під час доступу до даних та їх обробки. Оскільки кожен вузол підключений і будь-який інформаційний прохід здійснюється через мережу. Оскільки Hadoop використовує Kerberos, паролі не надсилаються через мережі. Натомість паролі використовуються для обчислення ключів шифрування. Повідомлення обмінюються між клієнтом і сервером. Простіше кажучи, Kerberos забезпечує безпеку ідентичності один одному (вузлів) захищеним способом.

Конфігурація в core-site.xml
Hadoop.security.authentication: Kerberos

8. Який важливий список команд hdfs?

Відповідь:

Команди	Призначення
hdfs dfs –ls	Список файлів із файлової системи hdfs.
Hdfs dfs - вхід	Скопіюйте файл з локальної системи у файлову систему hdfs
Hdfs dfs –chmod 777	Дайте читання, запис, виконання дозволу на файл
Hdfs dfs –get	Скопіюйте файл із файлової системи hdfs у локальну файлову систему
Hdfs dfs –cat	Перегляд вмісту файлу з файлової системи hdfs
Hdfs dfs –rm	Видаліть файл із файлової системи hdfs. Але він буде переміщений у шлях файлу сміття (це як кошик у Windows)
Hdfs dfs –rm –skipTrash	Вилучає файл назавжди з кластера.
Hdfs dfs –Touchz	Створіть файл у файловій системі hdfs

9. Як перевірити журнали завдання Hadoop, подані в кластері, і як завершити вже запущений процес?

Відповідь:
журнали пряжі –applicationId - майстер програми генерує журнали на своєму контейнері, і він буде доданий до ідентифікатора, який він створює. Це буде корисно для моніторингу стану запущеного процесу та інформації журналу.

додаток пряжі –kill - Якщо існуючий процес, який запускався в кластері, потрібно припинити, використовується команда kill, коли ідентифікатор програми використовується для припинення завдання в кластері.

Питання для інтерв'ю Hadoop Admin - Найкорисніші та найпопулярніші

Зміст:

Вступ до запитань та відповідей щодо інтерв'ю Hadoop

1. Що таке обізнаність у стійці? І навіщо це потрібно?

2. Який розмір блоку за замовчуванням і як він визначається?

3. Як отримати звіт файлової системи hdfs? Про доступність диска та про кількість активних вузлів?

4. Що таке балансир Hadoop і чому це потрібно?

5. Різниця між Cloudera і Ambari?

6. Які основні дії виконує адміністратор Hadoop?

7. Що таке Керберос?

8. Який важливий список команд hdfs?

9. Як перевірити журнали завдання Hadoop, подані в кластері, і як завершити вже запущений процес?

Рекомендована стаття

Що найкраще? Хмарні обчислення або методи віртуалізації

Топ-7 найкращих та корисних оглядів книг насильницького пітона (глави)

Топ-10 запитань та відповідей щодо віртуалізації (оновлення на 2019 рік)

Програмне забезпечення VFX - Топ-5 методів створення приголомшливих ефектів VFX

Що таке віртуальний хост? - Покроковий процес для створення віртуального хоста

Що таке JSF? - Основні поняття з особливостями та перевагами JSF

Що таке JSON? - Як це працює - Переваги та недоліки - Приклади

Що таке спадщина Java? - Зростання майстерності та кар'єри - Види та переваги

Що таке JVM? - Ключові поняття та архітектура JVM

Що таке JSP - Як це працює - Потреба та кар'єра - Перевага та недолік

Ефект дії радіального розмиття у Photoshop

Вибір фокусної зони - Photoshop CC 2014

Примальовування зображення за допомогою Photoshop CS6

Сюрреалістичний ефект Motionscape з Photoshop CS6

Панель прихованих останніх файлів у Photoshop CC