Вступ до запитань та відповідей щодо інтерв'ю Hadoop

Таким чином, ви нарешті знайшли роботу своєї мрії у Hadoop Admin, але цікавитесь, як зламати інтерв'ю Hadoop Admin та що може бути ймовірним питанням інтерв'ю Hadoop Admin. Кожне інтерв'ю різне, а сфера роботи теж різна. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді щодо інтерв'ю Hadoop, щоб допомогти вам досягти успіху в інтерв'ю.

Нижче наведено питання щодо інтерв'ю Hadoop Admin, які допоможуть вам розбити інтерв'ю з Hadoop.

1. Що таке обізнаність у стійці? І навіщо це потрібно?

Відповідь:
Поінформованість про стійки - це про розподіл вузлів даних по декількох стійках. HDFS дотримується алгоритму обізнаності стійок для розміщення блоків даних. Стійка містить кілька серверів. А для кластера може бути кілька стійок. Скажімо, існує кластер Hadoop, створений з 12 вузлами. Можуть бути 3 стелажі з 4 серверами на кожному. Всі 3 стійки з'єднані так, що всі 12 вузлів з'єднані і утворюють кластер. При прийнятті рішення про кількість стійок важливим моментом слід вважати коефіцієнт реплікації. Якщо є 100 ГБ даних, які збираються щодня надходити з коефіцієнтом реплікації 3. Тоді це 300 ГБ даних, які повинні знаходитись на кластері. Краще варіант реплікації даних через стійки. Навіть якщо будь-який вузол опуститься, репліка буде в іншій стійці.

2. Який розмір блоку за замовчуванням і як він визначається?

Відповідь:
128 Мб і визначено в hdfs-site.xml, а також це налаштовується залежно від обсягу даних та рівня доступу. Скажімо, 100 Гб даних, що протікають за день, дані виокремлюються та зберігаються в кластері. Якою буде кількість файлів? 800 файлів. (1024 * 100/128) (1024 à перетворив ГБ в МБ.) Існує два способи встановити розмір блоку даних.

  1. hadoop fs -D fs.local.block.size = 134217728 (у бітах)
  2. У hdfs-site.xml додайте це властивість à block.size з розміром бітів.

Якщо ви зміните розмір за замовчуванням на 512 Мб, оскільки розмір даних величезний, то генеровані файли no.of становитимуть 200. (1024 * 100/512)

3. Як отримати звіт файлової системи hdfs? Про доступність диска та про кількість активних вузлів?

Відповідь:
Команда: sudo -u hdfs dfsadmin –звіт

Це список інформації, яку він відображає,

  1. Налаштована ємність - загальна ємність, доступна в hdfs
  2. Нинішня ємність - це загальна кількість простору, що виділяється для ресурсів, що знаходяться поруч із метасторінгом та використанням фсимідж-простору.
  3. Залишок DFS - це кількість місця для зберігання, яка все ще доступна HDFS, для зберігання більшої кількості файлів
  4. Використовуваний DFS - це місце для зберігання, яке використовує HDFS.
  5. Використовуваний DFS% - у відсотках
  6. Під тиражуються блоки - кількість блоків
  7. Блоки з пошкодженими репліками - якщо якісь пошкоджені блоки
  8. Блоки відсутні
  9. Блоки відсутні (з фактором реплікації 1)

4. Що таке балансир Hadoop і чому це потрібно?

Відповідь:
Дані, що поширюються по вузлах, не розподіляються у правильній пропорції, тобто використання кожного вузла може бути не збалансованим. Один вузол може бути надмірно використаний, а другий може бути недостатньо використаний. Це призводить до отримання високого затратного ефекту під час запуску будь-якого процесу, і це в кінцевому підсумку буде працювати при великому використанні цих вузлів. Для того, щоб вирішити це, використовується балансир Hadoop, який буде врівноважувати використання даних у вузлах. Отже, коли виконується балансир, дані переміщуються туди, де заповнюються недостатньо використані вузли, і надмірно використані вузли будуть звільнені.

5. Різниця між Cloudera і Ambari?

Відповідь:

Менеджер ClouderaАмбарі
Інструмент адміністрування для ClouderaІнструмент адміністрування для роботи Horton
Відстежує та керує усім кластером та повідомляє про використання та будь-які проблемиВідстежує та керує усім кластером та повідомляє про використання та будь-які проблеми
Поставляється з платною послугою ClouderaВідкрите джерело

6. Які основні дії виконує адміністратор Hadoop?

Відповідь:
Контроль здоров'я кластера - Є багато сторінок додатків, які потрібно контролювати, якщо якісь процеси запущені. (Сервер історії робочих місць, менеджер ресурсів YARN, менеджер / амбарій Cloudera залежно від розподілу)

увімкніть безпеку - SSL або Kerberos

Продуктивність мелодії - Hadoop балансир

Додайте нові вузли даних за потребою - Зміни та конфігурації інфраструктури

Необов’язково ввімкнути сервер відстеження історії завдань MapReduce à Іноді перезапуск послуг допоможе звільнити кеш-пам'ять. Це коли кластер із порожнім процесом.

7. Що таке Керберос?

Відповідь:
Це потрібна автентифікація, необхідна для синхронізації кожної служби для запуску процесу. Рекомендується ввімкнути Kerberos. Оскільки ми маємо справу з розподіленими обчисленнями, завжди корисною практикою є шифрування під час доступу до даних та їх обробки. Оскільки кожен вузол підключений і будь-який інформаційний прохід здійснюється через мережу. Оскільки Hadoop використовує Kerberos, паролі не надсилаються через мережі. Натомість паролі використовуються для обчислення ключів шифрування. Повідомлення обмінюються між клієнтом і сервером. Простіше кажучи, Kerberos забезпечує безпеку ідентичності один одному (вузлів) захищеним способом.

Конфігурація в core-site.xml
Hadoop.security.authentication: Kerberos

8. Який важливий список команд hdfs?

Відповідь:

КомандиПризначення
hdfs dfs –lsСписок файлів із файлової системи hdfs.
Hdfs dfs - вхідСкопіюйте файл з локальної системи у файлову систему hdfs
Hdfs dfs –chmod 777Дайте читання, запис, виконання дозволу на файл
Hdfs dfs –getСкопіюйте файл із файлової системи hdfs у локальну файлову систему
Hdfs dfs –catПерегляд вмісту файлу з файлової системи hdfs
Hdfs dfs –rmВидаліть файл із файлової системи hdfs. Але він буде переміщений у шлях файлу сміття (це як кошик у Windows)
Hdfs dfs –rm –skipTrashВилучає файл назавжди з кластера.
Hdfs dfs –TouchzСтворіть файл у файловій системі hdfs

9. Як перевірити журнали завдання Hadoop, подані в кластері, і як завершити вже запущений процес?

Відповідь:
журнали пряжі –applicationId - майстер програми генерує журнали на своєму контейнері, і він буде доданий до ідентифікатора, який він створює. Це буде корисно для моніторингу стану запущеного процесу та інформації журналу.

додаток пряжі –kill - Якщо існуючий процес, який запускався в кластері, потрібно припинити, використовується команда kill, коли ідентифікатор програми використовується для припинення завдання в кластері.

Рекомендована стаття

Це посібник для списку запитань та відповідей щодо інтерв'ю Hadoop, щоб кандидат міг легко розбити ці запитання щодо інтерв'ю Hadoop. Ви також можете переглянути наступні статті, щоб дізнатися більше

  1. Питання та відповіді щодо інтерв'ю кластера Hadoop - Топ-10 найкорисніших
  2. Питання для інтерв'ю для моделювання даних - 10 важливих питань
  3. Питання щодо інтерв'ю щодо системи SAS - 10 найкращих корисних питань