Команда HDFS - Основні для розширеної команди з підказками

Зміст:

Anonim

Вступ до команд HDFS

Великі дані - це настільки величезні чи складні набори даних, що звичайного програмного забезпечення для обробки даних недостатньо для пакування з ними. Hadoop - це програма з відкритим кодом, на основі програми Java, яка ланцюгує обробку та зберігання простору об'ємних наборів даних у розповсюдженому обчислювальному середовищі. Основа програмного забезпечення Apache - це ключ до встановлення Hadoop

Особливості HDFS:

  • HDFS працює на Master / slave архітектурі
  • Файли використовуються HDFS для зберігання даних, пов'язаних з користувачем
  • вміщує величезний набір каталогів і файлів, які зберігаються в ієрархічному форматі.
  • З внутрішньої сторони файл розбивається на більш дрібні блоки, і ці блоки зберігаються у наборі Датанодів.
  • Namenode і Datanode - це частина програмного забезпечення, призначена для роботи на машинах продуктів, які класично працюють на ОС GNU / Linux.

Namenode:

  • Тут файлова система підтримується вузлом імені
  • Namenode також відповідає за реєстрацію всіх змін файлової системи. Крім того, підтримує зображення повного простору імен файлової системи та блокової карти в пам'яті
  • Перевірка проводиться періодично. отже, легко повернутися до етапу до того, як тут можна досягти точки аварії.

Датанод:

  • Датанода надає дані у файли у своїй локальній файловій системі
  • Для того, щоб інтимувати своє існування, вузол даних надсилає серцебиття до намендода
  • Звіт про блокування буде створено для кожного 10-го отриманого серцебиття
  • Реплікація має на увазі дані, що зберігаються в цих вузлах даних

Реплікація даних:

  • Тут послідовність блоків утворює файл із розміром блоку за замовчуванням 128 Мб
  • Усі блоки у файлі, крім фіналу, мають однаковий розмір.
  • Від кожного вузла даних кластера елемент Namode отримує серцебиття
  • BlockReport містить усі блоки на датаноді.
  • вміщує величезний набір каталогів і файлів, які зберігаються в ієрархічному форматі.
  • З внутрішньої сторони файл розбивається на більш дрібні блоки, і ці блоки зберігаються у наборі Датанодів.
  • Namenode і Datanode - це частина програмного забезпечення, призначена для роботи на машинах продуктів, які класично працюють на ОС GNU / Linux.

Робочий трекер: JobTracker обговорює в NameNode, щоб укласти положення даних. Також знайдіть найкращі вузли TaskTracker для виконання завдань на базі даних даних

Трекер завдань: TaskTracker - це вузол кластера, який приймає завдання - Операції з картографуванням, зменшенням і переміщенням - від JobTracker.

Вузол контрольної точки вторинного імені (або): отримує EditLog з вузла імені через регулярні інтервали та застосовується до його зображення FS. І під час його перезавантаження копіює назад завершене зображення FS до вузла імені. Основна мета вузла вторинних імен - мати контрольну точку в HDFS.

Пряжа:

  • YARN має центральний компонент управління ресурсами, який управляє ресурсами та призначає ресурси для кожної програми.
  • Тут Менеджер ресурсів - це головний майстер, який присвоює ресурси, пов'язані з кластером, менеджер ресурсів зведений з двох компонентів, менеджер програм та планувальник, ці два компоненти разом керують завданнями в кластерних системах. інший компонент викликає диспетчер вузлів (NM), який відповідає за керування роботами та робочим процесом користувачів на даному вузлі.
  • Точна реплікація даних в активному наментоді проводиться іменем очікування в режимі очікування. Він діє як раб, підтримує достатній стан, щоб забезпечити швидку відмову, якщо це необхідно.

Основні команди HDFS:

Основні команди HDFS

Ср.НоВластивість команди HDFSHDFS Command
1Версія для друку hadoop$ hadoop версія
2Перерахуйте вміст кореневого каталогу в HDFS$ hadoop fs -ls
3Повідомте про кількість використаного та доступного простору у поточно встановленій файловій системі$ hadoop fs -df hdfs: /
4Балансир HDFS повторно врівноважує дані через DataNodes, переміщуючи блоки з надмірно використаних до недостатньо використаних вузлів.$ hadoop балансир
5Довідкова команда$ hadoop fs -допомога

Проміжні команди HDFS:

Проміжні команди HDFS

Ср.НоВластивість команди HDFSHDFS Command
6створює каталог у зазначеному місці HDFS$ hadoop fs -mkdir / користувач / cloudera /
7Копіює дані з одного місця в інше$ hadoop fs -введення даних / sample.txt / користувача / навчання / hadoop
8Дивіться простір, який займає конкретний каталог у HDFS$ hadoop fs -du -s -h / user / cloudera /
9Видаліть каталог у Hadoop$ hadoop fs -rm -r / користувач / cloudera / pigjobs /
10Видаляє всі файли в заданій директорії$ hadoop fs -rm -skipTrash hadoop / роздріб / /
11Щоб випорожнити кошик$ hadoop fs -заповнення
12копіює дані з та в локальний на HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / користувач / cloudera / pigjobs / * / home / cloudera / oozie /

Розширені команди HDFS:

Проміжні команди HDFS

Ср.НоВластивість команди HDFSHDFS Command
13змінити дозволи файлів$ sudo -u hdfs hadoop fs -chmod 777 / користувач / cloudera / flume /
14встановити коефіцієнт реплікації даних для файлу$ hadoop fs -setrep -w 5 / користувач / cloudera / pigjobs /
15Порахуйте кількість каталогів, файлів та байтів під hdfs$ hadoop fs -count hdfs: /
16зробити намендод безпечним режимом$ sudo -u hdfs hdfs dfsadmin -safemode залишити
17Формат Hadoop намендод$ hadoop namenode -формат

Поради та рекомендації щодо HDFS:

1) Ми можемо досягти швидшого відновлення, коли кількість вузлів кластера вище.

2) Збільшення обсягу зберігання за одиницю часу збільшує час відновлення.

3) Обладнання Namenode повинно бути дуже надійним.

4) Складний моніторинг можна досягти за допомогою амбарі.

5) Голодування системи може бути зменшено за рахунок збільшення кількості скорочень.

Рекомендовані статті

Це було керівництвом для команд HDFS. Тут ми обговорили команди HDFS, функції, її основні, проміжні та вдосконалені команди із зображувальним поданням, підказками та підказками щодо команд. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Команди вузла
  2. Команди Матлаба
  3. Переваги СУБД
  4. Екосистема Hadoop
  5. Команди Hadoop fs