Вступ до команд HDFS
Великі дані - це настільки величезні чи складні набори даних, що звичайного програмного забезпечення для обробки даних недостатньо для пакування з ними. Hadoop - це програма з відкритим кодом, на основі програми Java, яка ланцюгує обробку та зберігання простору об'ємних наборів даних у розповсюдженому обчислювальному середовищі. Основа програмного забезпечення Apache - це ключ до встановлення Hadoop
Особливості HDFS:
- HDFS працює на Master / slave архітектурі
- Файли використовуються HDFS для зберігання даних, пов'язаних з користувачем
- вміщує величезний набір каталогів і файлів, які зберігаються в ієрархічному форматі.
- З внутрішньої сторони файл розбивається на більш дрібні блоки, і ці блоки зберігаються у наборі Датанодів.
- Namenode і Datanode - це частина програмного забезпечення, призначена для роботи на машинах продуктів, які класично працюють на ОС GNU / Linux.
Namenode:
- Тут файлова система підтримується вузлом імені
- Namenode також відповідає за реєстрацію всіх змін файлової системи. Крім того, підтримує зображення повного простору імен файлової системи та блокової карти в пам'яті
- Перевірка проводиться періодично. отже, легко повернутися до етапу до того, як тут можна досягти точки аварії.
Датанод:
- Датанода надає дані у файли у своїй локальній файловій системі
- Для того, щоб інтимувати своє існування, вузол даних надсилає серцебиття до намендода
- Звіт про блокування буде створено для кожного 10-го отриманого серцебиття
- Реплікація має на увазі дані, що зберігаються в цих вузлах даних
Реплікація даних:
- Тут послідовність блоків утворює файл із розміром блоку за замовчуванням 128 Мб
- Усі блоки у файлі, крім фіналу, мають однаковий розмір.
- Від кожного вузла даних кластера елемент Namode отримує серцебиття
- BlockReport містить усі блоки на датаноді.
- вміщує величезний набір каталогів і файлів, які зберігаються в ієрархічному форматі.
- З внутрішньої сторони файл розбивається на більш дрібні блоки, і ці блоки зберігаються у наборі Датанодів.
- Namenode і Datanode - це частина програмного забезпечення, призначена для роботи на машинах продуктів, які класично працюють на ОС GNU / Linux.
Робочий трекер: JobTracker обговорює в NameNode, щоб укласти положення даних. Також знайдіть найкращі вузли TaskTracker для виконання завдань на базі даних даних
Трекер завдань: TaskTracker - це вузол кластера, який приймає завдання - Операції з картографуванням, зменшенням і переміщенням - від JobTracker.
Вузол контрольної точки вторинного імені (або): отримує EditLog з вузла імені через регулярні інтервали та застосовується до його зображення FS. І під час його перезавантаження копіює назад завершене зображення FS до вузла імені. Основна мета вузла вторинних імен - мати контрольну точку в HDFS.
Пряжа:
- YARN має центральний компонент управління ресурсами, який управляє ресурсами та призначає ресурси для кожної програми.
- Тут Менеджер ресурсів - це головний майстер, який присвоює ресурси, пов'язані з кластером, менеджер ресурсів зведений з двох компонентів, менеджер програм та планувальник, ці два компоненти разом керують завданнями в кластерних системах. інший компонент викликає диспетчер вузлів (NM), який відповідає за керування роботами та робочим процесом користувачів на даному вузлі.
- Точна реплікація даних в активному наментоді проводиться іменем очікування в режимі очікування. Він діє як раб, підтримує достатній стан, щоб забезпечити швидку відмову, якщо це необхідно.
Основні команди HDFS:
Основні команди HDFS |
||
Ср.Но | Властивість команди HDFS | HDFS Command |
1 | Версія для друку hadoop | $ hadoop версія |
2 | Перерахуйте вміст кореневого каталогу в HDFS | $ hadoop fs -ls |
3 | Повідомте про кількість використаного та доступного простору у поточно встановленій файловій системі | $ hadoop fs -df hdfs: / |
4 | Балансир HDFS повторно врівноважує дані через DataNodes, переміщуючи блоки з надмірно використаних до недостатньо використаних вузлів. | $ hadoop балансир |
5 | Довідкова команда | $ hadoop fs -допомога |
Проміжні команди HDFS:
Проміжні команди HDFS |
||
Ср.Но | Властивість команди HDFS | HDFS Command |
6 | створює каталог у зазначеному місці HDFS | $ hadoop fs -mkdir / користувач / cloudera / |
7 | Копіює дані з одного місця в інше | $ hadoop fs -введення даних / sample.txt / користувача / навчання / hadoop |
8 | Дивіться простір, який займає конкретний каталог у HDFS | $ hadoop fs -du -s -h / user / cloudera / |
9 | Видаліть каталог у Hadoop | $ hadoop fs -rm -r / користувач / cloudera / pigjobs / |
10 | Видаляє всі файли в заданій директорії | $ hadoop fs -rm -skipTrash hadoop / роздріб / / |
11 | Щоб випорожнити кошик | $ hadoop fs -заповнення |
12 | копіює дані з та в локальний на HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / користувач / cloudera / pigjobs / * / home / cloudera / oozie / |
Розширені команди HDFS:
Проміжні команди HDFS |
||
Ср.Но | Властивість команди HDFS | HDFS Command |
13 | змінити дозволи файлів | $ sudo -u hdfs hadoop fs -chmod 777 / користувач / cloudera / flume / |
14 | встановити коефіцієнт реплікації даних для файлу | $ hadoop fs -setrep -w 5 / користувач / cloudera / pigjobs / |
15 | Порахуйте кількість каталогів, файлів та байтів під hdfs | $ hadoop fs -count hdfs: / |
16 | зробити намендод безпечним режимом | $ sudo -u hdfs hdfs dfsadmin -safemode залишити |
17 | Формат Hadoop намендод | $ hadoop namenode -формат |
Поради та рекомендації щодо HDFS:
1) Ми можемо досягти швидшого відновлення, коли кількість вузлів кластера вище.
2) Збільшення обсягу зберігання за одиницю часу збільшує час відновлення.
3) Обладнання Namenode повинно бути дуже надійним.
4) Складний моніторинг можна досягти за допомогою амбарі.
5) Голодування системи може бути зменшено за рахунок збільшення кількості скорочень.
Рекомендовані статті
Це було керівництвом для команд HDFS. Тут ми обговорили команди HDFS, функції, її основні, проміжні та вдосконалені команди із зображувальним поданням, підказками та підказками щодо команд. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -
- Команди вузла
- Команди Матлаба
- Переваги СУБД
- Екосистема Hadoop
- Команди Hadoop fs