Що таке MapReduce в Hadoop? - Як це працює - Навички та ріст кар’єри

Зміст:

Anonim

Що таке MapReduce в Hadoop

MapReduce - це структура Hadoop, яка використовується для надійної обробки величезної кількості даних про великі кластери товарного обладнання. Hadoop - проект з відкритим кодом, що надається фондом програмного забезпечення Apache. Hadoop використовується для швидкого та надійного аналізу як для структурованих даних, так і для неструктурованих даних. Hadoop може обробляти дуже великі набори даних, які можуть бути як структурованими, так і неструктурованими даними, що насправді асоціюється з великими даними. Рамка Hadoop, яка дозволяє додатку зберігати дані в розподіленій формі та обробляти великі набори даних на кластерах комп'ютерів за допомогою простої моделі програмування, саме це зменшує Map, тому іншими словами можна назвати Map Reduce як модель програмування, що використовується для обробки величезна кількість даних, розподілених за кількістю кластерів. Hadoop може збільшувати масштаби від одного сервера до тисяч обчислювальних вузлів або машин, що використовуються для обчислення та зберігання.

Проект Apache Hadoop містить ряд підпроектів:

  • Hadoop Common: Hadoop Common має утиліти, які підтримують інші підпроекти Hadoop.
  • Розподілена файлова система Hadoop (HDFS): розподілена файлова система Hadoop забезпечує доступ до розподіленого файлу до даних програми.
  • Hadoop MapReduce: Hadoop MapReduce - це програмне забезпечення для обробки великих розподілених наборів даних на обчислювальних кластерах.
  • Hadoop Пряжа: Hadoop Пряжа є основою для управління ресурсами та планування роботи.

Як MapReduce в Hadoop робить роботу такою простою?

MapReduce дозволяє легко масштабувати обробку даних на сотнях або тисячах кластерних машин. Модель MapReduce насправді працює у два етапи, що називаються картою та зменшенням, а обробка відповідно називається картографом та редуктором. Після того, як ми пишемо MapReduce для програми, додаток для розширення масштабування для запуску декількох або навіть декількох тисяч кластерів - це лише зміна конфігурації. Ця особливість моделі MapReduce залучила багатьох програмістів до її використання.

Як працює MapReduce в Hadoop?

Програма MapReduce виконується в основному в чотири кроки:

  1. Вхідне розділення
  2. Карта
  3. Перемішати
  4. Зменшити

Тепер ми будемо бачити кожен крок, як вони працюють.

1. Крок на карті -

Цей крок являє собою поєднання кроку розбиття входу та кроку Map. На кроці Map вихідний файл передається як рядок за рядком. Перш ніж вхід перейде до завдання функції Map, вхід поділяється на невеликий фіксований розмір, який називається Input splits. Розбиття вводу - це фрагмент вводу, який може бути використаний однією картою. На кроці Map кожен розділений дані передається функції Mapper, тоді функція mapper обробляє дані, а потім виводить значення. Як правило, вхідні дані карти чи картографії складаються у вигляді файлу або каталогу, які зберігаються у файловій системі Hadoop (HDFS).

2. Зменшити крок-

Цей крок - це поєднання кроку переміщення та зменшення. Функція зменшення або робота редуктора приймає дані, які є результатом функції карти. Після обробки за рахунок зменшення функції виробляється новий набір результатів, який знову зберігається в HDFS.

У рамках Hadoop не впевнено, що кожен кластер виконує завдання чи Map, або Reduce, або Map і Reduce. Тож запит завдань Map і Reduce повинен бути надісланий на відповідні сервери кластеру. Сама рамка Hadoop керує всіма завданнями видачі, перевірки завершення роботи, отримання даних із HDFS, копіювання даних у кластер вузлів тощо. У Hadoop здебільшого обчислення відбувається на вузлах разом із даними в самих вузлах, що зменшує мережевий трафік.

Тож структура MapReduce дуже допомагає в рамках Hadoop.

Переваги MapReduce

  1. Масштабованість - MapReduce робить Hadoop високомасштабним, оскільки дозволяє зберігати великі набори даних у формі розподілу на декількох серверах. Оскільки він розподілений по декількох, так він може працювати паралельно.
  2. Вигідне рішення - MapReduce забезпечує дуже економічно ефективне рішення для підприємств, яким потрібно зберігати зростаючі дані та обробляти дані дуже економічно, що є сьогоднішньою потребою бізнесу.
  3. Гнучкість - MapReduce робить Hadoop дуже гнучким для різних джерел даних і навіть для різних типів даних, таких як структуровані або неструктуровані дані. Таким чином, це робить дуже гнучким доступ до структурованих чи неструктурованих даних та їх обробку.
  4. Швидкий - як дані зберігання Hadoop у розподіленій файловій системі, за допомогою яких зберігання даних на локальному диску кластера та програми MapReduce також зазвичай розташовані на тих самих серверах, що дозволяє швидше обробляти дані без необхідності доступу. дані з інших серверів.
  5. Паралельна обробка - Оскільки дані зберігання Hadoop у розподіленій файловій системі та функціонуванні програми MapReduce є такими, що вона розділяє мапу завдань та зменшує їх, і може виконуватися паралельно. І знову через паралельне виконання, це скорочує весь час виконання.

Навички

Необхідні навички для MapReduce в Hadoop мають хороші знання програмування Java (обов'язкові), операційної системи Linux та знання SQL запитів.

Область застосування MapReduce в місті Hadoop

MapReduce в Hadoop - це швидко зростаюче поле, оскільки велике поле даних зростає, тому масштаби MapReduce в Hadoop дуже перспективні в майбутньому, оскільки кількість структурованих та неструктурованих даних з кожним днем ​​зростає експоненціально. Платформи соціальних медіа генерують безліч неструктурованих даних, які можна отримати, щоб отримати реальну інформацію в різних областях.

Висновок

  • MapReduce - це структура Hadoop, яка використовується для надійної обробки величезної кількості даних про великі кластери товарного обладнання.
  • Проект Apache Hadoop містить ряд підпроектів: Hadoop Common, Розподілена файлова система Hadoop (HDFS), Hadoop MapReduce, Hadoop YARN.
  • На кроці карти кожен розділений дані передається функції картографування, тоді функція відображення обробляє дані, а потім виводить значення.
  • Функція зменшення або робота редуктора приймає дані, які є результатом функції карти.
  • Переваги MapReduce перераховані як масштабованість, економічно ефективне рішення, гнучкість, швидка паралельна обробка.

Рекомендовані статті

Це був посібник із того, що таке MapReduce у місті Hadoop. Тут ми обговорили компоненти, роботу, навички, кар’єрний ріст та переваги MapReduce в Hadoop. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше

  1. Що таке алгоритм?
  2. Відмінності між Hadoop і MapReduce
  3. Що таке Azure?
  4. Що таке технології великих даних?
  5. Як працює MapReduce