Дізнайтеся найкращі 5 відмінностей між Hadoop та MapReduce

Різниця між Hadoop та MapReduce

Коріння Hadoop датуються 2002 роком, коли Dough Cutting працював над проектом з відкритим кодом під назвою Nutch (який використовувався для індексації веб-сторінок та використання індексованих веб-сторінок для пошуку, те саме, що робить Google). Він зіткнувся з питаннями масштабованості як щодо зберігання, так і для обчислення. У 2003 році Google опублікував GFS (файлова система google), а в 2004 році Nutch створив NDFS (розподілену файлову систему Nutch). Після того як Google оголосив MapReduce як свій обчислювальний мозок за алгоритмами сортування, Тісто зміг запустити Nutch на NDFS і застосував MapReduce у 2005 році та в 2006 році Hadoop народився.

Hadoop і MapReduce! Hadoop - це екосистема проектів з відкритим кодом, таких як Hadoop Common, розподілена файлова система Hadoop (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop як така є рамкою з відкритим кодом для зберігання та обробки величезних наборів даних. Зберігання здійснюється HDFS, а обробкою - подбає MapReduce. MapReduce, з іншого боку, - це модель програмування, яка дозволяє обробляти величезні дані, що зберігаються на Hadoop.let, щоб ми зрозуміли Hadoop та MapReduce докладно у цій публікації.

Порівняння між собою Hadoop Vs MapReduce (Інфографіка)

Нижче наведено топ-5 порівнянь між Hadoop та MapReduce

Основні відмінності між Hadoop і MapReduce

Далі йде різниця між Hadoop та MapReduce

Якщо ми хочемо розмежовувати Hadoop і MapReduce з точки зору непрофесійних людей, ми можемо сказати, що Hadoop - це як машина, у якій у вас є все необхідне для проїзду відстаней, але MapReduce - це як двигун автомобіля, тому без машини двигун може ' t існують, але зовнішність автомобіля може змінюватися (інші DFS (розподілені файлові системи)).
Основна ідея Hadoop полягає в тому, що дані повинні бути надійними та масштабованими, надійними, оскільки у випадку катастрофи або відмови в мережі дані повинні бути доступними постійно, і це досягається рамками Hadoop за допомогою вузлів імен та даних.
Деякі основні уявлення про вузли даних та вузли імен

Основна ідея архітектури вузла даних та вузла імен - це архітектура головного / підлеглого, де один зберігає розташування даних (вузол імені), а інший зберігає самі дані (вузол даних). Дані розбиваються на шматки 64 Мб і зберігаються в блоках даних, а реєстр цих даних підтримується у вузлі імені. Дані тиражуються тричі за замовчуванням для надійності. Якщо говорити про масштабованість, апаратне забезпечення можна збільшити на ходу, і це сприяє збільшенню пам’яті та зробить систему масштабованою.
Зараз приїжджаючи до MapReduce три етапи
1. Фаза карти
2. Фаза перетасування
3. Скорочення фази

Візьмемо приклад, щоб краще зрозуміти це. MapReduce, будучи рамкою програмування, також має привіт світову програму, але вона відома як програма підрахунку слів у MapReduce.

Програма Word Count дає нам пари ключових значень слова та його частоту в абзаці / статті чи будь-якому джерелі даних. Щоб легко зрозуміти це, давайте наведемо нижче приклад даних.

Як ми бачимо, у наборі даних є три слова автобус, машина та поїзд. У стовпчику з назвою Input є дані, як у нас у наборі даних, у стовпці Output є дані на проміжному етапі, в якому буде відбуватися перетасування.

Тут ми приймаємо роздільник як кома (, ), щоб розділити слова. Розділювач може бути комою або пробілом або новим рядком і т.д.

Вхідні дані

Набір даних

CAR, автомобіль, автомобіль, автобус, поїзд, автобус, поїзд, автобус, поїзд, автобус, автобус, автомобіль, автобус, автомобіль, поїзд, автомобіль, автобус, автомобіль

Вихід

Перетворити в інший набір даних

(Ключ, значення)

(Автобус, 1), (Автомобіль, 1), (Автобус, 1), (Вагон, 1), (Поїзд, 1),

(вагон, 1), (автобус, 1), (вагон, 1), (поїзд, 1), (автобус, 1),

(Поїзд, 1), (автобус, 1), (buS, 1), (caR, 1), (CAR, 1),

(автомобіль, 1), (АВТОМОБІЛЬНИЙ 1,

А вихід з вищевказаної проміжної стадії надається редуктору, а нижче - кінцевий вихід програми.

Вхідні дані

(вихід функції Map)

Набір кортежів

(Автобус, 1), (Автомобіль, 1), (Автобус, 1), (Вагон, 1), (Поїзд, 1),

(вагон, 1), (автобус, 1), (вагон, 1), (поїзд, 1), (автобус, 1),

(Поїзд, 1), (автобус, 1), (buS, 1), (caR, 1), (CAR, 1),

(автомобіль, 1), (АВТОМОБІЛЬНИЙ 1,

Вихід

Перетворюється на менший набір кортежів

(АВТОБУС, 7),

(ЗКД, 7),

(ПОШУК, 4)

Однією з ключових відмінностей Hadoop від інших великих каркасів обробки даних є те, що Hadoop надсилає код (код MapReduce) кластерам, де зберігаються дані, а не надсилає дані до коду, оскільки набори даних будуть у туберкульозі або іноді в PB це буде копітка справа.

Таблиця порівняння Hadoop проти MapReduce

Основа для порівняння	Hadoop	MapReduce
Значення	Ім'я "Hadoop" було ім'ям іграшкового слона сина Дуга Кеттінга. Він назвав цей проект "Hadoop", оскільки його було легко проголосити.	Назва «MapReduce» з’явилася на основі функціональності відображення та скорочення пар «ключ-значення».
Концепція	Apache Hadoop - це екосистема, яка забезпечує надійне, масштабоване та готове до розподілених обчислень середовище.	MapReduce - це підмодуль цього проекту, який є моделлю програмування і використовується для обробки величезних наборів даних, які сидять на HDFS (розподіленій файловій системі Hadoop).
Попередні реквізити	Hadoop працює на реалізованих HDFS (розподіленій файловій системі Hadoop)	MapReduce може працювати на HDFS / GFS / NDFS або будь-якій іншій розподіленій файловій системі, наприклад MapR-FS
Мову	Hadoop - це сукупність усіх модулів, а отже, може включати й інші мови програмування / сценаріїв	MapReduce в основному написаний мовою програмування Java
Рамка	Hadoop має не лише рамку зберігання, яка зберігає дані, але створює вузол імені та вузол даних, але також має інші рамки, які включають сам MapReduce.	MapReduce - це програмний фреймворк, який використовує ключ, зіставлення значень для сортування / обробки даних

Наведений нижче малюнок допоможе відрізнити MapReduce від Hadoop.

MapReduce Framework

Як ми бачимо з наведеної вище картини, що MapReduce - це розподілений обробний процес, тоді як Hadoop - це сукупність усіх фреймворків.

Висновок - Hadoop проти MapReduce

Hadoop з відкритим кодом здобув популярність, оскільки він був вільний у використанні, і програмісти можуть змінювати код відповідно до своїх потреб. Екосистема Hadoop протягом останніх років розроблялася постійно, щоб зробити екосистему максимально без помилок.

Із постійно мінливими потребами світу технологія швидко змінюється і стає важко відслідковувати зміни. Дані, що генеруються протягом місяця, під час читання цієї статті збільшуються вдвічі / втричі, і потреба в більш швидкій обробці наборів даних призвела до багатьох інших програмних систем, таких як MapReduce 2, Spark тощо.