Вступ до запитань та відповідей щодо інтерв'ю MapReduce

MapReduce - це проста паралельна модель програмування даних, розроблена для масштабованості та відмовостійкості. Можна сказати, що MapReduce - це фреймворк, який використовує концепцію вузлів для паралелізації проблем, що виникають у великих наборах даних, якщо вони локальної мережі, вона використовує одне і те ж апаратне забезпечення, а якщо MapReduce географічно розподілений, він використовує відповідно обладнання. MapReduce по суті складається з функції Map () та функції Reduce (). Він став популярним проектом Hadoop з відкритим кодом.

Нижче наведено 9 важливих запитань та відповідей щодо інтерв'ю MapReduce 2019 року:

Якщо ви шукаєте роботу, пов’язану з MapReduce, вам потрібно підготуватися до запитань щодо співбесіди MapReduce 2019. Незважаючи на те, що кожне інтерв'ю MapReduce відрізняється, а сфера роботи також різна, ми можемо допомогти вам у вирішенні питань щодо інтерв'ю MapReduce з відповідями, які допоможуть вам скочити та досягти успіху в інтерв'ю.

Ці питання поділяються на дві частини:

Частина 1 - Питання для інтерв'ю MapReduce (основні)

Ця перша частина охоплює основні запитання та відповіді щодо інтерв'ю MapReduce.

1. Що таке MapReduce?

Відповідь:
MapReduce - це проста паралельна модель програмування даних, розроблена для масштабованості та відмовостійкості. Іншими словами, це рамка, яка обробляє паралельні задачі у великих наборах даних, використовуючи концепцію вузлів (кількість комп'ютерів), які в свою чергу класифікуються як кластери, якщо це локальна мережа і використовує те саме апаратне забезпечення або сітки, якщо вони є географічно розподілені та використовують різні апаратні засоби. MapReduce по суті складається з функції Map () і функції Reduce (). Він був першопрохідцем Google і обробляє багато петабайт даних щодня. Він став популярним проектом Hadoop з відкритим кодом та використовується в Yahoo, Facebook та Amazon, щоб назвати їх декілька.

2. Для чого використовується компанія MapReduce?

Відповідь:
Google
• Побудова індексу для пошуку Google
Процес побудови позиційного чи непозиційного індексу називається побудовою індексу або індексуванням. Роль MapReduce - це створення індексів і призначена для великих комп'ютерних кластерів. Метою кластера є вирішення обчислювальних задач для вузлів або комп'ютерів, побудованих із стандартними деталями, а не надкомп'ютером.
• Кластеризація статей для Новин Google
Для кластеризації статей сторінки спочатку класифікуються відповідно до того, чи потрібні вони для кластеризації. Сторінки містять багато інформації, яка не потрібна для кластеризації. Потім стаття приводиться до її векторної форми на основі ключових слів і зваженості, яку вона наводить. Потім вони кластеризуються за допомогою алгоритмів.
• Статистичний машинний переклад
Переклад двомовних текстових корпусів шляхом аналізу генерує статистичні моделі, які переводять одну мову на іншу за допомогою ваг і зводяться до найбільш ймовірного перекладу.
Yahoo
• "Веб-карта", що живить Yahoo! Пошук
Подібно до кластеризації статей для Новин Google, MapReduce використовується для кластеризації результатів пошуку на Yahoo! Платформа.
• Виявлення спаму для Yahoo! Пошта
Facebook
•Видобуток даних
Недавня тенденція вибуху даних призвела до необхідності вдосконалених методів поділу даних на шматки, які легко використовуються для наступного кроку аналізу.
• d Оптимізація
• Виявлення спаму

Перейдемо до наступних питань щодо інтерв'ю MapReduce.

3. Які цілі дизайну MapReduce

Відповідь:
Масштабованість до великих обсягів даних
Оскільки MapReduce - це рамка, яка спрямована на роботу з паралелізуючими даними, використовуючи концепцію вузлів, що представляють собою кількість комп’ютерів як кластерів, так і сіток, її можна масштабувати до n кількості комп'ютерних машин. Отже, однією з чільних цілей дизайну MapReduce є те, що він масштабується до 1000 машин і так 10000 дисків.
Економічність
Оскільки MapReduce працює з паралелізацією даних на вузлах або кількості комп'ютерів, наступні причини, які роблять це економічно вигідним:
-Чітайте товарні машини замість суперкомп'ютера. Хоча вони і дешеві, вони ненадійні.
-Мережа комбінезонів
-Автоматична стійкість до відмов, тобто менше адміністраторів.
- Це проста у використанні, тобто для цього потрібно менше програмістів.

4. Які проблеми MapReduce?

Відповідь:
Це поширені запитання щодо інтерв'ю MapReduce, задані в інтерв'ю. Основними проблемами MapReduce є:
-Частові вузли виходять з ладу, особливо якщо їх багато
Середній час між відмовами для 1 вузла дорівнює 3 рокам. Середній час між відмовами для 1000 вузлів дорівнює 1 добі. Рішення полягає у формуванні відмовостійкості в самій системі.
-Мережа об'єднання дорівнює або передбачає низьку пропускну здатність
Рішення для низької пропускної здатності полягає у підштовхуванні обчислень до даних.
-Програмування розподілених систем важко
Рішення для цього полягає в тому, що відповідно до моделі програмування паралельних даних користувачі записують функції "карта" та "зменшити". Система розподіляє роботу та обробляє несправності.

5. Що таке модель програмування MapReduce?

Відповідь:
Модель програмування MapReduce ґрунтується на концепції, що називається записами ключових значень. Він також пропонує парадигми для паралельної обробки даних. Для обробки даних у MapReduce потрібно вводити і вхідні дані, і вихідні дані у формат кількох пар ключ-значення. Пара єдиний ключ-значення також називається записом. Модель програмування MapReduce складається з функції Map () та функції зменшення. Модель для них така.
Функція Map (): (K in, V in) list (K inter, V inter)
Функція зменшення (): (K inter, list (V inter)) list (K out, V out)

Частина 2 - Питання для інтерв'ю MapReduce (розширено)

Давайте тепер подивимось на розширені питання щодо інтерв'ю MapReduce.

6. Що таке дані про виконання MapReduce?

Відповідь:
У випадку виконання MapReduce один майстер контролює виконання завдань на декількох рабах. Відображувачі бажано розміщувати на тому ж самому вузлі або тій же стійці, що і їх вхідний блок, щоб це мінімізувало використання мережі. Також картографи зберігають виводи на локальний диск, перш ніж подавати їх на редуктори. Це дозволяє відновити, якщо редуктор виходить з ладу і дозволяє більше редукторів, ніж вузлів.

7. Що таке комбайнер?

Відповідь:
Комбінатор, який також відомий як напівредуктор, працює за допомогою прийому вхідних даних від класу Map і передачі вивідних пар ключ-значення класу Reducer. Основна функція комбінатора - це узагальнення записів виведення карти за допомогою одного і того ж ключа. Іншими словами, комбінатор - це функція локальної агрегації для повторних ключів, створених однією і тією ж картою. Він працює для асоціативних функцій, таких як SUM, COUNT та MAX. Він зменшує розмір проміжних даних, оскільки це зведення агрегації значень для всіх повторюваних клавіш.

Перейдемо до наступних питань щодо інтерв'ю MapReduce.

8.Чому свиня? Чому б не MapReduce?

Відповідь:
• MapReduce дозволяє програмісту виконувати функцію карти з подальшим функцією зменшення, але робота над тим, як підключити обробку даних до цього шаблону, що часто вимагає декількох етапів MapReduce, може бути проблемою.
• З Pig структури даних набагато багатші, оскільки вони багатозначні і вкладені, а набір перетворень, які ви можете застосувати до даних, набагато потужніший. Наприклад, вони включають з'єднання, які неможливі в MapReduce.
• Крім того, Pig - це одна програма, яка перетворює перетворення на ряд завдань MapReduce.

9.Картика критики

Відповідь:
Однією помітною критикою MapReduce є те, що цикл розвитку дуже тривалий. Написання картографів та редукторів, складання та упаковка коду, подання завдання та отримання результатів займає багато часу. Навіть із потоковою передачею, яка видаляє крок компіляції та пакету, досвід все ще триває багато часу.

Рекомендована стаття

Це був посібник щодо списку питань та відповідей щодо інтерв'ю MapReduce, щоб кандидат міг легко розірвати ці запитання щодо інтерв'ю MapReduce. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Важливі запитання щодо інтерв'ю щодо даних
  2. 10 найкращих запитань щодо інтерв'ю щодо дизайну
  3. Питання для інтерв'ю Elasticsearch
  4. Найкорисніші питання щодо інтерв'ю Ruby
  5. Як працює MapReduce