Вступ до запитань та відповідей інтерв'ю Apache PIG

Отже, ви нарешті знайшли роботу своєї мрії в Apache PIG, але ми задаємось питанням, як зламати інтерв'ю Apache PIG 2019 і які можуть бути ймовірні питання інтерв'ю Apache PIG. Кожне інтерв'ю Apache PIG відрізняється, а сфера роботи теж різна. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді щодо інтерв'ю Apache PIG, які допоможуть вам досягти успіху в інтерв'ю з Apache PIG.

Далі наведено перелік питань інтерв'ю Apache PIG 2019, які задаються в основному

1. Які ключові відмінності між MapReduce та Apache Pig?

Відповідь:
Нижче наведені ключові відмінності між Apache Pig та MapReduce, завдяки яким Apache Pig увійшов до зображення:
• MapReduce - це модель обробки даних низького рівня, тоді як Apache Pig - платформа потоку даних високого рівня
• Без написання складних реалізацій Java в MapReduce програмісти можуть легко досягати тих же реалізацій, використовуючи Pig Latin.
• Apache Pig надає вкладені типи даних, як сумки, кортежі та карти, оскільки вони відсутні у MapReduce.
• Pig підтримує операції з передачею даних, такі як фільтри, з'єднання, замовлення, сортування тощо з багатьма вбудованими операторами. Тоді як виконувати ту саму функцію в MapReduce - це величезне завдання.

2. Поясніть використання MapReduce у Свині.

Відповідь:
Програми Apache Pig написані мовою запитів, відомою як Pig Latin, яка схожа на мову запитів SQL. Для виконання запиту необхідний механізм виконання. І двигун Pig перетворює запити в завдання MapReduce і, таким чином, MapReduce виконує функції двигуна виконання і потрібен для запуску програм.

3. Поясніть використання Свині.

Відповідь:
Ми можемо використовувати Свиню в трьох категоріях, це:
• Трубопровід даних ETL: Це допомагає заповнити наш сховище даних. Свиня може передавати дані до зовнішньої програми, вона буде чекати, поки вона закінчиться, щоб вона отримала оброблені дані і продовжить звідти. Це найпоширеніший випадок використання Свині.
• Дослідження необроблених даних.
• Ітеративна обробка.

4. Порівняйте Apache Pig та SQL.

Відповідь:
• Apache Pig відрізняється від SQL тим, що використовує для ETL, ледачу оцінку, зберігання даних у будь-який момент часу в конвеєрі, підтримку розбиття конвеєра та чітке оголошення планів виконання. SQL (структурна мова запитів) орієнтована на запити, які дають єдиний результат. SQL не має вбудованого механізму для розділення потоку обробки даних та застосування різних операторів до кожного підпотоку.
• Apache Pig дозволяє включити код користувача в будь-яку точку конвеєра, тоді як якщо SQL, де слід використовувати дані, потрібно спочатку імпортувати до бази даних, а потім починається процес очищення та трансформації.

5. Поясніть різні складні типи даних у Свині.

Відповідь:
Apache Pig підтримує три складні типи даних -
• Карти - це ключові, сховища цінностей, об'єднані разом за допомогою #
Приклад: ('city' # 'pune', 'pin' # 411045) • кортежі - Так само, як і рядок у таблиці, де різні елементи розділені комою. Кортежі можуть мати кілька атрибутів.
• Сумки - не упорядкована колекція кортежів. Сумка дозволяє кілька повторюваних кортежів.
Приклад: (('Мумбаї', 022), ('Нью-Делі', 011), ('Колката', 44))

6. Поясніть різні моделі виконання, доступні в Свині.

Відповідь:
У Pig вони доступні три різних режими виконання,
• Інтерактивний режим або режим Grunt.
Інтерактивний режим або режим бурчання: інтерактивна оболонка Свині відома як оболонка бурчання. Якщо в Pig не вказано жодного файлу, він запуститься.
• Пакетний режим або режим сценарію.
Pig виконує вказані команди у файлі сценарію.
• Вбудований режим
Ми можемо вставляти програми Pig у Java, а також запускати програми з Java.

7. Поясніть плани виконання (Логічний та фізичний план) сценарію Свині

Відповідь:
Логічні та фізичні плани створюються під час виконання сценарію свиней. Сценарії свиней засновані на перевірці перекладача. Логічний план виробляється шляхом семантичної перевірки та базового розбору, і під час створення логічного плану не відбувається обробка даних. Для кожного рядка сценарію Pig виконується перевірка синтаксису для операторів і створюється логічний план. Щоразу, коли в сценарії виникає помилка, викидається виняток і завершується виконання програми, інакше для кожного оператора в скрипті є свій логічний план.
Логічний план містить набір операторів у сценарії, але не містить ребер між операторами.
Після створення логічного плану виконання сценарію переходить до фізичного плану, де є опис фізичних операторів, Apache Pig використовуватиме для виконання сценарію Pig. Фізичний план більш-менш нагадує серію завдань MapReduce, але тоді план не містить посилання на те, як він буде виконуватися в MapReduce. Під час створення фізичного плану логічний оператор cogroup перетворюється на 3 фізичні оператори, а саме: - Локальне переставлення, глобальне переупорядкування та пакет. Функції завантаження та зберігання зазвичай вирішуються у фізичному плані.

8. Які інструменти налагодження використовуються для скриптів Apache Pig?

Відповідь:
Опишіть та поясніть важливі утиліти налагодження у Apache Pig.
• Утиліта Explain корисна для розробників Hadoop при спробі налагодження помилок або оптимізації сценаріїв PigLatin. Пояснення може бути застосоване до певного псевдоніму в сценарії або він може бути застосований до всього сценарію в грубій інтерактивній оболонці. утиліта роз'яснення створює кілька графіків у текстовому форматі, які можна надрукувати у файл.
• Опис утиліти налагодження корисна розробникам при написанні скриптів Pig, оскільки вона показує схему співвідношення в сценарії. Для початківців, які намагаються навчитися Apache Pig, можна скористатися утилітою опису, щоб зрозуміти, як кожен оператор вносить зміни до даних. Сценарій свиней може мати кілька описів.

9. Які деякі випадки використання свиней Apache ви можете придумати?

Відповідь:
• Інструмент великих даних Apache Pig використовується, зокрема, для ітеративної обробки, дослідження сировинних даних та для традиційних трубопроводів даних ETL. Оскільки Pig може діяти в умовах, коли схема не відома, непослідовна або неповна - вона широко використовується дослідниками, які хочуть використати дані до їх очищення та завантаження у сховище даних.
• Для побудови моделей прогнозування поведінки, наприклад, веб-сайт може використовувати його для відстеження реакції відвідувачів на різні типи оголошень, зображень, статей тощо.

10. Виділіть різницю між групами та операторами Cogroup у Pig.

Відповідь:
Обидва оператори можуть працювати з одним або кількома відносинами. Оператори групи та Cogroup однакові. Оператор групи збирає всі записи одним і тим же ключем. Cogroup - це комбінація групи та приєднання, це узагальнення групи замість того, щоб збирати записи одного входу, залежить від ключа, він збирає записи з n входів на основі ключа. За один раз ми можемо згрупувати до 127 відносин.

Рекомендовані статті

Це було керівництвом до списку запитань та відповідей щодо інтерв'ю Apache PIG, щоб кандидат міг легко розправити ці запитання щодо інтерв'ю Apache PIG. Ця стаття складається з усіх корисних запитань та відповідей Apache PIG Interview, які допоможуть вам в інтерв'ю. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Apache Pig vs Apache Hive
  2. Топ 10 складних питань щодо інтерв'ю
  3. 8 ефективних кроків для підготовки до внутрішнього інтерв'ю
  4. Важливі поради щодо перегляду інтерв'ю на панелі (корисно)