Що таке Свиня? - Особливості та розуміння - Архітектура та кар'єра

Зміст:

Anonim

Що таке Свиня?

Свиня - це двигун з відкритим кодом, який є частиною екосистемних технологій Hadoop. Свиня чудово працює з даними, які виходять за рамки традиційних баз даних або сховищ даних. Це може добре впоратися з відсутніми, неповними або непослідовними даними, які не мають схеми. У Свині є своя мова для вираження маніпуляцій з даними, яка є Латиною свиней.

Розуміння Свині

Pig - це технологія, яка дозволяє писати сценарії високого рівня, але надзвичайно деталізовані, що дозволяє працювати з даними, де схема невідома або непослідовна. Свиня - це технологія з відкритим кодом, яка працює на вершині Hadoop і є частиною надзвичайно яскравої та популярної екосистеми Hadoop.

Свиня добре працює з неструктурованими та неповними даними, тому вам не доведеться мати традиційне розташування правил і стовпців для всього.

Це чітко визначено, і він може безпосередньо працювати над файлами в HDFS (розподіленою файловою системою Hadoop).

Свиня стане вашою технологією вибору, коли ви хочете отримати дані з джерела у сховище даних.

Наприклад, наочний конвеєр того, як зазвичай передаються дані, перш ніж ви зможете використовувати їх для створення приємних діаграм, які ви використовуєте для прийняття бізнес-рішень.

Необхідні дані надходять із різних джерел, таких як датчики, мобільні телефони тощо. Потім ви будете використовувати Pig для виконання ETL-операції. Після виконання цих операцій очищені дані зберігаються в іншій базі даних. Прикладом такої бази даних може бути HDFS, яка є частиною Hadoop. Hive - це сховище даних, яке працюватиме поверх такої файлової системи. Вулик - це те, що ви використовували б для аналізу, для створення звітів та отримання інформації.

ETL - це дуже важливий крок в обробці даних для того, щоб очистити необроблені дані та в правильній формі зберігатись у базі даних. Витяг відноситься до операції витягування неструктурованих, непослідовних даних із відсутнім полем та значеннями з вихідного джерела. Трансформація означає серію операцій, яку ви застосували б для даних, щоб очистити або отримати їх.

Попереднє обчислення корисної сукупної інформації, обробка полів для відповідності певному формату, все це є частиною очищення даних полів перетворення.

Нарешті, Pig виконує операцію з навантаженням, де ці чисті дані зберігаються в базі даних, де їх можна буде далі аналізувати. Приклад стандартної операції, яку виконує Pig, - очищення файлів журналів.

Поясніть архітектуру свиней

В архітектурі є численні частини свиней, віддайте перевагу:

  • Парсер : Парсер також займається сценаріями свиней, перевіряє синтаксис сценарію, перевіряє тип і перевіряє різні сорти. Крім того, їх результатом може бути DAG (спрямований ациклічний графік), який зазвичай позначає претензії Pig Latin разом з логічними операторами.

Також логічні оператори зі сценарієм будуть показані як вузли, а також потоки даних будуть показані з ребер через DAG.

  • Оптимізатор: пізніше логічний план (DAG) зазвичай перевищується до логічного оптимізатора. Він виконує додаткові логічні оптимізації, включаючи проекцію та сприяє низькому рівню
  • Компілятор: Крім того, компілятор компілює покращений логічний план у групі MapReduce.
  • Виконання двигуна: Зрештою, всі роботи MapReduce будуть розміщені в Hadoop у відсортованій послідовності. Врешті-решт це призведе до необхідних результатів, хоча ці роботи MapReduce будуть виконуватись з Hadoop.
  • MapReduce: MapReduce спочатку був розроблений в Google як спосіб обробляти веб-сторінки, щоб активувати пошук Google. MapReduce розподіляє обчислення на декількох машинах кластера. MapReduce використовує переваги властивого паралелізму в обробці даних. Сучасні системи, такі як датчики або навіть оновлення статусу Facebook, генерують мільйони записів необроблених даних.

Діяльність з цим рівнем може бути підготовлена ​​у два етапи:

  1. Карта
  2. Зменшити

Ви вирішуєте, яку логіку ви хочете реалізувати протягом цих етапів для обробки даних.

  • HDFS (розподілена файлова система Hadoop ): Hadoop дозволяє вибух зберігання та аналізу даних в масштабі в необмеженій кількості. Для отримання даних із HDFS розробники використовують такий додаток, як Pig, Hive, HBase та Spark.

Особливості

Apache Pig поставляється з різними особливостями:

  • Простота програмування: латинська свиня порівнянна з SQL, і тому розробникам досить просто створити сценарій Pig. Якщо ви розумієте мову SQL, вивчити латинську мову Pig надзвичайно просто, оскільки це так само, як і мова SQL.
  • Різноманітний набір операторів: Pig включає в себе різноманітний набір операторів Rich, щоб мати можливість виконувати процедури так само, як приєднання, філлер, сортування та багато іншого.
  • Можливості оптимізації: Продуктивність із завданням у Apache Pig може бути миттєво покращена самим завданням; тому розробникам доводиться просто сконцентруватися на семантиці цієї мови.
  • Розширюваність: Користуючись доступними операторами, користувачі можуть просто розробити свої функції для читання, обробки та запису даних.
  • Користувацькі функції (UDF): Використовуючи службу, надану Pig для виготовлення UDF, ми могли б створити визначені користувачем функції для кількості мов розробки, включаючи Java, а також викликати або вбудовувати їх у Свині сценаріїв.

Для чого корисна свиня?

Він використовується для перевірки, а також для виконання обов'язків, включаючи спеціальне поводження. Свиню Apache можна використовувати для:
Аналіз з величезними наборами необроблених даних надає перевагу обробці даних для пошуку веб-сайтів пошуку. Такі як Yahoo, Google надає перевагу Apache Pig для оцінки даних, зібраних через Google, а також пошукових систем Yahoo. Поводження з великими наборами даних так само, як веб-записи, потокова інформація в Інтернеті тощо. Навіть оновлення статусу Facebook генерує мільйони записів необроблених даних.

Як ця технологія допомагає вам розвиватися в кар’єрі?

Багато організацій неймовірно швидко реалізують Apache Pig. Це означає, що професії свинарства та свині кар'єра підвищуються щодня. Протягом останніх кількох років було досягнуто величезного прогресу в розвитку Apache Hadoop. Елементи Hadoop, як і вулик, свиня, HDFS, HBase, MapReduce тощо.

Незважаючи на те, що пропозиції Hadoop в цей час прийшли у друге десятиліття, вони все ж вибухнули у визнанні протягом попередніх трьох-чотирьох років. Велика кількість програмних компаній неймовірно часто застосовують кластери Hadoop. Це, безумовно, найкраща частина великих даних. Експерти-мішені можуть перетворитись на досвідчених у цій чудовій технології.

Висновок

Експертиза свиней Apache є великою потребою на ринку і може продовжувати розширюватися. Просто розібравшись у поняттях, а також набравшись досвіду з найкращими навичками Apache Pig в Hadoop, експерти можуть прекрасно займатися своєю професією Apache Pig.

Рекомендована стаття

Це було керівництвом щодо Що таке свиня? Тут ми обговорили поняття, визначення та архітектуру з особливостями Свині. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Як встановити Apache
  2. Питання для інтерв'ю Apache PIG
  3. Що таке веб-сервіси ASP.Net?
  4. Що таке технологія Blockchain?