Різниця між вуликом та Імпалою

Hive - проект програмного забезпечення для сховища даних, побудований на версії APACHE HADOOP, розроблений командою Джеффа у Facebook з випущеною поточною стабільною версією 2.3.0. Він використовується для узагальнення великих даних і спрощує запити та аналіз. Apache Hive - це ефективний стандарт для SQL в Hadoop. Impala - це система паралельної обробки запитів SQL, яка працює на Apache Hadoop і використовує для обробки даних, що зберігаються в HBase (Hadoop Database) та розподіленій файловій системі Hadoop. Impala - продукт із відкритим кодом для паралельної обробки (MPP) SQL-механізму запитів даних, що зберігаються в локальному системному кластері, що працює на Apache Hadoop. Обоє Apache Hive та Impala є ключовими частинами системи Hadoop.

Тож давайте детально вивчимо і Вулик, і Імпалу:

ПІДЛИВ

  • Apache Hive допомагає аналізувати величезний набір даних, що зберігається у файловій системі Hadoop (HDFS) та інших сумісних файлових системах.
  • Вулик QL - для запиту даних, що зберігаються в кластері Hadoop .
  • Експлуатує масштабованість Hadoop за допомогою перекладу .
  • Вулик НЕ є повноцінною базою даних .
  • Він не забезпечує оновлення на рівні записів .
  • Hadoop - це пакетна орієнтована система .
  • Запити у вуликах мають високу затримку завдяки MapReduce .
  • Вулик не надає особливостей , близьких до OLAP .
  • Найкраще підходить для програм зберігання даних .
  • Виконання запиту через MapReduce .
  • мова запитів може використовуватися для користувацьких скалярних функцій (UDF), агрегацій (UDAF) та функцій таблиці (UDTF) .
  • Hive також забезпечує індексацію для прискорення, тип індексу, включаючи ущільнення та растровий індекс на 0, 10, планується більше типів індексу.
  • Типи пам’яті, підтримувані Hive, - це RCfile, HBase, ORC та звичайний текст .
  • SQL-подібні запити (Hive QL), які неявно перетворюються на завдання MapReduce або Tez, або Spark .
  • За замовчуванням Hive зберігає метадані у вбудованій базі даних Apache Derby .

ІМПАЛА

  • Impala - це система запитів, яка працює на Hadoop . Про загальнодоступне розповсюдження бета-тесту було оголошено у жовтні 2012 року та стало загальнодоступним у травні 2013 року.
  • Він підтримує HDFS Apache HBase зберігання та Amazon S3 .
  • Читає формати файлів Hadoop, включаючи текст, паркет, Avro, RCFile, LZO та послідовність файлів .
  • Підтримується безпека Hadoop (автентифікація Kerberos) .
  • Використовує метадані, драйвер ODBC та синтаксис SQL з Apache Hive .
  • Він підтримує кілька кодеків стиснення:

(a) Snappy (рекомендується для ефективного балансу між коефіцієнтом стиснення та швидкістю декомпресії),

(b) Gzip (рекомендується при досягненні найвищого рівня стиснення),

(c) Зняти (не підтримується для текстових файлів), Bzip2, LZO (лише для текстових файлів);

  • Це дозволяє здійснювати запит на вкладені структури, включаючи карти, структури та масиви.
  • Це дозволяє одночасним запитам для декількох користувачів, а також дозволяє контролювати прийом на основі визначення пріоритетності та черги запитів.

Порівняння між вуликом і Імпалою (Інфографіка)

Нижче наводиться топ-20 порівнянь між вуликом та Імпалою

Ключова різниця між вуликом проти Імпали

Відмінності між вуликом проти Імпали пояснюються пунктами, представленими нижче:

  • Вулик розробляється командою Джеффа у Facebook, але Impala розробляється програмним фондом Apache .
  • Hive підтримує формат файлу формату оптимізованих стовпців (ORC) з стисненням Zlib, але Impala підтримує формат паркету з швидким стисненням .
  • Вулик написаний на Java, але Impala написаний на C ++.
  • Швидкість обробки запитів у вулику повільна, але Impala в 6-69 разів швидша, ніж у вулику .
  • У вуликах затримка висока, але в Імпала затримка низька .
  • Hive підтримує зберігання RC-файлів та ORC, але підтримка зберігання Impala - Hadoop та Apache HBase .
  • Hive генерує вираз запиту під час компіляції, але в генерації коду Impala для '' великих циклів 'трапляється під час виконання .
  • Вулик не підтримує паралельну обробку, але Impala підтримує паралельну обробку.
  • Вулик підтримує MapReduce, але Impala не підтримує MapReduce .
  • У вулику немає функції захисту, але Impala підтримує Kerberos Authentication .
  • У модернізації будь-якого проекту, де важлива сумісність та швидкість, Hive - ідеальний вибір, але для нового проекту Impala - ідеальний вибір .
  • Вулик стійкий до відмов, але Impala не підтримує відмовостійкість .
  • Вулик підтримує складний тип, але Impala не підтримує складні типи .
  • Hive - це пакетна версія Hadoop MapReduce, але Impala - це база даних MPP .
  • Hive не підтримує інтерактивні обчислення, але Impala підтримує інтерактивні обчислення .
  • У запиті вуликів є проблема "холодного запуску", але в процесі демона Impala запускаються під час самого завантаження .
  • Менеджером ресурсів вулика є YARN (ще один переговорник ресурсів), але в менеджері ресурсів Impala - рідний * YARN .
  • Розподіл вуликів - це всі розподіли Hadoop, Hortonworks (Tez, LLAP), але в розповсюдженні Impala є Cloudera MapR (* Amazon EMR) .
  • Аудиторія вуликів - це інженери даних, але в аудиторії Impala - аналітики даних / вчені.
  • Пропускна здатність вуликів висока, але в Імпала низька .

Таблиця порівняння вулика проти Імпали

Серійний номер.Основа для порівнянняВуликІмпала
1.РозробленоFacebookПрограмне забезпечення Apache
Фундація
2.Формат файлу
  • Послідовність файлу.
  • Текстовий файл.
  • Оптимізований стовпчастий формат рядків (ORC) із стисненням Zlib.
  • Формат файлу RC.
  • Формат паркету із спритним стисканням.
  • Авро
  • LZO
  • Послідовність файлу.
3.МовуНаписано в JAVAНаписано на C ++
4.Швидкість обробкиВулик повільнийІмпала швидкий
5.ЗатримкаВисокийНизький
6.Підтримка зберіганняRC-файл, ORCHadoop, Apache HBase
7.Перетворення кодуСтворює вираз запиту під час компілюванняГенерація коду відбувається під час виконання.
8.Підтримує паралельну обробкуНіТак
9.Підтримка MapReduceТакНі
10.Hadoop SecurityНіПідтримує автентифікацію Kerberos.
11.ВикористанняІдеально підходить для модернізації проектівІдеально підходить для запуску нового проекту.
12.ВідмовніВулик - толерантний до помилок.Не підтримує відмовостійкість.
13.Складні типиВулик підтримує складні типи.Impala не підтримує складні типи.
14.Тип бази данихВулик - це серійний Hadoop MapReduce.Це база даних MPP
15.Інтерактивні обчисленняНе підтримує інтерактивні обчислення.Підтримує інтерактивні обчислення.
16.ВиконанняУ запиті вуликів є проблема із "Cold Start"Процес Імпала завжди починається в часи демонів.
17.Управління ресурсамиПряжаРідна * Пряжа
18.ПоширенняHIVE - всі дистрибуції Hadoop, Hortonworks (Tez, LLAP)Cloudera MapR,
(* EMR Amazon)
19.АудиторіяІнженери данихАналітик даних / Вчені даних
20.Пропускна здатністьВисока пропускна здатністьНизька пропускна здатність

Висновок - Вулик проти Імпала

У цій статті ми спробували продемонструвати, що два технології, а саме Hive та Impala, є також основною відмінністю цих технологій. На практиці можна сказати, що Hive та Impala не є конкурентами, вони обидва належать до одного фонду, який відомий як MapReduce для виконання запитів, використання обох може створити різницю. Відповідно до наших потреб, ми можемо використовувати їх разом або найкраще відповідно до сумісності, потреби та продуктивності. Мова запитів вуликів - це Hive QL, що є дуже універсальною та універсальною мовою, в той час як Impala є інтенсивним пам’яттю і не працює добре для обробки важких операцій з даними, наприклад, приєднання запитів. Якщо ваша робота над проектом пов'язана з пакетною обробкою великої кількості даних, вулик буде кращим у такому випадку, і якщо ваша робота пов'язана з процесом спеціального запиту в режимі реального часу, то Impala буде краще той випадок.

Рекомендована стаття

Це було керівництвом щодо вулика Vs Impala, їх значення, порівняння «голова до голови», ключових відмінностей, таблиці порівняння та висновку. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Apache Hive vs Apache Spark SQL - 13 дивовижних відмінностей
  2. Вулик VS HUE - Топ-6 корисних порівнянь для вивчення
  3. Apache Pig vs Apache Hive - 12 найкращих корисних відмінностей
  4. Хадоп проти вулика - з’ясуйте найкращі відмінності
  5. Використання функції ЗАМОВЛЕННЯ В вулику

Категорія: