Вступ до альтернатив вулику

Перш ніж ми обговоримо альтернативи HIVE. Давайте спочатку розберемося, що таке ПІДДІЛ? Отже, HIVE - це в основному інструмент зберігання даних, який розробляється поверх HDFS (розподіленої файлової системи Hadoop). Він використовується для надання інтерфейсу запитів типу SQL для запиту даних, які зберігаються в різних файлах, інтегрованих з Hadoop. Він перетворює такі SQL, як запити, для зменшення завдань на карті, які допомагають у легкому виконанні великих обсягів даних.

Особливості

Нижче наведено деякі особливості вулика:

  • Як і SQL, у нього є власна декларативна мова під назвою HiveQL.
  • Він має структуру таблиць, подібну до таблиць у реляційній базі даних, а також забезпечує підтримку ETL (витяг / підтримка / завантаження).
  • Цікавою особливістю є те, що вона дозволяє конвертувати формат зсередини ВИДЕ.

Обмеження альтернатив вулику

Давайте знаємо кілька обмежень вулика:

  • Він не розроблений для OLTP (Інтернет-транзакцій), але підтримує OLAP (Інтернет-аналітична обробка).
  • Одне важливе обмеження полягає в тому, що він не підтримує оновлення та видалення.
  • У вуликах запити також не підтримуються.

5 Важливі альтернативи вулику

Нижче ми обговоримо п'ять важливих альтернатив HIVE, присутніх на ринку:

1. Апач Імпала

Це відкритий джерело паралельної обробки запитів SQL для даних, що зберігаються в комп'ютерному кластері під управлінням Apache Hadoop. Це було оголошено в жовтні 2012 року. Нижче наведені яскраві риси Apache Impala як альтернативи HIVE.

  • Impala - хороший вибір для людей, які виконують запити SQL на Hadoop та Apache HBase без перетворення даних, оскільки для перетворення чи переміщення даних не потрібно, на відміну від HIVE.
  • Ще одна різниця між цими двома - це генерування виразів запитів. Impala створює їх під час виконання, використовуючи llvm, а HIVE генерує їх під час компіляції.
  • У запитах вуликів є проблема холодного запуску, що не стосується запитів Impala, оскільки в демон-процесах Impala запускаються під час завантаження, завжди готові обробити запит, завдяки якому це дозволяє уникнути проблеми холодного запуску.
  • Impala розпізнає формати файлів Hadoop, безпеку Hadoop, драйвер ODBC.
  • Основна USP імпала - груба сила паралельної обробки. Отже, Impala є кращою альтернативою, якщо починати новий проект.

2. Престо БД

Presto - ще одна альтернатива HIVE, розроблена facebook. Його USP полягає в тому, що він може навіть запитувати дані з декількох джерел в межах одного запиту. Нижче наведені основні особливості PrestoDB як альтернатива HIVE.

  • Presto - це механізм SQL запитів, розподілений у пам'яті, який також дуже швидкий, оскільки система запитів Presto швидка і добре підходить для інтерактивного аналізу.
  • USP для Presto над іншими - це його plug and play модель з різними джерелами даних. Завдяки цій моделі підключення та відтворення об’єднання запитів у різних джерелах даних дуже просто.
  • У Presto невеликих розмірів таблиці з'єднання були зроблені швидше. Presto перевершує більшість інших механізмів розподілених запитів.
  • Presto не підходить для великих приєднань фактів, оскільки він не використовує диск і не використовує пам'ять для обробки.
  • Ще одним важливим моментом престо є його розподіл ресурсів. Він має розподіл ресурсів на основі черги з пріоритетною чергою.
  • Одним з вигідних результатів у Presto є те, що підтримка UDF недоступна в системі Presto, завдяки якій потрібно записати власну функцію, яка збільшує накладні витрати, оскільки вона має бути побудована виключно для presto і перешкоджає сумісності.

3. Іскровий SQL

Це модуль також для структурованої обробки даних, а також з відкритим кодом. Він також може виступати в якості розподіленого двигуна SQL запитів, а також є однією унікальною частиною цього - він забезпечує абстрагування програмування, відоме як кадри даних. Він вперше вийшов у 2014 році, розроблений Apache Software Foundation. Нижче наведено деякі важливі особливості Spark SQL як альтернативи HIVE.

  • Хороша річ про Spark SQL - це те, що вона може бути реалізована в мовах Java, Scala, Python та R, тоді як HIVE може бути реалізований у мові Java.
  • Існує повна схожість в моделі первинної бази даних між HIVE та Spark, оскільки для обох первинних моделей бази даних є реляційні СУБД.
  • Він також схожий на HIVE, оскільки обидва підтримують сховище Key-Value як додаткову модель бази даних.
  • Він має заздалегідь визначені типи даних, такі як плаваючий та дата.
  • Він підтримує SQL, оскільки він володіє операторами DML і DDL.
  • На відміну від HIVE, який підтримує JDBC, ODBC та Thrift, Spark SQL підтримує лише JDBC та ODBC.
  • Spark SQL використовує іскровий ядро ​​для зберігання даних у різних вузлах.
  • Інша основна відмінність іскри від HIVE полягає у методах реплікації: у HIVE існує селективний коефіцієнт реплікації для зберігання зайвих даних у декількох вузлах, але у Spark SQL відсутній коефіцієнт реплікації.
  • У Spark SQL немає прав доступу для користувачів, тоді як в Apache Hive у нас є права доступу для користувачів, груп.
  • Він не підтримує таблицю транзакцій та не підтримує тип char.

4. Акула

Це SQL-сервер із відкритим кодом, який написаний на Scala. Цікавим фактом Shark є те, що замість використання Map-Reduce для виконання своїх запитів він використовує власні набори робочих вузлів. Нижче наведено деякі особливості акули:

  • Він використовує клієнтський рядок клієнта.
  • Він пропонує взаємодію з Hive для спільного використання схем.
  • Він забезпечує підтримку існуючих розширень вуликів, таких як UDF.

Він ще не дуже відомий, але він пропонує альтернативу ПІДДАЛУ.

5. BigSQL від IBM

Її надає Big Blue (IBM). IBM має власний дистрибутив Hadoop під назвою Big Insights. Отже, Big SQL пропонується як частина його. Це не є відкритим кодом, оскільки це передбачено IBM. Деякі речі, які вони надають, наведені нижче:

  • Вони підтримують як драйвери JDBC, так і OJDBC.
  • Вони забезпечують підтримку SQL
  • Їх можна використовувати для запиту даних із HDFS.

Рекомендовані статті

Це посібник з альтернатив вулику. Тут ми обговорюємо особливості, обмеження та 5 важливих альтернатив вулику. Ви також можете ознайомитись з іншими пов'язаними з нами статтями, щоб дізнатися більше -

  1. Альтернативи Hadoop
  2. Альтернативи Табле
  3. Альтернативи Google Analytics
  4. Hadoop Streaming
  5. Замовлення вуликів за
  6. Установка вулика
  7. Рамки даних в R

Категорія: