Вступ до альтернатив Hadoop

Apache Hadoop - жахливий каркас, який використовує декілька інших компонентів, таких як HDFS, Hive, Spark, YARN та Zookeeper. Він використовується для обробки та аналізу даних, отриманих із внутрішніх чи зовнішніх джерел. Він може масштабуватися від декількох машин або серверів до тисяч їх. Існує багато вбудованих функцій бібліотеки, які дозволяють виявити та вирішити несправності.

Компоненти Hadoop

1) Розподілена файлова система Hadoop (HDFS):

Це резервуар даних в Hadoop. Він працює за принципом розподілених даних, де величезні набори даних розбиваються на невеликі частини та зберігаються на декількох машинах у кластері.

2) MapReduce:

Це модель програмування, щоб паралельно проводити аналізи даних, що перебувають у різних вузлах кластера.

3) Вулик:

Рамка з відкритим кодом, яка використовується для запиту структурованих даних за допомогою мови Hive-Query. Функція індексації використовується для прискорення процесу запитів.

4) Амбарі:

Платформа для контролю стану кластера та автоматизації операцій. Він має простий веб-інтерфейс і його можна легко встановити та налаштувати.

Список альтернатив Hadoop

Нижче наведено різні альтернативи Hadoop:

Пакетна обробка

Тут обробка проводиться лише за архівними даними. Наприклад, фінансовий аудит та перепис - це аналіз, зроблений за старими даними, щоб забезпечити краще прогнозування майбутніх результатів. Ці дані можуть містити мільярди рядків і стовпців. Пакетна обробка найкраще підходить для великої обробки даних без необхідності аналізу в режимі реального часу.

Обробка в режимі реального часу

Він також відомий як Stream-Processing. Тут дані обробляються час від часу, коли вони генеруються, щоб забезпечити швидке розуміння ймовірних результатів. Виявлення землетрусів та фондових ринків - найкращі приклади, коли необхідний аналіз у режимі реального часу.

Апаче іскра

Spark - це фреймворк, який використовується разом з Hadoop для обробки пакетних даних або даних у режимі реального часу на кластеризованих машинах. Він також може використовуватися як автономний, витягуючи та зберігаючи дані на сторонніх серверах без використання HDFS. Це продукт з відкритим кодом. Він надає API, записані за допомогою SCALA, R або Python, що підтримують загальну обробку. Для обробки структурованих даних можна використовувати Spark-SQL. Spark Streaming виконує необхідну аналітику в реальному часі. Spark забезпечує підтримку машинного навчання за допомогою MLIB. Зрештою, оброблені дані можна переглянути за допомогою Graphix.

Найбільш помітною особливістю Spark є обробка в пам'яті. Вся обробка даних відбувається в пам'яті, а не на диску. Цей спосіб економить час читання-запису вводу на диск і виведення з нього назад. Іскра блискавично швидка і майже в 100 разів швидша, ніж обробка Hadoop. Вся функція визначена і подана в контекст іскри. Лише тоді обробка починається з нуля. Цей метод відомий як «Ледаче виконання». Kafka, Flume використовуються як вхідні дані для потокового передавання даних. Spark може використовувати структуровані або неструктуровані дані для аналізу. Потоки даних - це сукупність даних за певний часовий інтервал у режимі Spark Streaming. Вони перетворюються в партії і подаються на іскровий двигун для обробки. Структуровані дані перетворюються в рамки даних, перш ніж використовувати Spark-SQL для подальшого аналізу.

Apache Storm

Apache Storm також є однією з альтернатив Hadoop, яка найкраще підходить для розподіленої аналітики в реальному часі. Його легко налаштувати, зручно для користувачів і не втрачає даних. Буря має дуже високу потужність обробки і забезпечує низьку затримку (як правило, за секунди) порівняно з Hadoop.

Ми детальніше розглянемо робочий процес Storm:

  • Топологія шторму (подібна до DAG, але фізичний план виконання) подається до Nimbus (Master Node).
  • Завдання та порядок, в якому він повинен здійснюватися, подаються до Німбуса.
  • Nimbus рівномірно розподіляє наявні завдання наглядачам (носики), і процес виконується Робітними вузлами (Болтами).
  • Здоров'я носиків і болтів постійно контролюється за допомогою серцебиття. Після вмирання керівника Nimbus виділяє завдання іншому Вузлу.
  • Якщо Nimbus відмирає, він автоматично запускається інструментами моніторингу. Тим часом наглядові органи продовжують виконувати свої завдання, які були призначені раніше.
  • Після того, як Nimbus перезапущений, він продовжує працювати з того місця, де він зупинився. Отже, втрати даних не відбувається, і кожна інформація проходить через топологію хоча б один раз.
  • Топологія продовжує працювати, доки не припиняється або не буде примусово відключатися Nimbus.
  • Шторм використовує Zookeeper для моніторингу Німбуса та інших вузлів нагляду.

Великий запит

Бази даних використовуються для транзакційної обробки. Менеджери створюють звіти та аналізують дані з різних баз даних. Склади даних були введені для отримання даних з різних баз даних по всій організації. Google розробив великий запит, який є сховищем даних, яким керує його власне самоврядування. Для обробки дуже складних запитів можуть знадобитися дуже високопродуктивні сервери та машини Node, які можуть коштувати величезно. Налаштування інфраструктури може зайняти до декількох тижнів. Як тільки буде досягнуто максимальний поріг, його необхідно збільшити. Щоб подолати ці проблеми, Big query забезпечує зберігання у вигляді хмари Google. Вузли робітників масштабуються до розміру центру обробки даних, якщо необхідно, щоб виконати складний запит протягом декількох секунд. Ви платите за те, що використовуєте, тобто запит. Google піклується про ресурси, їх обслуговування та безпеку. Запуск запитів у звичайних базах даних може зайняти від хвилин до години. Великий запит обробляє дані набагато швидше, і він в основному підходить для потокової передачі даних, таких як онлайн-ігри та Інтернет речей (IoT). Швидкість обробки досягає мільярдів рядків за секунду.

Престо

Запит Presto можна використовувати для об'єднання даних з різних джерел по всій організації та їх аналізу. Дані можуть перебувати в вулику, RDBMS або Кассандрі. Presto найкраще підходить для аналітиків, які очікують весь запитуваний звіт протягом декількох хвилин. Архітектура є аналогом класичної системи управління базами даних із використанням декількох вузлів у кластері. Він був розроблений Facebook для аналізу та пошуку інформації з їх внутрішніх даних, включаючи сховище даних 300PB. На їх дані виконується понад 30 000 запитів, щоб сканувати петабайт на день. Інші провідні компанії, такі як Airbnb і Dropbox, також використовують Presto.

Рекомендована стаття

Це керівництво щодо альтернатив Hadoop. Тут ми обговорюємо компоненти Hadoop, пакетної обробки та обробки в режимі реального часу альтернатив Hadoop. Ви також можете переглянути наступні статті, щоб дізнатися більше:

  1. Робота адміністратора Hadoop
  2. Продуктивність Hadoop проти SQL
  3. Кар'єра в Hadoop
  4. Хадоп проти іскри
  5. Hadoop Administrator | Навички та шлях до кар’єри

Категорія: