Встановити іскру - Повне керівництво по встановленню іскри

Зміст:

Anonim

Як встановити Spark?

Spark - це програма з відкритим кодом для запуску програм аналітики. Це двигун обробки даних, розміщений у незалежному від постачальника програмного фонду Apache, який працює над великими наборами даних або великими даними. Це кластерна обчислювальна система загального призначення, яка забезпечує API високого рівня в Scala, Python, Java та R. Вона була розроблена для подолання обмежень парадигми MapReduce Hadoop. Вчені даних вважають, що Spark виконує в 100 разів швидше, ніж MapReduce, оскільки він може кешувати дані в пам'яті, тоді як MapReduce працює більше, читаючи і записуючи на диски. Він виконує обробку пам'яті, що робить її більш потужною та швидкою.

Spark не має власної файлової системи. Він обробляє дані з різних джерел даних, таких як розподілена файлова система Hadoop (HDFS), система S3 Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Він може працювати на Hadoop YARN (ще один переговорник ресурсів), на Mesos, на EC2, на Kubernetes або використовуючи автономний кластерний режим. Він використовує RDD (Resilient Distributed Dataset) для делегування робочих навантажень окремим вузлам, які підтримують в ітеративних програмах. Завдяки RDD програмування легко порівняно з Hadoop.

Іскра складається з різних компонентів, що називаються компонентами екосистеми іскри.

  • Spark Core: це основа програми Spark, від якого безпосередньо залежать інші компоненти. Він надає платформу для широкого спектру застосувань, таких як планування, розподілена диспетчеризація завдань, обробка пам'яті та посилання на дані.
  • Іскраве потокове передавання: саме компонент, який працює над потоковими потоковими даними, забезпечує аналітику в реальному часі. Живі дані приймаються в окремі одиниці, що називаються партіями, які виконуються на Spark Core.
  • Spark SQL: Це компонент, який працює над ядром Spark для запуску SQL запитів на структурованих або напівструктурованих даних. Data Frame - це спосіб взаємодії з Spark SQL.
  • GraphX: Саме обчислювальний механізм або рамковий графік дозволяє обробляти дані графіків. Він пропонує різні алгоритми графіків для запуску на Spark.
  • MLlib: Він містить алгоритми машинного навчання, які забезпечують структуру машинного навчання в розподіленому середовищі на основі пам'яті. Це ефективно виконує ітераційні алгоритми завдяки можливості обробки даних в пам'яті.
  • SparkR: Spark забезпечує пакет R для запуску або аналізу наборів даних за допомогою оболонки R.

Існує три способи встановлення або розгортання iskre у ваші системи:

  1. Автономний режим в Apache Spark
  2. Hadoop Пряжа / Месос
  3. SIMR (Іскра в MapReduce)

Подивимось розгортання в автономному режимі.

Іскровий автономний режим розгортання:

Крок 1: Оновіть індекс упаковки

Це необхідно для оновлення всіх наявних пакетів у вашій машині.

Використовуйте команду : $ sudo apt-get update

Крок 2: Встановіть Java Development Kit (JDK)

Це встановить JDK на вашу машину і допоможе вам запустити програми Java.

Крок 3. Перевірте, чи правильно встановлена ​​Java

Java є необхідною умовою для використання або запуску програм Apache Spark.

Використовуйте команду : $ java –версія

Цей скріншот показує версію java та забезпечує наявність Java на машині.

Крок 4: Встановіть Scala на свою машину

Як іскра написана в масштабі, так масштаб повинен бути встановлений для запуску іскри на вашій машині.

Використовуйте команду: $ sudo apt-get install scala

Крок 5: Перевірте, чи правильно встановлено Scala

Це забезпечить успішну установку масштабу у вашій системі.

Використовуйте Command : $ scala –версія

Крок 6: Завантажте Apache Spark

Завантажте Apache Spark відповідно до вашої версії Hadoop з https://spark.apache.org/downloads.html

Коли ви перейдете за вищенаведеним посиланням, з’явиться вікно.

Крок 7: Виберіть відповідну версію відповідно до вашої версії Hadoop та натисніть на посилання, позначене.

З'явиться ще одне вікно.

Крок 8: Натисніть на посилання, позначене, і іскра Apache буде завантажена у вашу систему.

Перевірте, чи файл .tar.gz доступний у папці для завантаження.

Крок 9: Встановіть Apache Spark

Для встановлення Spark, файл смоли потрібно витягнути.

Використовуйте команду: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Ви повинні змінити вказану в команді версію відповідно до завантаженої версії. У цьому ми завантажили версію spark-2.4.0-bin-hadoop2.7.

Крок 10: змінна середовище настройки для Apache Spark

Використовуйте команду: $ source ~ / .bashrc

Додати рядок : експортувати PATH = $ PATH: / usr / local / spark / bin

Крок 11: Перевірте встановлення Apache Spark

Використовуйте команду : $ spark-shell

Якщо установка пройшла успішно, буде зроблено наступний вихід.

Це означає успішну установку Apache Spark на вашій машині, і Apache Spark запуститься в Scala.

Розгортання іскри на Hadoop Пряжа:

Є два режими для розгортання Apache Spark на Hadoop YARN.

  1. Режим кластера: У цьому режимі YARN на кластері управляє драйвером Spark, який працює всередині основного процесу програми. Після запуску програми клієнт може перейти.
  2. Клієнтський режим: У цьому режимі запитують ресурси у YARN за допомогою головного додатка, а драйвер Spark запускається у клієнтському процесі.

Для розгортання програми Spark в кластерному режимі використовуйте команду:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Вищевказана команда запустить клієнтську програму YARN, яка запустить програму Master за замовчуванням.

Для розгортання програми Spark в режимі клієнта використовуйте команду:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Можна запустити іскрову оболонку в режимі клієнта за допомогою команди:

$ spark-shell –master yarn –deploy-mode client

Поради та рекомендації щодо використання іскрової установки:

  1. Переконайтеся, що на вашому пристрої встановлено Java, перш ніж встановлювати іскру.
  2. Якщо ви використовуєте мову Scala, то перед тим, як використовувати Apache Spark, переконайтеся, що масштаб уже встановлено.
  3. Також ви можете використовувати Python замість Scala для програмування в Spark, але він також повинен бути попередньо встановлений, як Scala.
  4. Ви також можете запустити Apache Spark у Windows, але пропонується створити віртуальну машину та встановити Ubuntu за допомогою Oracle Virtual Box або VMWare Player .
  5. Іскра може працювати без Hadoop (тобто автономного режиму), але якщо потрібна установка з декількома вузлами, тоді потрібні менеджери ресурсів, такі як YARN або Mesos.
  6. Під час використання YARN не потрібно встановлювати Spark на всі три вузли. Вам потрібно встановити Apache Spark лише на одному вузлі.
  7. Якщо ви використовуєте YARN, якщо ви перебуваєте в одній локальній мережі з кластером, ви можете використовувати клієнтський режим, тоді як якщо ви далеко, то ви можете використовувати кластерний режим.

Рекомендовані статті - Установка іскри

Це керівництво щодо встановлення Spark. Тут ми побачили, як розгорнути Apache Spark в автономному режимі та поверх менеджера ресурсів YARN, а також деякі поради та рекомендації також згадані для плавної установки Spark. Ви також можете переглянути наступну статтю, щоб дізнатися більше -

  1. Як користуватися командами Spark
  2. Кар'єра в Spark - ти мусиш спробувати
  3. Відмінності Splunk від Spark
  4. Питання та відповіді щодо інтерв'ю
  5. Переваги іскрового потоку
  6. Типи приєднань до Spark SQL (приклади)