Apache Spark Architecture

Вступ до архітектури іскри Apache

Ця стаття визначає поняття Apache Spark Architecture та її компоненти. Він вважається обробкою даних пікового рівня на Apache Software Foundation. Іскра, зрештою, вважається ще однією можливістю зменшити Hadoop та Map Map.

Spark - це архітектура з відкритим кодом з чітко визначеними компонентами, які допомагають аналізувати основну кількість даних і працює для розподілених обчислень. Spark написаний у Scala з увімкненими функціями, такими як API, R та збагачений набір бібліотек, що полегшує обробку даних. Apache Spark має індивідуальні обчислення кластерів для більш швидкої доступності та виконання на різних платформах.

Apache Spark має широкий спектр функцій, таких як прискорення швидшого процесу в пам'яті, адаптується до декількох мов програмування, має вдосконалені методи кешування та підтримує SQL запити, машинне навчання. Він працює на таких платформах, як операційні системи Microsoft Windows та Linux. Їх розгортання говорить про те, що вони також можуть працювати на одній машині та в режимі кластера.

Іскра "Архітектура Apache" має нещільно з'єднані компоненти. Іскра розгляне процес майстра / робочого в архітектурі, і все завдання працює на вершині розподіленої файлової системи Hadoop. Іскра Apache використовує Hadoop для обробки даних та процесів зберігання даних. Вони вважаються двигуном обробки даних в пам'яті і змушують їх програми працювати на кластерах Hadoop швидше, ніж пам'ять. Вбудована обробка пам'яті запобігає виходу з ладу вводу / виводу диска. Іскра дозволяє неоднорідній роботі працювати з тими ж даними. Іскра розділяє свої дані на розділи, розмір розділених розділів залежить від даного джерела даних.

Нижче наведено дві основні реалізації архітектури Apache Spark:

1. Еластичні розподілені набори даних (RDD)

Він відповідає за надання API для кешування кешування та розділення. Це важливий набір інструментів для обчислення даних. Він допомагає в перерахунку елементів у разі відмов і вважається непорушними даними та діє як інтерфейс. Перетворення та дії - це дві операції, виконані RDD.

2. Спрямований ациклічний графік (DAG)

Він утворює послідовне з'єднання від одного вузла до іншого. Драйвер перетворює програму в DAG для кожного завдання. Екосистема Apache Spark має різні компоненти, такі як ядро API, Spark SQL, потокова обробка та обробка в режимі реального часу, MLIB та Graph X. Деякі термінології, які слід вивчити тут, - це оболонка Spark, яка допомагає читати великі обсяги даних, контекст Spark - скасувати, запустити роботу, завдання (робота), робота (обчислення)

Компоненти Apache Spark Architecture

Нижче наводяться чотири основні компоненти Spark, і їх необхідно зрозуміти для повних рамок.

Водій іскри
Виконавці
Менеджер кластерів
Робочі вузли

На наступній схемі представлена архітектура та компоненти іскри:

Рис .: Автономний режим архітектури Apache Spark

Потік виконання починається наступним чином:

1. Драйвер іскри

Відповідальність водія полягає в узгодженні завдань, а працівників - для управління. Це процес програми JVM і розглядається як головний вузол. Водій розбиває іскру на завдання та графіки виконання виконавців у кластерах. На схемі програми драйвера викликають основну програму та створюють іскровий контекст (виступає в якості шлюзу) колективно контролюють роботу, що працює в межах даного кластера, і підключаються до кластера Spark. Усі функції та команди виконуються через контекст іскри.

Іскровий контекст - це запис для кожного сеансу. Драйвер іскри має більше компонентів для виконання завдань у кластерах. Кластери іскри підключаються до різних типів менеджерів кластерів і одночасно контекст набуває робочих вузлів для виконання та зберігання даних. У кластері, коли ми виконуємо процес, їх завдання підрозділяється на етапи з етапами посилення на заплановані завдання.

2. Виконавець

Він відповідає за виконання завдання і зберігає дані в кеші. На самому початковому етапі виконавці реєструються у водіїв. Цей виконавець має ряд часових інтервалів для одночасного запуску програми. Виконавці виконують процес читання / запису на зовнішніх джерелах. Виконавець виконує завдання, коли він завантажив дані, і вони видаляються в режимі очікування. Виконавець увімкнено динамічним розподілом, і вони постійно включаються та виключаються залежно від тривалості. Під час виконання завдань виконавці контролюються водійською програмою. Виконавці виконують завдання користувачів у процесі Java.

3. Менеджер кластерів

Це допомагає в управлінні кластерами, які мають одного господаря і кількість рабів. Існує два типи менеджерів кластерів, такі як YARN та окремий, обидва вони управляються менеджером ресурсів та Node. робота кластера в автономному режимі вимагає використання Spark Master і вузла робочих як їх ролі. Відповідальність менеджера кластера - розподіляти ресурси та виконувати завдання,

4. Робочі вузли

Вони є рабовласницькими вузлами; головна відповідальність полягає у виконанні завдань, а вихід з них повертається назад до іскрового контексту. Вони спілкуються з головним вузлом про наявність ресурсів. Іскровий контекст виконує його і видає робочі вузли. Кожному робочому вузлу призначається по одному іскровому працівнику для моніторингу. Вони проводять обчислення дуже просто, збільшуючи вузли робітників (від 1 до п. Ні працівників), так що всі завдання виконуються паралельно шляхом поділу завдання на розділи на декілька систем. Інше елементне завдання вважається одиницею роботи і призначається одному виконавцю, для кожної іскри розбиття виконується одне завдання.

Висновок

Тому, розуміючи Apache Spark Architecture, це означає, як легко реалізувати великі дані. Зрештою, ми дізналися їхню доступність та роль компонентів, що дуже вигідно для кластерних обчислень та великих даних. Іскрові обчислення бажаних результатів простішим способом і переважніше при пакетній обробці

Відмінні функції Spark, такі як набори даних та фрейми даних, допомагають оптимізувати код користувачів. Така важлива функція, як SQL-движок, сприяє швидкості виконання та робить це програмне забезпечення універсальним. Тому ми бачили, що програми для іскр працюють локально або розповсюджуються в кластері. Apache Spark вважається чудовим доповненням у широкому спектрі галузей, як великі дані. Підводячи підсумок, іскра допомагає у вирішенні великих обчислювальних завдань.

Apache Spark Architecture - Діаграма архітектури та 4 компоненти

Зміст:

Вступ до архітектури іскри Apache