Питання для інтерв'ю іскри - 12 актуальних питань, оновлених на 2018 рік

Зміст:

Anonim

Вступ до іскрових питань інтерв'ю та відповідей

Apache Spark - це структура з відкритим кодом. Іскра, оскільки це платформа з відкритим кодом, ми можемо використовувати декілька мов програмування, такі як java, python, Scala, R. У порівнянні з продуктивністю процесу Map-Reduce, іскра допомагає підвищити продуктивність виконання. Він також забезпечує в 100 разів швидше виконання пам'яті, ніж Map-Reduce. Через потужність переробки іскри в даний час промисловості віддають перевагу іскрі.

Отже, ви нарешті знайшли роботу своєї мрії у Spark, але цікавитесь, як зламати інтерв'ю з іскрами та що може бути імовірним питанням інтерв'ю Spark на 2018 рік. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді щодо іскрового інтерв’ю за 2018 рік, щоб допомогти вам досягти успіху в інтерв’ю.

Ці питання розділені на дві частини

Частина 1 - Іскрові питання інтерв'ю (основні)

Ця перша частина охоплює основні запитання та відповіді щодо інтерв'ю Spark

1. Що таке іскра?

Відповідь:
Apache Spark - це структура з відкритим кодом. Це покращує ефективність виконання, ніж процес зменшення карт. Це відкрита платформа, де ми можемо використовувати декілька мов програмування, таких як Java, Python, Scala, R. Spark забезпечує виконання пам'яті в 100 разів швидше, ніж зменшення карт. Тут використовується концепція RDD. RDD - це стійкий розподілений набір даних, який дозволяє прозоро зберігати дані в пам'яті та зберігати їх на диску, лише якщо це потрібно. Саме тут це скоротить час доступу до даних із пам'яті замість диска. Сьогодні промисловість надає перевагу іскрі через її технологічну потужність.

2.Різниця між Hadoop і Spark?

Відповідь:

Критерії особливостіApache SparkHadoop
ШвидкістьУ 10 до 100 разів швидше, ніж у HadoopНормальна швидкість
ОбробкаПакетна обробка в режимі реального часу, Пам'ять, КешуванняТільки пакетна обробка, залежно від диска
СкладністьЛегко через модулі високого рівняСкладно вчитися
ВідновленняДозволяє відновити розділи за допомогою RDDВідмовні
ІнтерактивністьМає інтерактивні, інтерактивні режимиНемає інтерактивного режиму, крім Pig & Hive, Немає ітеративного режиму

Нормальна архітектура Hadoop дотримується основного зменшення карт. Для цього ж процесу іскра забезпечує виконання пам'яті. Замість того, щоб читати і записувати з жорсткого диска для Map-Reduce, іскри забезпечують читання-запис із віртуальної пам'яті.

Перейдемо до наступних іскрових інтерв'ю-запитань

3. Які особливості іскри?

Відповідь:

  1. Забезпечте інтеграцію за допомогою Hadoop та файлів на HDFS. Іскра може працювати на вершині Hadoop, використовуючи кластеризацію ресурсів YARN. Spark має можливість замінити двигун Hadoop Map-Reduce.
  2. Polyglot: Spark Забезпечте API високого рівня для Java, Python, Scala та R. Spark Code можна писати будь-якою з цих чотирьох мов. IT забезпечує незалежну оболонку для масштабу (мовою, на якій написано Spark) та інтерпретатор пітона. Що допоможе взаємодіяти з іскровим двигуном? До оболонки Scala можна отримати доступ через ./bin/spark-shell та оболонку Python через ./bin/pyspark з встановленого каталогу.
  3. Швидкість: Іскровий двигун в 100 разів швидше, ніж Hadoop Map-Reduce для масштабної обробки даних. Швидкість буде досягнута за допомогою розділення для паралелізації розподіленої обробки даних з мінімальним мережевим трафіком. Іскрозабезпечити RDD (стійкі розподілені набори даних), які можна кешувати через обчислювальні вузли в кластері
  4. Кілька форматів: Spark має API джерела даних. Це забезпечить механізм доступу до структурованих даних через іскру SQL. Джерелами даних може бути будь-що, Spark просто створить механізм для перетворення даних і підтягування до іскри. Spark підтримує безліч джерел даних, таких як Hive, HBase, Cassandra, JSON, Parquet, ORC.
  5. Spark пропонує деякі вбудовані бібліотеки для виконання декількох завдань з одного ядра, таких як пакетна обробка, Steaming, машинне навчання, інтерактивні запити SQL. Однак Hadoop підтримує лише пакетну обробку. Spark Забезпечте MLIb (бібліотеки машинного навчання), які будуть корисні для розробника Big-Data для обробки даних. Це допомагає зняти залежності від кількох інструментів для різних цілей. Spark забезпечує загальну потужну платформу для інженерів даних та науковців даних, які мають як швидкі показники, так і прості у користуванні.
  6. Apache Spark затримує виконання процесу до необхідності дії. Це одна з ключових особливостей іскри. Іскра додасть кожне перетворення в DAG (Direct Acyclic Graph) для виконання, і коли дія хоче виконати, вона фактично запустить DAG для обробки.
  7. Потокове передавання в режимі реального часу : Apache Spark Забезпечує обчислення в режимі реального часу та низьку затримку через виконання в пам'яті. Spark розроблений для великих масштабованих можливостей, як тисяча вузлів кластера та декілька моделей для обчислень.

4. Що таке Пряжа?

Відповідь:
Це основні іскрові запитання щодо інтерв'ю, задані в інтерв'ю. ПРАВА (ще один переговорник ресурсів) - менеджер ресурсів. Spark - це платформа, яка забезпечує швидке виконання. Spark використовуватиме YARN для виконання завдання кластеру, а не власному вбудованому менеджеру. Для запуску Пряжі є кілька конфігурацій. Вони включають головний, режим розгортання, пам'ять драйвера, пам'ять виконавця, сердечники виконавця та чергу. Це загальні питання щодо іскрового інтерв'ю, які задаються в інтерв'ю нижче, - це переваги іскри:

Переваги іскри над зменшенням карт

Іскра має переваги перед зменшенням карт на наступному: -
Через здатність процесу в пам'яті Spark в змозі виконати від 10 до 100 разів швидше, ніж Map-Reduce. Де зменшення карт можна використовувати для збереження даних на етапі "Карта" та "Зменшити".

Apache Spark забезпечує високий рівень вбудованих бібліотек для обробки декількох завдань одночасно з пакетною обробкою, потоковою передачею в реальному часі, Spark-SQL, Структурованою потоковою передачею, MLib та ін. Hadoop забезпечує лише пакетну обробку.
Процес Hadoop Map-Reduce буде залежати від диска, де Spark забезпечує кешування та пам'ять.

Spark має як ітераційний, виконувати кілька обчислень на одному і тому ж наборі даних, так і інтерактивний, виконувати обчислення між різними наборами даних, де Hadoop не підтримує ітеративних обчислень.

5. Яку мову підтримує Spark?

Відповідь:
Іскра підтримка Scala, Python, R та Java. На ринку розробник великих даних переважно віддає перевагу scala та python. Для масштабування для складання коду нам потрібно Встановити шлях до каталогу масштабу / бін або створити файл jar.

6. Що таке RDD?

Відповідь:
RDD - це абстракція стійкого розподіленого набору даних, яка забезпечує набір елементів, розподілених по всіх вузлах кластеру, що допоможе виконувати кілька процесів паралельно. Використовуючи розробник RDD, можна зберігати дані в пам'яті або кешування, щоб їх ефективно використовувати для паралельного виконання операцій. RDD можна легко відновити після відмови вузла.

Частина 2 - Іскрові питання інтерв'ю (розширено)

Давайте тепер ознайомимось із розширеними питаннями інтерв'ю Spark.

7. Які чинники відповідають за виконання Іскри?

Відповідь:
1. Іскра забезпечує виконання в пам'яті замість дискової залежності, як Hadoop Map-Reduce.
2. Напружений розподілений набір даних RDD, який є відповідальним паралельним виконанням декількох операцій на всіх вузлах кластера.
3. Іскра забезпечує спільну змінну функцію для паралельного виконання. Ці змінні допомагають зменшити передачу даних між вузлами та ділити копію всіх вузлів. Є дві змінні.
4.Broadcast змінна: Ця змінна може бути використана для кешування значення в пам'яті на всіх вузлах
5. Змінна накопичувача: Ця змінна лише "додається" до таких, як лічильники та суми.

8. Що таке пам'ять виконавця?

Відповідь:
Це найчастіші запитання щодо іскрових інтерв'ю в інтерв'ю. Це розмір купи, призначений для виконавця іскри. Цю властивість можна керувати властивістю spark.executor.memory прапора –executor-memory. Кожна програма Spark має по одному виконавцю для кожного робочого вузла. Це властивість позначає, скільки пам'яті робочих вузлів буде виділено для програми.

9. Як ви користуєтеся іскровим потоком? Поясніть один випадок використання?

Відповідь:
Іскровий потік - одна з особливостей, корисних для справ у реальному часі. Для цього ми можемо використовувати флюм, Кафку з іскрою. Flume запустить дані з джерела. Кафка збереже дані в темі. З Kafka Spark буде витягувати дані за допомогою потоку, і він буде D-потоком даних та здійснювати перетворення.

Ми можемо використовувати цей процес для підозрілих транзакцій у реальному часі, пропозицій у режимі реального часу тощо.

Перейдемо до наступних іскрових інтерв'ю-запитань

10. Чи можемо ми використовувати Spark для процесу ETL?

Відповідь:
Так, ми можемо використовувати іскрову платформу для процесу ETL.

11. Що таке іскра SQL?

Відповідь:
Це один спеціальний компонент іскри, який підтримуватиме запити SQL.

12. Що таке лінива оцінка?

Відповідь:
Коли ми працюємо з іскрою, Перетворення не оцінюються, поки ви не виконаєте дію. Це допомагає оптимізувати загальний робочий процес з обробки даних. При визначенні трансформації він буде доданий до DAG (Direct Acyclic Graph). І в час дії він почне виконувати поетапні перетворення. Це корисне Spark Interview Question, задане в інтерв'ю.

Рекомендована стаття

Це посібник для списку іскрових запитань та відповідей, щоб кандидат міг легко розправити ці іскрові інтерв'ю. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Java проти Node JS спрощує відмінності
  2. Питання щодо інтерв'ю бази даних Mongo | Корисні та найбільш запитувані
  3. 15 найуспішніших запитань та відповідей на інтерв'ю
  4. Питання та відповіді Perl для співбесіди
  5. Питання щодо інтерв'ю щодо системи SAS - 10 найкращих корисних питань