Вступ до питань інтерв'ю на базі даних та відповідей

HBase - популярна система управління базами даних NoSQL, орієнтована на стовпці, яка працює на вершині розподіленої файлової системи Hadoop (HDFS). Він добре підходить для розріджених наборів даних, які часто зустрічаються у багатьох випадках використання великих даних.

Ось топ-10 найбільш запитуваних запитань та відповідей щодо інтерв'ю HBase у 2019 році. Отже, ви нарешті знайшли роботу своєї мрії в HBase, але цікавитесь, як зламати інтерв'ю Hbase та що може бути можливим питанням інтерв'ю Hbase 2019. Кожне інтерв'ю різне, а сфера роботи теж різна. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді на інтерв'ю Hbase, щоб допомогти вам досягти успіху в інтерв'ю. Ці питання поділяються на дві частини:

Частина 1 - Запитання щодо інтерв'ю HBase (основні)

Ця перша частина стосується основних питань інтерв'ю HBase та відповідей.

1. Коли слід використовувати HBase?

Відповідь:
Hbase не підходить для всіх випадків використання. Найкращий сценарій можна визначити за допомогою наступних перевірок -
i.Data volume: повинен мати петабайт даних для обробки в розподіленому середовищі.
ii.Прикладення: HBase не підходить для систем OLTP (он-лайн обробка транзакцій), які потребують складних транзакцій з декількома операторами. Також не вистачає складної підтримки SQL, необхідної для реляційної аналітики. Він вважається кращим, коли у вас є величезна кількість даних з трохи інша схема.
iii.Кластерне обладнання: HBase працює поверх HDFS. І HDFS ефективно працює з великою кількістю вузлів (мінімум 5). Таким чином, HBase може бути хорошим вибором лише при хорошій апаратній підтримці.
iv.Not Traditional RDBMS: Hbase не може підтримувати жодний випадок використання, який вимагає традиційних функцій, таких як Об'єднання декількох таблиць, Складні SQls з вкладеними або віконними функціями тощо.
v. Швидкий випадковий доступ до даних: Якщо вам потрібен випадковий та доступ у реальному часі до ваших даних, то HBase є відповідним кандидатом. Це також ідеально підходить для зберігання великих таблиць із багатоструктурними даними.

2. Чим відрізняється Кассандра від HBase?

Відповідь:
І HBase, і Кассандра розповсюдили базу даних NoSQL для великих даних з екосистеми Hadoop. Обидва побудовані для різних випадків використання.
HBase має своєрідну архітектуру майстер-підлеглого з декількома компонентами, такими як Zookeeper, Namenode, HBase Master (Hmaster) та Data Data вузли тощо. Cassandra розглядає всі вузли як господарів, що означає, що всі вузли рівні і виконують усі функції.
HBase оптимізовано для читання, запис відбувається лише у головний вузол і має міцну послідовність для читання після запису. Кассандра має чудову однорядну читання, якщо обрана можлива послідовність.
Hbase не підтримує спочатку вторинні індекси, Cassandra підтримує вторинні індекси для сімей колонок, де відома назва стовпця.
Спочатку Hbase створений в Google, і вони назвали його BigTable. Навіть зараз API Bigtable та HBase сумісні. Походження Кассандри - це документ для DynamoDB, який є базою даних NoSQL від AWS.

Перейдемо до наступних питань щодо інтерв'ю HBase.

3. Які основні компоненти Hbase?

Відповідь:
HBase a має три важливі компоненти - HMaster, Region Server та ZooKeeper.
i.HBase Master - таблиці HBase поділяються на регіони. Під час запуску Master вирішує, яку область призначити серверу регіону (сервер регіону буде вузлом у кластері). Він також обробляє операції з метаданими таблиці, як створити або змінити схему. Цей компонент також відіграє важливу роль у відновленні відмов
ii. Регіональний сервер - Як було сказано вище, саме тут відбувається фактичне записування та читання даних. Це фактичні вузли кластера. Це матиме регіони багатьох таблиць, про що вирішується, починаючи та закінчуючи ключі рядків. Типовий сервер регіонів може обслуговувати до тисячі регіонів
iii.ZooKeeper - ZooKeeper - це система координації кластерів, широко використовується в екосистемі Hadoop. Zookeeper відслідковує всі сервери (майстерні та регіональні сервери), наявні в кластерних контактах HMaster ZooKeeper, і повідомлення видаються у випадку помилок.

4. Що таке HBase Bloom Filter?

Відповідь:
Це поширені запитання щодо інтерв'ю HBase, задані в інтерв'ю. Фільтр HBase Bloom - це ефективний механізм перевірити, чи зберігається файл зберігання (Коли щось записується в HBase, він спочатку записується в сховище пам'яті, як тільки ця пам’ятка досягає певного розміру, її передають на диск у файл зберігання ) містить певний рядок або комірку рядків-комірок. Зазвичай єдиний спосіб визначити, чи є ключ рядка у файлі магазину, - це перевірити індекс блоку файлу, у якому є початковий ключ рядка кожного блоку у файлі магазину. Фільтри Bloom діють як структура даних в пам'яті, що допомагає зменшити зчитування диска лише до тих файлів, які, можливо, містять цей рядок. Не всі файли зберігають. Таким чином, він діє як індекс пам'яті, що вказує на ймовірність знайти рядок у певному файлі магазину.

5. Що таке ущільнення? Поясніть різні його типи.

Відповідь:
HBase зберігає всі отримані операції в пам’яті пам’яті пам’яті. Коли буфер пам'яті заповнений, він передається на диск. Оскільки це може створити багато невеликих файлів у форматі HDFS, час від часу HBase може вибирати файли для ущільнення разом у більший. Ущільнення називається мінорним, коли HBase вибирає лише деякі HFiles для ущільнення, але не всі. При великому ущільненні всі файли обираються для ущільнення разом. Основне ущільнення працює як незначне, за винятком того, що маркери видалення можна видалити після того, як вони будуть застосовані до всіх пов’язаних комірок, і всі додаткові версії тієї ж комірки також будуть скинуті.

Частина 2 - Питання щодо інтерв'ю HBase (розширено)

Давайте тепер ознайомимось із розширеними питаннями інтерв'ю HBase.

6.Які дані версії HBase?

Відповідь:
Коли фрагмент даних буде вставлено / оновлено / видалено, HBase створить нову версію для цього стовпця. Фактичне видалення відбувається лише під час ущільнення. Якщо певна комірка перевищила кількість дозволених версій, додаткові версії будуть упущені під час ущільнення

7. Чим відрізняється отримання та сканування?

Відповідь:
Get поверне лише один рядок із таблиці Hbase на основі заданого ключа рядка. Команда сканування повертає набір рядків залежно від заданої умови пошуку. Зазвичай отримати швидше, ніж сканування. Тому слід вважати за краще використовувати це, якщо можливо.

Перейдемо до наступних питань щодо інтерв'ю HBase.

8. Що відбувається при видаленні рядка?

Відповідь:
На момент видалення дані команд фізично не видаляються з файлової системи, а робляться невидимими, встановлюючи маркер. Фізичне видалення відбувається під час ущільнення
Маркери для видалення стовпців, версій та сім'ї - це три різні типи маркерів, які позначають видалення відповідно стовпця, версії та сімейства стовпців.

9. Поясніть різницю між HBase та вуликом.

Відповідь:
Це розширене запитання щодо інтерв'ю HBase, задане в інтерв'ю. HBase та Hive - це абсолютно різні технології на основі Hadoop для обробки даних. Hive - це реляційна система розподіленого зберігання, схожа на SQL, в той час як HBase - це зберігання ключових значень NoSQL. Hive діє як шар абстракції на вершині Hadoop з підтримкою SQL. Шаблон доступу до даних HBase дуже обмежений двома основними операціями - отримання та сканування. HBase ідеально підходить для обробки даних у режимі реального часу, де Hive - ідеальний вибір для пакетної обробки даних.

10. Що таке Hlog і HFile?

Відповідь:
HLog - це файл журналу випередження запису, також відомий як WAL, а HFile - це файл реального зберігання даних. Дані спочатку записуються у файл журналу попереднього запису, а також записуються у MemStore. Після того, як MemStore заповнений, вміст MemStore передається на диск у HFiles.

Рекомендована стаття

Це посібник для списку запитань та відповідей на інтерв'ю Hbase, щоб кандидат міг легко розбити ці запитання щодо інтерв'ю Hbase. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Корисні питання групового інтерв'ю
  2. Важливі основні поради щодо інтерв'ю
  3. Основні кроки для інтерв'ю Підготовка
  4. Питання для інтерв'ю, щоб задати кандидата з фінансів