Вступ до запитань та відповідей щодо інтерв'ю інженера даних

Інженерія даних - це термін, коли всі це знають і є досить популярним у галузі Big Data. Інженерія даних стосується інфраструктури даних або архітектури даних. Сирі дані, згенеровані з різних джерел, таких як соціальні медіа, мобільні телефони, www (Інтернет), повинні бути перетворені, очищені, профільовані та об'єднані для потреб бізнесу. Ці необроблені дані також називають темними даними. Практика проектування, архітектури та впровадження системи обробки даних допомагає перетворити дані у частину відповідної інформації або набору даних, таку інформацію чи набір даних називають Data Engineering.

Нижче наводиться перелік питань та відповідей на інтерв'ю Інженера даних 2019 року:

Якщо ви шукаєте роботу, пов’язану з Data Engineer, вам потрібно підготуватися до питань інтерв'ю Data Engineer на 2019 рік. Незважаючи на те, що всі запитання щодо співбесіди з інженером даних є різними, а сфера роботи також відрізняється, ми можемо допомогти вам у вирішенні найвищих запитань щодо співбесіди з інженером даних з відповідями, які допоможуть вам скочити та досягти успіху в інтерв'ю з Data Engineer.

1. Що таке інженерія даних?

Відповідь:
Інжиніринг даних - це досить популярний термін у галузі великих даних, який в основному стосується інфраструктури даних або архітектури даних.
Дані, згенеровані багатьма джерелами, такими як соціальні медіа, мобільні телефони, www (Інтернет), є необгрунтованими даними. Її потрібно перетворити, очистити, профілювати та об'єднати для потреб бізнесу. Ми можемо називати ці необроблені дані темними даними, на яких ми будемо світити світло, щоб зробити ці Темні дані корисними. Практика проектування, архітектури та впровадження системи обробки даних, яка допоможе перетворити дані на корисну інформацію, називається Data Engineering.

2. Поясніть щоденну роботу інженера даних?

Відповідь:
Щоденна робота інженера даних складається з:
а. поводження з управлінням даними в організації
б. поводження та підтримка вихідних систем даних та області постановки
c. виконання ETL або ELT та перетворення даних
г. спрощення очищення даних та покращення дедублювання та збирання даних
е. збирання та вилучення спеціальних запитів даних
Дивіться нижче візуалізацію, що інформує про те, над чим працює інженер даних: -

3. У вас є досвід моделювання даних?

Відповідь:
Можна сказати, що він / вона працював над проектом для клієнта з фінансів / медичного страхування, де вони використовували інструменти ETL, такі як Informatica / Talend / Pentaho тощо, щоб трансформувати та обробляти дані, отримані з бази даних MySQL / RDS / SQL, і надсилає передайте цю інформацію постачальникам, що може допомогти збільшити їх дохід. Нижче можна показати архітектуру моделі даних високого рівня. Він складається з первинного ключа, сутності, атрибутів, відносин, обмежень тощо.

4. Які існують різні типи схем проектування в моделюванні даних? Поясніть з прикладом?

Відповідь:
Існує два типи схем моделювання даних:
а. Зіркова схема
Ця схема розділена на дві: одна - таблиця фактів, а інша - таблиця розмірів, де всі таблиці розмірів підключені до таблиці фактів. Таблиця зовнішнього ключа насправді стосується первинних ключів, присутніх у розмірних таблицях. Дивіться нижче архітектуру зіркової схеми:

б. Сніжинка схема
У цій схемі рівень нормалізації підвищений, тут таблиця фактів залишатиметься такою ж, як і у зіркової схеми, тут нормалізовані таблиці розмірів. Через багато шарів розмірних таблиць це схоже на сніжинку, таким чином, називається схема сніжинки. Дивіться нижче архітектуру: -

5. Який інструмент ETL ви використовуєте і як це найкраще порівняти з іншими?

Відповідь:
Можна сказати, що він / вона використовував Informatica як інструмент ETL через багато пунктів, насамперед, це те, що відповідно до магічного квадранта Gartner для засобів інтеграції даних Informatica позиціонується як лідер уже 10-й рік поспіль. Він простий у використанні та вивченні та має функції для підключення до різного різноманіття вихідних даних та типів даних, повторно використовуваних компонентів та функцій, які роблять його найбільш улюбленим для розробників ETL. У нього також є власний планувальник, що є ще однією перевагою, коли інші інструменти ETL повинні використовувати зовнішній планувальник для планування завдань.

6. Якими технологіями / мовою програмування слід володіти / Навчіться бути інженером даних?

Відповідь:
Математика (лінійна алгебра та ймовірність)
Статистика (зведена статистика)
Методи машинного навчання
R та мови SAS
Бази даних SQL, Hive QL
Python (в основному використовується)
Крім них, слід мати проблеми розв’язання проблем, аналітичні та архітектурні бази даних.

7. З якими поширеними проблемами стикаються інженери даних?

Відповідь:
1. Інтеграція в режимі реального часу / Постійна інтеграція
2. Зберігання величезної кількості даних - це одне питання, інформація з цих даних - інша.
3. Які інструменти можна використовувати, які дадуть найкращі показники продуктивності, зберігання, ефективність та результати.
4. Чи масштаби зберігання? Припустимо, як знати, що на обробку всього набору даних триватиме час?
5. Враховуючи процесори та конфігурацію оперативної пам’яті
6. Як боротися з відмовами, є відмовостійкість чи ні?

8. Чим архітектор даних відрізняється від Data Engineer?

Відповідь:
Архітектор даних - це людина, яка керує даними, особливо коли справа стосується різної кількості різноманітних джерел даних. Слід мати глибокі знання про те, як працює база даних, як дані стосуються бізнес-проблем та як зміни будуть порушувати використання даних організації, і тоді архітектор даних буде маніпулювати / перетворювати архітектуру даних відповідно до них.
Основним обов'язком архітектора даних є робота зі зберіганням даних, розробкою архітектури даних або корпоративним центром / сховищем даних.
В той час як інженер даних допомагає встановити рішення для зберігання даних, моделювання даних, розробку та тестування архітектури баз даних.

9. Опишіть час, коли ви знайшли новий випадок використання для існуючої бази даних, який позитивно вплинув на бізнес?

Відповідь:
Хоча в епоху великих даних, які мають SQL, не вистачить нижче функцій:
а. RDBMS - це схематично орієнтована БД, тому краще для структурованих даних, а не для напівструктурованих або неструктурованих даних.
б. Не в змозі обробити непередбачувані та неструктуровані дані.
c. Це не горизонтально масштабується, тобто паралельне виконання та зберігання неможливо в SQL.
г. Він страждає від проблеми продуктивності, коли кількість користувачів збільшується.
е. В основному використовується для он-лайн обробки транзакцій.

Щоб подолати ці недоліки, ми можемо використовувати NoSQL DB, тобто не тільки SQL.
Отже, у проекті можна використовувати різні типи NoSQL DB, такі як Cassandra, Mongo DB, Graph DB, HBase тощо.

10. У вас є досвід роботи в умовах хмарних обчислень? Які переваги ви бачите, працюючи в одному?

Відповідь:
Можна сказати, що "Cloud Computing Environment" готова зрушити середовище для виробництва, розробки та тестування, не думаючи інтегрувати багато екземплярів / Linux / windows серверів разом. На такому ринку є різні послуги хмарних обчислень, такі як AWS (веб-сервіси Amazon), Azure (Microsoft), GCP (Google Cloud Platform). Служба хмарних обчислень надає нижче такі функції, як гнучкість, тобто навколишнє середовище збільшуватиметься відповідно до вимог, відновлення після аварій, створюючи резервні копії та знімки, працюйте з будь-якого місця з VPN, безпечним середовищем та екологічно чистим, оскільки це працює на товарному обладнання, тобто комп'ютерах загального призначення, які мають низьку вартість.

Висновок

У вищенаведеному блозі ми зберегли найбільш задані питання щодо інтерв'ю щодо Data Engineer, і як можна відповісти на це, наводячи моменти.

Рекомендована стаття:

Це було вичерпним посібником з питань інтерв'ю з інженером даних, щоб кандидат міг легко розірвати ці запитання щодо інтерв'ю з інженером даних. Ця стаття складається з усіх найпопулярніших запитань та відповідей інтерв'ю Data Engineer. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Найважливіший Лазурний Паас проти Іааса
  2. Питання для інтерв'ю Big Data
  3. 5 найважливіших запитань про співбесіду з еластичного дослідження
  4. Питання та відповіді щодо інтерв'ю PIG
  5. Топ-5 найцінніших запитань щодо інтерв'ю щодо даних