8 найкращих інтерв'ю та запитання інженерів великих даних (оновлено на 2019 рік)

Ознайомлення з питаннями та відповідями на інтерв'ю Big Data

Усі види даних, що генеруються в Інтернеті, називаються великими даними, понад сотні ГБ даних генеруються в Інтернеті лише за допомогою онлайн-діяльності. Інтернет-діяльність, така як веб-активність, блоги, текстові, відео / аудіофайли, зображення, електронна пошта, активність у соціальних мережах. Для великих даних потрібні спеціалізовані системи та програмні засоби для обробки всіх неструктурованих даних. Дані, які можуть бути отримані в результаті цих заходів, називаються великими даними. Big Data повністю широкі та розповсюджуються через Інтернет, і, таким чином, обробка великих даних потребує розподілених систем та інструментів для отримання інформації з них.

Нижче наведено декілька важливих запитань та відповідей щодо інтерв'ю Big Big 2019:

Якщо ви шукаєте роботу, пов’язану з Big Data, вам потрібно підготуватися до питань інтерв'ю Big Data 2019 року. Незважаючи на те, що кожне інтерв'ю з Big Data відрізняється, а сфера роботи також різна, ми можемо допомогти вам у вирішенні питань та відповідей щодо інтерв'ю з Big Data, які допоможуть вам скокнути та досягти успіху в інтерв'ю Big Data.

Ці питання поділяються на дві частини:

Частина 1 - Питання щодо інтерв'ю з великими даними (основні)

Ця перша частина охоплює основні питання та відповіді щодо інтерв'ю Big Data

1. У чому полягає значення великих даних і чим вони відрізняються?

Відповідь:
Великі дані - це термін, який представляє всі види даних, що генеруються в Інтернеті. В Інтернеті понад сотні ГБ даних генеруються лише за допомогою онлайн-активності. Тут інтернет-діяльність передбачає веб-активність, блоги, текстові, відео / аудіофайли, зображення, електронну пошту, активність у соціальних мережах тощо. Великі дані можна назвати даними, створеними від усіх цих заходів. Дані, що генеруються в Інтернеті, переважно в неструктурованому вигляді. Великі дані також включатимуть дані транзакцій у базі даних, файли системного журналу, а також дані, генеровані з розумних пристроїв, таких як датчики, IoT, теги RFID тощо, на додаток до онлайн-діяльності.
Для великих даних потрібні спеціалізовані системи та програмні засоби для обробки всіх неструктурованих даних. Насправді, за деякими оцінками галузі, майже 85% даних, створених в Інтернеті, є неструктурованими. Зазвичай реляційні бази даних мають структурований формат, а база даних централізована. Отже, обробку RDBMS можна швидко здійснити за допомогою мови запитів, такої як SQL. З іншого боку, великі дані дуже великі і розповсюджуються через Інтернет, а отже для обробки великих даних знадобляться розподілені системи та інструменти для отримання інформації з них. Для великих даних потрібні спеціалізовані інструменти, такі як Hadoop, Hive або інші, а також високопродуктивне обладнання та мережі для їх обробки.

2. Які характеристики великих даних?

Відповідь:
Великі дані мають три основні характеристики: гучність, різноманітність та швидкість.
Об'ємна характеристика відноситься до розміру даних. Оцінки показують, що щодня генерується понад 3 мільйони ГБ даних. Обробка цього обсягу даних неможлива в звичайному персональному комп’ютері або в мережі клієнт-сервер в офісному середовищі з обмеженою пропускною здатністю обчислювальної мережі та можливостями зберігання. Однак хмарні сервіси пропонують рішення для обробки великих обсягів даних та їх ефективного опрацювання за допомогою розподілених обчислювальних архітектур.
Характер різноманітності відноситься до формату великих даних - структурованих або неструктурованих. Традиційні RDBMS вписуються в структурований формат. Прикладом неструктурованого формату даних є формат відеофайлів, файли зображень, звичайний текстовий формат, з веб-документа або стандартних документів MS Word, усі мають унікальні формати тощо. Зауважимо також, що RDBMS не має можливості обробляти неструктуровані формати даних. Крім того, всі ці неструктуровані дані повинні бути згруповані та консолідовані, що створює потребу в спеціалізованих інструментах та системах. Крім того, нові дані додаються щодня або щохвилини, і дані постійно зростають. Отже, великі дані є синонімом різноманітності.
Характеристика швидкості стосується швидкості створення даних та ефективності, необхідної для обробки всіх даних. Наприклад, Facebook отримує доступ до понад 1, 6 мільярдів користувачів за місяць. Так само є й інші веб-сайти соціальних мереж, YouTube, служби Google тощо. Такі потоки даних повинні оброблятися за допомогою запитів у режимі реального часу та зберігатись без втрати даних. Таким чином, характеристика швидкості важлива при обробці великих даних.
Крім того, інші характеристики включають правдивість та цінність. Достовірність визначатиме надійність та надійність даних, а цінність - значення, отримане організаціями при обробці великих даних.

Перейдемо до наступних великих запитань щодо інтерв'ю

3. Чому великі дані важливі для організацій?

Відповідь:
Це основне питання щодо інтерв'ю Big Data, задане в інтерв'ю. Великі дані важливі, оскільки, обробляючи великі дані, організації можуть отримувати детальну інформацію, що стосується:
• Зниження витрат
• Покращення продуктів чи послуг
• Розуміння поведінки клієнтів та ринків збуту
• Ефективне прийняття рішень
• стати більш конкурентоспроможною

4. Назвіть деякі інструменти чи системи, що використовуються при обробці великих даних?

Відповідь:
Обробку та аналіз великих даних можна здійснити за допомогою,
• Hadoop
• Вулик
• Свиня
• Махут
• Флюм

Частина 2 - Питання щодо інтерв'ю з великими даними (розширено)

Давайте тепер подивимось на передові питання щодо інтерв'ю з великими даними.

5. Як організації, що підтримують великі дані?

Відповідь:
Великі дані мають потенціал для підтримки організацій багатьма способами. Інформація, витягнута з великих даних, може використовуватися в,
• Краща координація з клієнтами та зацікавленими сторонами та вирішення проблем
• Покращити звітність та аналіз покращення продукту чи послуги
• Налаштувати продукти та послуги на обраних ринках
• Забезпечити кращий обмін інформацією
• Підтримка у прийнятті управлінських рішень
• Визначте нові можливості, ідеї продуктів та нові ринки
• Зберіть дані з декількох джерел та заархівуйте їх для подальшого використання
• Ведення баз даних, систем
• Визначення показників ефективності
• Розуміти взаємозалежності між функціями бізнесу
• Оцініть результативність діяльності організації

6. Поясніть, як великі дані можуть бути використані для збільшення вартості бізнесу?

Відповідь:
Розуміючи потребу в аналізі великих даних, такий аналіз допоможе бізнесу визначити своє становище на ринках, а також допоможе бізнесу диференціюватися від своїх конкурентів. Наприклад, за результатами аналізу великих даних організації можуть зрозуміти потребу в індивідуальних продуктах або зрозуміти потенційні ринки у напрямку збільшення доходу та вартості. Аналіз великих даних передбачає групування даних з різних джерел, щоб зрозуміти тенденції та інформацію, що стосується бізнесу. Коли аналіз великих даних проводиться плановим шляхом, збираючи дані з потрібних джерел, організації можуть легко створювати цінність та дохід бізнесу майже на 5% до 20%. Деякі приклади таких організацій - Amazon, Linkedin, WalMart та багато інших.

Перейдемо до наступних великих запитань щодо інтерв'ю

7. Що таке реалізація рішення для великих даних?

Відповідь:
Великі рішення даних реалізуються спочатку в невеликих масштабах, спираючись на концепцію, що відповідає бізнесу. З результату, який є прототипним рішенням, бізнес-рішення масштабується далі. Це найпопулярніші запитання щодо інтерв'ю Big Data, задані в інтерв'ю Big Data. Деякі з найкращих практик, яких слід застосовувати у цій галузі, включають:
• мати чіткі цілі проекту та співпрацювати, де це необхідно
• Збір даних з правильних джерел
• Слідкуйте за тим, щоб результати не були скошені, оскільки це може призвести до неправильних висновків
• Будьте готові до інновацій, розглядаючи гібридні підходи в обробці, включаючи дані структурованих та неструктурованих типів, включаючи як внутрішні, так і зовнішні джерела даних
• Розуміти вплив великих даних на існуючі інформаційні потоки в організації

8. Які кроки пов'язані з рішеннями великих даних?

Відповідь:
Рішення з великими даними виконують три стандартні кроки в його реалізації. Вони є:
Введення даних: на цьому кроці буде визначено підхід до отримання та консолідації даних із багатьох джерел. Наприклад, джерелами даних можуть бути канали соціальних мереж, CRM, RDBMS тощо. Дані, витягнуті з різних джерел, зберігаються в розподіленій файловій системі Hadoop (HDFS).
Зберігання даних: Це другий крок, витягнуті дані зберігаються. Це сховище може бути у форматі HDFS або HBase (база даних NoSQL).
Обробка даних: Це останній крок. Збережені дані повинні бути оброблені. Обробка проводиться за допомогою таких інструментів, як Spark, Pig, MapReduce та інші.