10 найважливіших запитань щодо інтерв'ю для даних (Оновлено на 2019 рік)

Зміст:

Anonim

Вступ до запитів та відповідей щодо інтерв'ю даних Data

Таким чином, ви нарешті знайшли роботу своєї мрії в Data Analytics, але цікавитесь, як зламати інтерв'ю Data Analytics 2019 та які можуть бути ймовірні запитання щодо інтерв'ю даних Analytics. Кожне інтерв'ю Data Analytics є різним, а сфера роботи також різна. Маючи це на увазі, ми розробили найпоширеніші запитання та відповіді щодо аналізу даних для того, щоб допомогти вам досягти успіху в інтерв'ю даних Analytics.

Нижче - найпопулярніші запитання щодо інтерв'ю у 2019 році, які в основному задаються в інтерв'ю

1. Чим відрізняється інтелектуальний аналіз даних та аналіз даних?

Відповідь:

Видобуток данихАналіз даних
Гіпотеза не потрібна для майнінгу данихАналіз даних починається з гіпотези.
Для обміну даними потрібні чіткі та добре задокументовані дані.Аналіз даних включає очищення даних.
Результати пошуку даних не завжди легко інтерпретувати.Аналітики даних інтерпретують результати та представляють їх зацікавленим сторонам.
Алгоритми передачі даних автоматично розробляють рівняння.Аналітики даних повинні розробити власні рівняння.

2. Згадайте, які є різні кроки в аналітичному проекті?

Відповідь:
Аналіз даних займається збором, очищенням, трансформацією та моделюванням даних для отримання цінних відомостей та підтримки кращого прийняття рішень в організації. Кроки, що беруть участь у процесі аналізу даних, наступні:

Дослідження даних - вивчивши бізнес-проблему, аналітик даних повинен проаналізувати першопричину проблеми.
Підготовка даних - На цьому етапі процесу аналізу даних ми виявляємо аномалії даних, як пропущені значення в даних.
Моделювання даних - Етап моделювання починається після того, як дані були підготовлені. Моделювання - це ітераційний процес, в якому модель повторно виконується для вдосконалення. Моделювання даних забезпечує найкращий можливий результат для бізнес-проблеми.
Валідація - На цьому кроці модель, що надається клієнтом, і модель, розроблена аналітиком даних, перевіряються одна проти одної, щоб з’ясувати, чи відповідає розроблена модель вимогам бізнесу.
Впровадження моделі та відстеження - на цьому останньому кроці впровадження моделі аналізу даних виконується і після цього слідкується, щоб переконатися, що модель реалізована правильно чи ні?

3.Яка відповідальність за аналітика даних?

Відповідь:
• Вирішити проблеми, пов'язані з бізнесом, для клієнтів та виконати операції з аудиту даних.
• Інтерпретувати дані, використовуючи статистичні методи.
• Визначте сфери для вдосконалення.
• Аналізувати, ідентифікувати та інтерпретувати тенденції чи закономірності у складних наборах даних.
• Придбати дані з первинних чи вторинних джерел даних.
• Ведення баз даних / систем даних.
• Знайдіть і виправте проблеми з кодом за допомогою показників продуктивності.
• Забезпечення бази даних шляхом розробки системи доступу.

4.Що таке зіткнення столу хеш? Як цього уникнути?

Відповідь:
Зіткнення хеш-таблиці відбувається, коли два різних ключі мають однакове значення. Існує багато методик уникнути зіткнення хеш-таблиць, тут ми перелічимо дві:
Окреме ланцюжок: вона використовує структуру даних, яка хешируется в одному слоті, для зберігання декількох елементів.
Відкрита адресація: вона шукає інші слоти за допомогою другої функції та зберігає елемент у першому порожньому слоті.

5. Перелік декількох найкращих інструментів, які можуть бути корисні для аналізу даних?

Відповідь:
• Tableau
• RapidMiner
• OpenRefine
• КНІМ
• Оператори пошуку Google
• Розв’язувач
• NodeXL
• іо
• Вольфрам Альфа
• Google Fusion Tables

6. Яка різниця між обробкою даних і профілюванням даних?

Відповідь:
Різниця між обробкою даних і профілюванням даних полягає в наступному -
• Профілювання даних: воно спрямоване на миттєвий аналіз окремих атрибутів, таких як варіювання цін, окрема ціна та їх частота, частота виникнення нульових значень, тип даних, довжина тощо.
• Обмін даними: фокусується на залежностях, виявленні послідовностей, проведенні зв’язків між декількома атрибутами, кластерному аналізі, виявленні незвичних записів тощо.

7. Поясніть K-середній алгоритм та ієрархічний алгоритм кластеризації?

Відповідь:
Алгоритм K-середнього значення - середнє значення K - відомий метод розподілу. У алгоритмі K-середнього кластера кластери сферичні, тобто точки даних кластера зосереджені на цьому кластері. Також дисперсія кластерів схожа, тобто кожна точка даних належить до найближчого кластеру
Ієрархічний алгоритм кластеризації - Ієрархічний алгоритм кластеризації поєднує та ділить існуючі групи та створює для них ієрархічну структуру для відображення порядку, в якому поділяються групи.

8.Що таке очищення даних? Згадайте кілька найкращих практик, яких потрібно дотримуватися під час очищення даних?

Відповідь:
З даного набору даних надзвичайно важливо сортувати інформацію, необхідну для аналізу даних. Очищення даних є важливим кроком, на якому дані перевіряються, щоб знайти будь-які аномалії, видалити повторювану та неправильну інформацію тощо. Очищення даних не передбачає видалення будь-якої наявної інформації з бази даних, вона просто підвищує якість даних, щоб її можна було використовувати для аналізу .
Деякі з найкращих методів очищення даних включають:
• Розробка плану якості даних, щоб визначити, де виникають максимальні помилки в якості даних, щоб ви могли оцінити першопричину та планувати відповідно до цього.
• Дотримуйтесь загальноприйнятого способу обґрунтування необхідної інформації, перш ніж вона буде введена до інформації.
• Визначте всі дублікати даних і підтвердіть точність даних, оскільки це заощадить багато часу під час аналізу.
• Відстеження всіх операцій із вдосконалення інформації, що виконуються на інформації, надзвичайно необхідне для того, щоб ви повторили або зняли будь-які операції за необхідності.

9.Які статистичні методи корисні для аналітика даних?

Відповідь:
Статистичні методи, корисні для вченого, є
• Байєсівський метод
• Марківський процес
• Просторові та кластерні процеси
• Статистика ранжування, процентиль, виявлення сторонніх
• техніка імпутації тощо.
• Простий алгоритм
• Математична оптимізація

10. Поясніть, що таке імпутація? Перерахуйте різні типи методів імпутації? Який метод імпутації є більш сприятливим?

Відповідь:
Під час імпутації ми маємо тенденцію замінювати відсутніх відомостей заміщеними значеннями. Види методів імпутації -
• Одномісна імпутація: Одинарна імпутація позначає, що відсутнє значення замінено на значення. У цьому способі отримують розмір вибірки.
• Імпутація гарячої колоди: відсутнє значення визначається з випадково вибраного аналогічного запису за допомогою перфокартки
• Імпутація холодної колоди: вона працює так само, як і імпутація гарячої колоди, але трохи більш досконала і вибирає донорів з інших наборів даних
• Середня імпутація: передбачає заміну відсутнього значення передбачуваними значеннями інших змінних.
• Імпутація регресії: передбачає заміну відсутнього значення передбачуваними значеннями певного значення залежно від інших змінних.
• Стохастична регресія: це те саме, що і імпутація регресії, однак вона додає загальної регресійної дисперсії до імпретації регресії
• Множинна імпутація: на відміну від одинарної імпутації, багаторазова імпутація оцінює значення багаторазово

Хоча одинарна імпутація широко використовується, вона не відображає невизначеність, яку створюють випадкові відсутні дані. Отже, множинні імпутації є більш сприятливими, ніж одна імпутація, якщо дані відсутні випадково.

Рекомендовані статті

Це був вичерпний посібник щодо запитів та відповідей щодо інтерв'ю даних, щоб кандидат міг легко розірвати ці запитання щодо інтерв'ю даних. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. 10 корисних спритних питань для інтерв'ю та відповідей
  2. 8 запитань щодо інтерв'ю з дивовижним алгоритмом
  3. 25 найважливіших питань інтерв'ю з інформатики
  4. 10 дивовижних запитань та відповідей щодо інтерв'ю інженера даних