Вступ до Data Lake проти сховища даних

Data Lake vs Data Warehouse - це терміни, які взаємозамінно використовуються, але між цими цими термінами є відмінності. Ми представили нижченаведену діаграму, щоб зрозуміти різницю на високому рівні між цими двома, і дуже скоро ми детально розглянемо кожну з них.

Що таке озеро даних?

Data Lake - це своєрідне сховище сховища, яке складається лише з необроблених даних у формі структурованого, напівструктурованого та неструктурованого формату. Озеро даних в основному використовується науковцями даних та інженерами машинного навчання, оскільки це допомагає їм відповісти на питання, на які ще не відповіли, або, можливо, створити ще невідоме питання. Він містить велику кількість даних різних типів, і коли вони інтегровані, вони виявляються дуже корисними з точки зору прогнозного моделювання, яке в основному використовується для побудови моделей машинного навчання.

Що таке Склад даних?

Склад даних - це централізоване місце для зберігання трансформованих даних, які складаються у структурований формат, перш ніж зберігати їх у сховище даних. У сховищі даних можуть бути дані з декількох джерел даних, які завантажуються за допомогою процесу ETL на склад і потім використовуються для цілей Business Intelligence.

Порівняння між Лейк-Лейк-Даном і Сховищем даних (Інфографіка)

Нижче наведено топ-14 відмінностей між Data Lake і Data Warehouse

Ключові відмінності

Нижче наведені основні ключові відмінності між озером даних та сховищем даних:

  • Він складається з неструктурованих та структурованих даних із різних платформ, таких як датчики, програми та веб-сайти тощо. Він здебільшого складається з реляційних даних із RDBMS, систем СУБД та інших операційних баз даних та додатків.
  • Data Lake - це обробка, що читається схемою. Сховище даних - це обробка схемою за записом.
  • Він дуже спритний. Він менш спритний.
  • Конфігурація проста і може адаптуватися до змін. Він має фіксовану конфігурацію і дуже важко змінити.
  • Його в основному використовують вчені ШІ та професіонали машинного навчання. Його використовують бізнес-професіонали.

Порівняльна таблиця між Data Lake і сховищем даних:

Давайте обговоримо основну різницю між Data Lake і Data Warehouse

ХарактеристикаОзеро данихІнформаційне сховище
ЗберіганняДані зберігаються в необробленому вигляді в Data Lake, і тут всі дані зберігаються незалежно від джерела даних. Вони трансформуються в інші форми лише коли потрібно.Склад даних складається з даних, які витягуються з транзакційних та інших систем метрики. Тут дані не в сирому вигляді і завжди трансформуються та чисті.
Використання та призначенняОсновна ціль для Data Lake - це вчені даних, великі розробники даних та інженери машинного навчання, яким потрібно зробити глибокий аналіз, щоб створити такі моделі для бізнесу, як прогнозування моделювання.Головною ціллю Data Warehouse є оперативні користувачі, оскільки ці дані мають структурований формат і можуть забезпечувати готовність створювати звіти. Тому вони в основному використовуються для бізнес-розвідки.
Введення данихОсновними вхідними даними озера є всі види даних, такі як структуровані, напівструктуровані та неструктуровані дані. Ці дані перебувають у даних Лейк у первісному вигляді.Основні входи до сховища даних - це структуровані дані, що надходять із транзакційних та метричних систем, які потім організовуються у вигляді схем.
Якість данихСкладає необроблені дані, які можуть бути або не бути кураторами.Він складається з підготовлених даних, які є централізованими і готові подавати до суду для бізнес-аналітики та аналітики.
НормалізаціяТут дані не в нормованій формі.Денормалізовані схеми
ІсторіяТехнології, які використовуються в озерах даних, таких як Hadoop, Machine Learning, порівняно зі сховищем даних порівняно нові.Тут технологія, яка використовується для сховища даних, є старшою.
Хронологія данихОзеро даних може мати всі види даних і його можна використовувати, враховуючи минуле, сучасне та перспективи.Що стосується сховища даних, то тут більшість часу витрачається на аналіз різних джерел даних.
Час обробкиТут час обробки, аналізуючи та отримуючи результати з даних Lake, значно менший, ніж у Data Warehouse, оскільки тут дані зберігаються у вигляді необроблених даних, а не у трансформованому форматі, і в результаті ми скорочуємо час які можуть витрачатися на трансформацію даних. Ми можемо просто зібрати дані як є, так і виконати основні прибирання та почати будувати наші моделі.Що стосується сховища даних, час, який витрачається на обробку, більше порівняно з озером даних. Причиною цього є те, що дані в будь-якому сховищі даних спочатку потрібно трансформувати, а потім їх можна проаналізувати.
Вартість зберіганняВитрати на зберігання тут у технологіях озера даних порівняно нижчі, ніж у сховищах даних, а також забирають менше часу.Витрати на зберігання в сховищах даних більше порівняно з озером даних. Це відбувається тому, що для трансформованих даних йому потрібно більше сховища, оскільки спочатку потрібно зберігати необроблені дані, а потім перетворювати їх для призначення різних полів відповідно до структури сховища даних.
СумісністьТут дані завжди зберігаються в необробленому форматі і трансформуються лише тоді, коли це потрібно або коли вони готові до використання.Тут дані зберігаються в перетвореному форматі, і ми можемо зіткнутися з проблемами при спробі внести будь-які зміни.
ДоступністьДані всередині озера даних є дуже доступними і можуть бути швидко оновлені.Дані всередині сховища даних є складнішими і вимагає більших витрат, щоб внести до них будь-які зміни, доступність також обмежена лише авторизованими користувачами.
Положення схемиСхема переважно створюється після зберігання даних. Це приносить високу спритність.Тут схема в основному створюється перед зберіганням даних.
Процес обробкиОзеро даних використовує процес ELT, тобто вилучення, завантаження та перетворення.У сховищі даних використовується традиційний підхід ETL, тобто витяг, перетворення та завантаження.
ПеревагиОзеро даних призводить до нових винаходів, оскільки інтеграція об'єднує різні типи даних, а також дає відповіді на багато питань без відповіді.Більшість організаційних користувачів задіяні в оперативній діяльності, а склад даних забезпечує одну таку блискучу платформу для створення звітів та показників на основі перетворених даних.

Висновок

У цій публікації ми дізналися про Data Lakes vs Data Warehouse. Ми також пішли вперед і порівняли обидва з них на основі різних параметрів. Це повинно допомогти будь-якому студенту отримати базове уявлення про технології, що підтримують Data Lake та Data Warehouse.

Рекомендовані статті

Це було керівництвом щодо найбільшої різниці між Data Lake і Data Warehouse. Тут ми обговорили ключові відмінності Data Lake проти сховища даних за допомогою інфографіки та таблиці порівняння. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Scrum vs водоспад - найкращі відмінності
  2. MySQL vs MySQLi - який краще?
  3. Мікропроцесор проти мікроконтролера
  4. Питання для інтерв'ю щодо моделювання даних

Категорія: