Впровадження процесу ETL

ETL - це один із важливих процесів, який вимагає Business Intelligence. Business Intelligence покладається на дані, що зберігаються у сховищах даних, з яких формується багато аналізів та звітів, що допомагає будувати ефективніші стратегії та веде до тактичних, оперативних розумінь та прийняття рішень.

ETL відноситься до процесу вилучення, перетворення та завантаження. Це свого роду крок інтеграції даних, коли дані, що надходять з різних джерел, отримують та надсилають у сховища даних. Дані, отримані з різних ресурсів, спочатку трансформуються для перетворення їх у певний формат відповідно до бізнес-вимог. Різні інструменти, які допомагають виконувати ці завдання, -

  • IBM DataStage
  • Abinitio
  • Інформатика
  • Tableau
  • Талент

Процес ETL

Як це працює?

Процес ETL - це триетапний процес, який починається з вилучення даних з різних джерел даних, а потім необроблені дані зазнають різних перетворень, щоб зробити його придатним для зберігання в сховищі даних та завантаження його в сховищах даних у необхідному форматі та зробити його готовим до аналіз.

Крок 1: Витяг

Цей крок стосується отримання необхідних даних з різних джерел, які присутні в різних форматах, таких як XML, файли Hadoop, плоскі файли, JSON тощо. Витягнуті дані зберігаються в області постановки, де здійснюються подальші перетворення. Таким чином, дані ретельно перевіряються перед переміщенням їх у сховища даних, інакше це стане проблемою повернення змін у сховищах даних.

Перед початком вилучення даних потрібна відповідна карта даних між джерелом та ціллю, оскільки процес ETL повинен взаємодіяти з різними системами, такими як Oracle, Hardware, Mainframe, системами в режимі реального часу, такими як банкомат, Hadoop тощо, отримуючи дані з цих систем .

Примітка. Але слід подбати про те, щоб під час видобутку ці системи не впливали.

Стратегії вилучення даних
  • Повне вилучення: цього слід, коли цілі дані з джерел завантажуються в сховища даних, де показано, що або сховище даних заповнюється вперше, або не було вироблено стратегії вилучення даних.
  • Часткове вилучення (з повідомленням про оновлення): Ця стратегія також відома дельтою, де витягуються лише дані, що змінюються, та оновлюються сховища даних
  • Часткове вилучення (без повідомлення про оновлення): Ця стратегія стосується вилучення конкретних необхідних даних із джерел відповідно до завантаження в сховищах даних замість вилучення цілих даних.

Крок 2: Перетворення

Цей крок є найважливішим кроком ETL. На цьому кроці проводиться багато перетворень, щоб зробити дані готовими до завантаження в сховищах даних, застосовуючи перетворення нижче:

A. Базові перетворення: Ці перетворення застосовуються в кожному сценарії, оскільки вони є основною потребою під час завантаження даних, вилучених з різних джерел, у сховищах даних.

  • Очищення або збагачення даних: Мається на увазі очищення небажаних даних із місця постановки, щоб неправильні дані не завантажувались із сховищ даних.
  • Фільтрування: Тут ми відфільтровуємо потрібні дані з великої кількості даних, присутніх відповідно до бізнес-вимог. Наприклад, для створення звітів про продажі потрібні лише записи про продаж за конкретний рік.
  • Консолідація: Вилучені дані консолідуються у потрібному форматі перед завантаженням їх у сховища даних.4.
  • Стандартизація: поля даних перетворюються для приведення їх у такому ж необхідному форматі, наприклад, поле даних повинно бути вказане як MM / DD / РРРР.

B. Розширені трансформації: Ці типи перетворень є специфічними для бізнес-вимог.

  • Приєднання: У цій операції дані з двох або більше джерел об'єднуються t створюють дані лише з потрібними стовпцями з рядками, які пов'язані між собою
  • Перевірка перевірки порогових даних: Значення, присутні в різних полях, перевіряються, чи вони правильні чи ні, такі як недійсний номер банківського рахунку у випадку банківських даних.
  • Використовуйте пошук для об'єднання даних: для вилучення конкретної інформації використовуються різні плоскі файли або інші файли, виконуючи операцію пошуку на цьому.
  • Використання будь-якої складної перевірки даних: Багато складних перевірок застосовуються для вилучення дійсних даних тільки з вихідних систем.
  • Обчислені та отримані значення: Для перетворення даних у певну необхідну інформацію застосовуються різні обчислення
  • Копіювання: Дублікати даних, що надходять із вихідних систем, аналізуються та видаляються перед завантаженням у сховищах даних.
  • Реструктуризація ключів: У разі захоплення даних, що повільно змінюються, для створення структури даних у потрібному форматі необхідно створити різні сурогатні ключі.

Примітка - MPP-Massive Paralellel Processing використовується іноді для виконання деяких основних операцій, таких як фільтрація чи очищення даних у області постановки, щоб швидше обробити велику кількість даних.

Крок 3: Завантажте

Цей крок стосується завантаження перетворених даних у сховище даних, звідки вони можуть бути використані для генерації багатьох аналітичних рішень, а також звітності.

1. Початкове навантаження: Цей тип навантаження виникає під час першого завантаження даних у сховищах даних.

2. Інкрементальне навантаження: це тип навантаження, який робиться для періодичного оновлення сховища даних із змінами, що відбуваються у вихідних системних даних.

3. Повне оновлення: Цей тип завантаження стосується ситуації, коли повні дані таблиці видаляються та завантажуються із новими даними.

Потім сховище даних дозволяє використовувати функції OLAP або OLTP.

Недоліки процесу ETL

  1. Збільшення даних - Існує обмеження даних, що витягуються з різних джерел інструментом ETL і переміщуються до сховищ даних. Таким чином, зі збільшенням даних, робота з інструментом ETL та сховищами даних стає громіздкою.
  2. Настроювання - це стосується швидких та ефективних рішень або відповідей на дані, що генеруються джерельними системами. Але використання тут інструменту ETL уповільнює цей процес.
  3. Дорого - використання сховища даних для зберігання все більшої кількості даних, що періодично генеруються, - це висока вартість, яку організація повинна платити.

Висновок - Процес ETL

Інструмент ETL включає процеси витягування, перетворення та завантаження, де він допомагає генерувати інформацію з даних, зібраних з різних джерельних систем. Дані з вихідної системи можуть надходити в будь-яких форматах і можуть завантажуватися в будь-якому бажаному форматі в сховищах даних, таким чином, інструмент ETL повинен підтримувати з'єднання з усіма типами цих форматів.

Рекомендовані статті

Це посібник із процесу ETL. Тут ми обговорюємо вступ, як це працює ?, інструменти ETL та його недоліки. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Інструменти ETL Інструменти
  2. Інструменти для тестування ETL
  3. Що таке ETL?
  4. Що таке ETL тестування?

Категорія: