Вступ до архітектури сховищ даних
- Склад даних - це місце зберігання, що містить колекції декількох різних видів даних, отриманих з декількох типів джерел.
- Весь процес, де зовнішні джерела даних збираються, обробляються, зберігаються та аналізуються до корисної інформації, відбувається в наборі систем, об’єднаних єдиною схемою, відомою як Архітектура сховища даних.
Архітектура сховищ даних
Архітектура сховищ даних зазвичай складається з трьох рівнів.
- Верхній ярус
- Середній ярус
- Нижній рівень
Верхній ярус
- Верхній рівень складається з переднього кінця архітектури на стороні клієнта.
- Інформація, що застосовується для Трансформованої та Логічної інформації, що зберігається у сховищі даних, буде використовуватися та набута для цілей бізнесу на цьому рівні.
- Для створення бажаної інформації є декілька інструментів для формування та аналізу звітів.
- Тут проводиться обмін даними, який став великою тенденцією.
- Усі документи щодо аналізу вимог, вартість та всі функції, що визначають ділову угоду на основі прибутку, робиться на основі цих інструментів, які використовують інформацію про сховища даних.
Середній ярус
- Середній рівень складається з серверів OLAP
- OLAP - сервер аналітичної обробки даних в Інтернеті
- OLAP використовується для надання інформації бізнес-аналітикам та менеджерам
- Оскільки він розташований у Середньому ярусі, він правомірно взаємодіє з інформацією, наявною у нижньому ярусі, і передає розуміння інструментам верхнього рівня, який обробляє наявну інформацію.
- Переважно реляційний або багатовимірний OLAP використовується в архітектурі сховищ даних.
Нижній рівень
Нижній рівень в основному складається з джерел даних, інструменту ETL та сховища даних.
1. Джерела даних
Джерела даних складаються з вихідних даних, які отримуються та надаються інструментам Staging та ETL для подальшого опрацювання.
2. Інструменти ETL
- Інструменти ETL дуже важливі, оскільки допомагають поєднувати логіку, необроблені дані та схеми в одне ціле і завантажують інформацію до сховища даних або даних даних.
- Іноді ETL завантажує дані в Марки даних, а потім інформація зберігається в сховищі даних. Цей підхід відомий як підхід "знизу вгору".
- Підхід, коли ETL завантажує інформацію в Склад даних, відомий як підхід зверху вниз.
Різниця між підходом зверху вниз та підходом знизу вгору
Підхід зверху вниз | Підхід знизу вгору |
Забезпечує певний і послідовний перегляд інформації, оскільки інформація зі сховища даних використовується для створення Марків даних | Звіти можна генерувати легко, оскільки спочатку створюються сховища даних, і взаємодіяти з даними даних порівняно легко. |
Сильна модель, а тому віддається перевагу великим компаніям | Не настільки сильно, але склад даних може бути розширений і кількість місць даних може бути створена |
Час, вартість та обслуговування великі | Час, вартість та технічне обслуговування низькі. |
Марки даних
- Data Mart - це також компонент для зберігання даних, який використовується для зберігання даних певної функції або частини, пов'язаної з компанією окремим органом.
- Март даних збирає інформацію з Data Warehouse, і, отже, ми можемо сказати, що дані Mart зберігають підмножину інформації в Data Warehouse.
- Марки даних є гнучкими та невеликими за розміром.
3. Склад даних
- Склад даних є центральним компонентом всієї архітектури сховищ даних.
- Він діє як сховище для зберігання інформації.
- Великі обсяги даних зберігаються у сховищі даних.
- Ця інформація використовується в декількох технологіях, таких як Big Data, які потребують аналізу великих підмножин інформації.
- Data Mart також є моделлю Data Warehouse.
Різні шари архітектури сховища даних
Існує чотири різних типи шарів, які завжди будуть присутні в архітектурі сховищ даних.
1. Шар джерела даних
- Шар джерела даних - це шар, на якому зустрічаються дані з джерела і згодом надсилаються на інші шари для бажаних операцій.
- Дані можуть бути будь-якого типу.
- Вихідними даними можуть бути база даних, електронна таблиця або будь-які інші текстові файли.
- Вихідні дані можуть бути будь-якого формату. Ми не можемо очікувати отримання даних у тому самому форматі, враховуючи, що джерела сильно відрізняються.
- У реальному житті можуть бути деякі приклади вихідних даних
- Файли журналів кожної конкретної заявки або роботи або запису роботодавців у компанії
- Дані опитування, дані фондової біржі тощо.
- Дані веб-браузера та багато іншого.
2. Шар етапування даних
Наступні кроки виконуються в шарі стадії даних.
1. Вилучення даних
Дані, отримані вихідним шаром, подаються в Етапний шар, де першим процесом, який відбувається з отриманими даними, є вилучення.
2. Посадка бази даних
- Витягнуті дані тимчасово зберігаються в цільовій базі даних.
- Він отримує дані після отримання даних.
3. Область постановки
- Беруться дані в посадковій базі даних і в області постановки виконується кілька перевірок якості та операцій постановки.
- Структура та схема також ідентифіковані і вноситься коригування даних, які мають не упорядкований характер, таким чином намагаючись створити спільність серед отриманих даних.
- Встановлення місця або налаштування для даних безпосередньо перед перетворенням та змінами є додатковою перевагою, що робить процес постановки дуже важливим.
- Це полегшує обробку даних.
4. ETL
- Це видобуток, перетворення та навантаження.
- Інструменти ETL використовуються для інтеграції та обробки даних, коли логіка застосовується до досить необроблених, але дещо упорядкованих даних.
- Ці дані витягуються відповідно до аналітичного характеру, який необхідний та трансформуються в дані, які вважаються придатними для зберігання в сховищі даних.
- Після Перетворення дані, а точніше інформація, остаточно завантажується в сховище даних.
- Деякі приклади інструментів ETL - це Informatica, SSIS тощо.
3. Шар зберігання даних
- Оброблені дані зберігаються у сховищі даних.
- Ці Дані очищаються, трансформуються та готуються з визначеною структурою і, таким чином, надають можливість роботодавцям використовувати дані відповідно до вимог бізнесу.
- Залежно від підходу архітектури, дані зберігатимуться в сховищі даних, а також у марках даних. Маркети даних будуть обговорені на наступних етапах.
- Деякі також включають в себе Оперативний магазин даних.
4. Шар представлення даних
- Цей шар, де користувачі можуть взаємодіяти з даними, що зберігаються у сховищі даних.
- Для отримання різних типів інформації на основі даних будуть використані запити та кілька інструментів.
- Інформація доходить до користувача через графічне представлення даних.
- Інструменти звітності використовуються для отримання бізнес-даних, а бізнес-логіка також застосовується для збору декількох видів інформації.
- Інформація про метадані та системні операції та продуктивність також підтримуються та переглядаються на цьому рівні.
Висновок
Важливим моментом щодо зберігання даних є його ефективність. Для створення ефективного сховища даних ми побудуємо структуру, відому як Рамка бізнес-аналізу. Існує чотири типи поглядів щодо дизайну сховища даних.
1. Вид зверху вниз: цей вид дозволяє вибирати лише конкретну інформацію, необхідну для сховища даних.
2. Вид джерела даних: у цьому вікні відображається вся інформація від джерела даних до способів її трансформації та зберігання.
3. Вид сховища даних: у цьому представленні відображається інформація, наявна у сховищі даних, через таблиці фактів та таблиці розмірів.
4. Перегляд бізнес-запитів: це представлення, в якому відображаються дані з точки зору користувача.
Рекомендовані статті
Це керівництво по архітектурі сховищ даних. Тут ми обговорили різні типи поглядів, шарів та рівнів архітектури сховищ даних. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -
- Кар'єра у сфері зберігання даних
- Як працює JavaScript
- Питання для інтерв'ю сховища даних
- Що таке панди