Відмінності між сховищем даних і Hadoop
У кожному десятилітті ІТ-індустрія відчуває велике нововведення, яке потрясає всю ІТ-галузь. В останні роки Apache Hadoop зробив те ж саме, ввівши центри обробки даних з новою інфраструктурою
Надаючи програмісту Hadoop потужність паралельної обробки настільки експоненційно піднімається, і її екосистема розширюється як по глибині, так і по ширині, природно запитати, чи збирається Hadoop замінити традиційний сховище даних.
Давайте подивимось, що сказав Аласдейр Андерсон (виконавчий віце-президент Nordea) на саміті в Хадооп про цю гарячу тему в місті.
"Зараз між EDW та Hadoop немає стосунків - вони будуть доповнювати один одного. Йдеться не про видобуток та заміну: ми не збираємося позбуватися RDBMS або MPP, а натомість скористаємося правильним інструментом для правильної роботи - і це дуже залежатиме від ціни. "
Щоразу, коли починається ця цікава дискусія, нам спадає на думку багато питань, таких як:
1) Якщо у вас є великі дані, чи потрібен вам склад даних?
2) Чи замінить Hadoop сховище даних?
3) Це смерть традиційної епохи зберігання даних?
Щоб знати відповіді на всі ці питання, нам потрібно розібратися в більш широкому контексті цієї картини.
1. Що таке Hadoop?
Хто останнім часом не чув про Big Data? З сотень терабайт даних, що генеруються щодня з різних джерел, зрозуміло, що сучасний сучасний світ - це світ великих даних
Коли ви почнете говорити про Big Data, ви рано чи пізно почнете обговорювати найгарячішу тему світу великих даних: Hadoop - але що це саме?
Hadoop - це програма з відкритим кодом, програма програмування на основі Java, яка підтримує обробку та зберігання надзвичайно великих наборів даних у розподіленому обчислювальному середовищі.
4 модуля Hadoop -
Hadoop складається з 4 модулів -
- Розподілена файлова система
Розподілена файлова система дозволяє зберігати дані у легкодоступному форматі на великій кількості пов'язаних пристроїв зберігання даних.
- Зменшити карту
Зменшення карти - це поєднання двох операцій - зчитування даних із бази даних та розміщення їх у форматі, придатному для аналізу (карта) та виконання математичних операцій (зменшення).
- Хадоп звичайний
Hadoop Common надає інструменти, необхідні для даних, що зберігаються у форматі HDFS (розподілена файлова система Hadoop)
- Пряжа
YARN управляє ресурсами систем, що зберігають дані та виконує аналіз.
2. Що таке сховище даних?
Склад даних - це реляційна база даних, яка призначена для запитів та аналізу даних. Зазвичай він містить історичні дані, отримані з різних джерел.
Навколишнє середовище сховища даних включає рішення ETL, механізм он-лайн аналітичної обробки (OLAP), інструменти аналізу клієнтів та інші додатки, які керують процесом аналізу даних та передачі їх діловим користувачам.
Давайте підведемо підсумки, що таке сховище даних -
-
Предметно-орієнтована
Склад даних може бути використаний для аналізу певної предметної області, наприклад продажів, фінансів та товарних запасів. Кожна предметна область містить детальні дані.
-
Інтегрована
Склад даних інтегрує дані з декількох джерел даних. Наприклад, дати в одному форматі, чоловічі / жіночі коди відповідають. У сховищі даних буде лише один спосіб ідентифікації товару, і вони використовують один і той же запис клієнта, а не копії
-
Нелетучі
Дані зберігаються у сховищі даних немодифікованими, і вони не зміняться. Отже, історичні дані в сховищі даних ніколи не повинні змінюватися.
-
Часовий варіант
можна отримати дані за 3 місяці, 6 місяців, 12 місяців або навіть старіші дані зі сховища даних.
-
Не віртуальний
Сховище даних - це фізичне стійке сховище.
Склад даних проти Hadoop (Інфографіка)
Нижче наведено найкращі 6 зіставлень між сховищем даних та Hadoop
Склад даних проти Hadoop – кого використовувати?
- Якщо у вас є чисті, послідовні та якісні дані, вам слід скористатися сховищем даних, оскільки Hadoop не має якості даних у деяких своїх рішеннях.
- Якщо у вас є неочищені дані, тоді вам слід скористатися Hadoop, оскільки Hadoop добре працює з неструктурованими / необробленими даними, але Data Warehouse працює лише зі структурованими даними.
- Для низьких затримок та інтерактивних звітів слід звернутися до сховища даних
- Для запитів OLTP / в режимі реального часу / точок вам слід перейти до сховища даних, оскільки Hadoop добре працює з пакетними даними.
- Для великих наборів даних про обсяг слід скористатися Hadoop, оскільки Hadoop призначений для вирішення великих даних.
Таблиця порівняння між сховищами даних та Hadoop
Нижче наведено перелік пунктів, які описують порівняння між сховищем даних та Hadoop
Основа для порівняння | Інформаційне сховище | Hadoop |
Дані | У сховищі даних ми аналізуємо структуровані та оброблені дані | У Hadoop ми можемо обробляти будь-які дані, включаючи структуровані / неструктуровані / напівструктуровані та необроблені |
Обробка | Її обробка ґрунтується на концепціях схематичного запису | Її обробка ґрунтується на концепціях, прочитаних на схемі |
Зберігання | Підходить для даних з невеликим обсягом і занадто дорого для великих обсягів | Він добре працює з великими наборами даних, що мають величезний об'єм, швидкість та різноманітність |
Спритність | Він менш гнучкий і фіксованої конфігурації | Він дуже спритний, налаштовує та переконфігурує за потребою |
Безпека | Технології зберігання даних існують десятиліттями. Таким чином, з точки зору безпеки ми можемо розраховувати на сховище даних | Хоча технології Hadoop порівняно нові зі сховищем даних порівняно новими, безпека тут викликає велике занепокоєння |
Користувачі | Професіонали бізнесу зазвичай використовують сховище даних | Hadoop досить відомий в галузі науки і даних |
Висновок - Склад даних проти Hadoop
Тепер ми знаємо про сховище даних та Hadoop, давайте повернемось назад та вивчимо питання, яке ми задали на початку цієї статті про сховище даних та Hadoop -
1) якщо у вас є великі дані, чи потрібен вам склад даних?
Відповідь - поки вашій організації потрібні надійні, правдоподібні та доступні дані, тоді вам потрібен склад даних.
2) Чи замінить Hadoop сховище даних?
Відповідь - Порівняння сховища даних та Hadoop - це порівняння яблук та апельсинів. Вони і в Склад даних, і в Hadoop мають свої переваги в різних сценаріях використання. У деяких випадках ми все ще залежимо від традиційних методів сховища даних, але з часом зміни ми більше зосереджуємось на Hadoop Framework для вирішення проблем з великими даними.
3) Це смерть традиційної епохи зберігання даних?
Відповідь - Як бачите, це насправді не просте запитання, а тому не піддається простої відповіді. Це правда, що великі дані збираються змінити традиційний підхід до зберігання даних у найближчі кілька років, але це не застаріло концепцій та практики зберігання даних.
Рекомендована стаття
Це був корисний посібник зі сховища даних проти Hadoop, тут ми обговорили їх значення, порівняння «голова до голови», ключову різницю та висновок. Ви також можете переглянути наступну статтю, щоб дізнатися більше -
- Hadoop vs Splunk - з’ясуйте найкращі 7 відмінностей
- Hadoop vs Elasticsearch - який корисніший
- Великі дані проти сховища даних - з’ясуйте найкращі відмінності
- Business Intelligence проти сховища даних
- Splunk vs Nagios