Дізнайтеся 10 Різниця між малими даними проти великих даних

Різниця між Малі дані та великі дані

Малі Дані - це не що інше, як ті дані, які є достатньо малим для людського обсягу, а також для форматування, що робить їх доступними, інформативними та корисними. Традиційна обробка даних не може мати справу з великими або складними даними, ці дані називаються великими даними. Коли обсяг даних перевищує певний ліміт, традиційних систем та методологій недостатньо для обробки даних або перетворення даних у корисний формат. Ось чому дані зазвичай класифікуються на дві частини - Малі дані та великі дані

Порівняння між малими даними та великими даними (Інфографіка)

Нижче представлено 10 кращих відмінностей між малими та великими даними

Ключові відмінності між малими даними та великими даними

Збір даних - Зазвичай Малі Дані є частиною OLTP-систем і збираються більш контрольованим чином, після чого вставляються в кешовий шар або базу даних. Бази даних будуть читати репліки для підтримки негайних запитів аналітики, якщо це необхідно. У конвеєрі збору даних для великих даних з’являться черги, як AWS Kinesis або Google Pub / Sub, щоб збалансувати дані з високою швидкістю. Нижче за течією будуть потокові трубопроводи для аналітики в режимі реального часу та пакетні завдання для холодної обробки даних.
Обробка даних - Оскільки більшість Малих даних, що генеруються через систему транзакцій, аналітика на вершині більшої частини часу буде орієнтована на пакетну діяльність. У деяких рідкісних випадках аналітичні запити виконуються безпосередньо над системами транзакцій. Середовища великих даних матимуть як пакетні, так і потокові трубопроводи. Потік використовується для аналітики в режимі реального часу, як виявлення шахрайства на кредитних картках або прогнозування ціни акцій. Пакетна обробка, що використовується для реалізації складної бізнес-логіки з даними та вдосконаленими алгоритмами.
Масштабованість - Малі системи даних зазвичай масштабуються вертикально. Вертикальне масштабування збільшує потужність системи, додаючи більше ресурсів до тієї ж машини. Вертикальне масштабування є дорогим, але менш складним для управління. Системи великих даних в основному залежать від горизонтально масштабованої архітектури, яка дає більше спритності при менших витратах. Доступні віртуальні машини в хмарі роблять горизонтальні масштабовані системи ще більш доступними.
Моделювання даних - Малі Дані, згенеровані з систем транзакцій, будуть у нормалізованому вигляді.ETL (Extract Transform Load) трубопроводи даних перетворюють їх у схему зірок чи сніжинок у сховищі даних. Тут схема завжди застосовується під час запису даних, що порівняно просто, оскільки дані є більш структурованими. Як було сказано вище, табличні дані є лише часткою великих даних. Тут дані реплікуються набагато більше з різних причин, таких як передача помилок або через деяке обмеження базового механізму бази даних (Наприклад, деякі бази даних підтримують лише один вторинний індекс на набір даних). Схема не застосовується при написанні. Натомість схема під час читання даних перевіряється.
З'єднання для зберігання та обчислень - у традиційних базах даних, які в основному обробляють малі дані, зберігання та обчислення є щільно з'єднаними. Введення та завантаження даних до бази даних та з неї можливо лише через заданий інтерфейс. Дані не можна вводити безпосередньо у файлову систему бази даних, або існуючі дані не можна запитувати за допомогою інших двигунів БД. Насправді ця архітектура значно допомагає забезпечити цілісність даних. Системи великих даних мають дуже слабке з'єднання між сховищем та обчисленням. Зазвичай дані зберігаються в розподіленій системі зберігання даних, як HDFS, AWS S3 або Google GCS, і обчислюють двигун для запиту даних або робити ETL, обраний пізніше. Наприклад, інтерактивні запити можуть виконуватися за допомогою Presto (Link) та ETL за допомогою Apache Hive на одних і тих же даних.

Data Science - алгоритми машинного навчання вимагають введення даних у добре структурованому та правильно закодованому форматі, і більшість часу вхідні дані будуть здійснюватися як з транзакційних систем, як з сховищем даних, так і з великим сховищем даних, як з озера даних. Алгоритми машинного навчання, що працюють виключно на Малих даних, будуть легкими, оскільки етап підготовки даних вузький. Підготовка та збагачення даних у середовищі Big Data займає набагато більше часу. Big Data дає безліч варіантів експериментів з науковими даними завдяки великому обсягу та різноманітності даних.

Безпека даних - Практика безпеки для малих даних, що знаходиться на сховищах даних або системах транзакцій, що надаються відповідними постачальниками баз даних, які можуть включати в себе привілеї користувача, шифрування даних, хешування тощо. Забезпечення систем великих даних набагато складніше та складніше. Найкращі практики безпеки включають шифрування даних у стані спокою та транзиту, ізоляція кластерної мережі, чіткі правила контролю доступу тощо.

Таблиця порівняння малих даних та великих даних

Основи порівняння	Невеликі дані	Великі дані
Визначення	Дані недостатньо для розуміння людиною. У обсязі та форматі, які роблять їх доступними, інформативними та доступними	Набори даних, настільки великі або складні, що традиційні програми для обробки даних не можуть з ними боротися
Джерело даних	● Дані з традиційних корпоративних систем Planning планування ресурсів підприємства Management управління відносинами з клієнтами (CRM) ● Фінансові дані, такі як дані загальної книги ● Дані платіжної транзакції з веб-сайту	● Дані про купівлю у торгових точках ● Дані переходу із веб-сайтів ● Дані потоку GPS - дані мобільності, що надсилаються на сервер ● Соціальні медіа - facebook, щебетати
Обсяг	Більшість випадків в діапазоні десятків або сотень ГБ. Деякі випадки небагато ТБ (1 ТБ = 1000 ГБ)	Більше декількох терабайт (ТБ)
Швидкість (швидкість, з якою відображаються дані)	● Контрольований і стабільний потік даних ● Накопичення даних відбувається повільно	● Дані можуть надходити з дуже швидкою швидкістю. ● Величезні дані можуть накопичуватися протягом дуже коротких періодів часу
Різноманітність	Структуровані дані у табличному форматі із фіксованою схемою та напівструктурованими даними у форматі JSON чи XML	Набори даних високого різноманіття, які включають табличні дані, текстові файли, зображення, відео, аудіо, XML, JSON, журнали, дані датчиків тощо.
Вірність (якість даних)	Містить менше шуму, оскільки дані, зібрані контрольовано.	Зазвичай якість даних не гарантована. Перед обробкою потрібна сувора перевірка даних.
Значення	Бізнес-аналітика, аналіз та звітність	Комплексний пошук даних для прогнозування, рекомендацій, пошуку шаблонів тощо.
Варіантність часу	Історичні дані настільки ж справедливі, як і дані, являють собою міцні ділові взаємодії	У деяких випадках дані швидко старіють (наприклад, виявлення шахрайства).
Місцезнаходження даних	Бази даних у межах підприємства, локальні сервери тощо.	Переважно в розподілених сховищах у Хмарі або у зовнішніх файлових системах.
Інфраструктура	Передбачуване розподіл ресурсів. Найбільше вертикально масштабоване обладнання	Більш гнучка інфраструктура з горизонтально масштабованою архітектурою. Навантаження на систему сильно відрізняється.

Висновок - Малі дані та великі дані

Кінцева мета аналізу даних - своєчасне розуміння на підтримку прийняття рішень. Класифікація даних на "Малі та великі" допомагає вирішувати проблеми в аналізі даних кожного світу окремо за допомогою відповідних інструментів. Рядок між двома категоріями змінюється залежно від нових сучасних систем обробки даних, що робить навіть великі запити даних набагато швидшими та менш складними.