Вступ до трубопроводу даних AWS

Дані з кожним днем ​​зростають експоненціально і стає важко керувати порівняно з минулим. Нам потрібні інструменти та сервіси для ефективного управління нашими даними та дешевшими витратами. Тут є на увазі трубопровід даних AWS. Йдеться не лише про збереження даних, але потрібно проаналізувати, обробити, перетворити дані в потрібну форму на тому самому місці, це все можна досягти за допомогою AWS Data Pipeline.

Потреба в трубопроводі даних

Спробуємо зрозуміти потребу в конвеєрі даних на прикладі:

Приклад №1

У нас є веб-сайт, який відображає зображення та зображення на основі пошукових запитів або фільтрів. Наша основна увага зосереджена на розміщенні контенту. Досягнення певних цілей є:

  • Поліпшення доставки вмісту: обслуговування того, що користувачі хочуть ефективно та досить швидко.
  • Ефективно керуйте програмою: Зберігання даних користувачів, а також журналів веб-сайтів для подальших аналітичних цілей.
  • Поліпшення бізнесу: Використовуючи збережені дані та аналітику, приймає рішення покращити бізнес за дешевших витрат.

Приклад №2

Існують певні пляшки, про які слід подбати про досягнення цілей:

  • Величезна кількість даних у різних форматах і в різних місцях, що робить обробку, зберігання та міграцію даних складним завданням.

Різні компоненти зберігання даних для різних типів даних:

  • Можливі дані в реальному часі для зареєстрованих користувачів: Dynamo DB .
  • Журнали веб-сервера для потенційних користувачів: Amazon S3 .
  • Дані демографії та облікові дані для входу: Amazon RDS.
  • Дані датчиків та набір даних сторонніх даних: Amazon S3.

Рішення

  • Можливе рішення: Ми бачимо, що нам доведеться мати справу з різними типами інструментів для перетворення даних з неструктурованих в структурованих для аналізу. Тут ми повинні використовувати різні інструменти для зберігання даних і знову для перетворення, аналізу та зберігання оброблених даних. Не економічне рішення.
  • Оптимальне рішення: Використовуйте конвеєр даних, який обробляє обробку, візуалізацію та міграцію. Конвеєр даних може бути корисним для міграції даних з різних місць, також аналізуючи дані та обробляючи в одному місці від вашого імені.

Що таке трубопровід даних AWS?

AWS Data Pipeline - це в основному веб-сервіс, пропонований Amazon, який допомагає трансформувати, обробляти та аналізувати свої дані масштабованим та надійним способом, а також зберігати оброблені дані в S3, DynamoDb або локальній базі даних.

  • За допомогою AWS Data Pipeline ви можете легко отримати доступ до даних з різних джерел.
  • Перетворити та обробити ці дані в масштабі.
  • Ефективно передайте результати іншим службам, таким як S3, таблиця DynamoDb або локальний сховище даних.

Основний приклад використання трубопроводу даних

  • У нас може бути веб-сайт, розгорнутий через EC2, який генерує журнали щодня.
  • Простим щоденним завданням можна було скопіювати файли журналів з E2 та домогтися їх у відро S3.
  • Щотижневим завданням може бути обробка даних та запуск аналізу даних через Amazon EMR для створення щотижневих звітів на основі всіх зібраних даних.

Запуск аналізу даних за допомогою трубопроводу даних AWS

  • Збір даних з різних джерел даних, таких як S3, Dynamodb, локальний, датчик даних тощо.
  • Здійснення перетворень, обробки та аналітики на AWS EMR для створення щотижневих звітів.
  • Щотижневий звіт зберігається в Redshift, S3 або локальній базі даних.

Переваги трубопроводу даних AWS

Нижче пунктів пояснюються переваги AWS Data Pipeline:

  • Перетягніть консоль, яку легко зрозуміти та використовувати.
  • Розподілена та надійна інфраструктура: Трубопроводи даних працюють на масштабованих сервісах і надійні, якщо помилка чи завдання не вдається, її можна встановити для повторної спроби.
  • Підтримує планування та відстеження помилок: Ви можете планувати свої завдання та відстежувати, що вийшло з ладу та успіху.
  • Розподілений: може працювати паралельно на декількох машинах або лінійно.
  • Повний контроль над обчислювальними ресурсами, такими як кластери EC2, EMR.

Компоненти трубопроводу AWS

Нижче наведені компоненти трубопроводу даних AWS:

1. Визначення трубопроводу

Перетворіть свою логіку бізнесу в трубопровід даних AWS.

  • Вузли даних : містить ім'я, розташування, формат джерела даних, яким воно могло бути (S3, dynamodb, локальне приміщення)
  • Діяльність : переміщення, перетворення або виконання запитів щодо ваших даних.
  • Розклад : Сплануйте свої щоденні або щотижневі заходи.
  • Попередня умова : такі умови, як почати перевірку доступності даних планувальника у джерела.
  • Ресурси : Обчислити ресурси EC2, EMR.
  • Дії : оновлення про трубопровід даних, надсилання повідомлень, тригерна тривога.

2. Трубопроводи

Тут ви плануєте та виконувати завдання для виконання визначених дій.

  • Компоненти трубопроводу C : Компоненти трубопроводу такі ж, як і компоненти визначення трубопроводу.
  • Примірники: Під час виконання завдань AWS збирає всі компоненти для створення певних можливих екземплярів. Такі екземпляри мають всю інформацію про конкретні завдання.
  • Спроби: Ми вже обговорювали, наскільки надійний трубопровід даних із механізмами повторної спроби. Тут ви встановлюєте, скільки разів потрібно повторити завдання, якщо воно не вдалося.

3. Завдання бігун

Запитує або опитує завдання з трубопроводу даних AWS, а потім виконує ці завдання.

Ціноутворення на трубопровідні дані AWS

Нижче пунктів пояснюються ціни на трубопровід AWS Data:

1. Вільний рівень

Ви можете розпочати роботу з AWS Data Pipeline безкоштовно як частину безкоштовного рівня використання AWS. Нові клієнти, що підписуються, отримують щомісяця кілька безкоштовних пільг протягом одного року:

  • 3 Передумови роботи низької частоти на AWS без будь-якої зарядки.
  • 5 Заходи низькочастотного бігу на AWS без будь-якої оплати.

2. Низька частота

Низька частота покликана працювати один раз на день або менше. Трубопровід даних відповідає тій же стратегії виставлення рахунків, що й інші веб-сервіси AWS, тобто виставляється рахунок за ваше використання. Він рахується тим, як часто ваші завдання, дії та передумови виконуються щодня та де вони виконуються (AWS або локальні приміщення). Планується, що високочастотні заходи проводяться більше одного разу на день.

Приклад: ми можемо запланувати діяльність, яку слід виконувати щогодини та обробляти журнали веб-сайту, або це може бути кожні 12 годин. Тоді як низькочастотні дії - це такі, які виконуються один раз на день або менше, якщо передумови не виконуються. Неактивні трубопроводи мають стан НЕАКТИВНІ, ОЧИКОВАНІ та ЗАВЕРШЕНІ.

3. Ціновий конвеєр даних AWS показаний у регіоні

Регіон №1: Схід США (N.Virginia), Західний США (Орегон), Азіатсько-Тихоокеанський (Сідней), EU (Ірландія)

Висока частотаНизька частота
Діяльність або передумови, що працюють над AWS $ 1, 00 на місяць $ 0, 06 на місяць
Діяльність або передумови, що працюють на місцях 2, 50 долара на місяць 1, 50 долара на місяць
Неактивні трубопроводи: $ 1, 00 на місяць

Регіон №2: Азіатсько-Тихоокеанський регіон (Токіо)

Висока частотаНизька частота
Діяльність або передумови, що працюють над AWS $ 0, 9524 на місяць $ 0, 5715 на місяць
Діяльність або передумови, що працюють на місцях 2, 381 долара на місяць $ 1, 4286 на місяць
Неактивні трубопроводи: $ 0, 9524 на місяць

Конвеєр, що щоденна робота, тобто низькочастотна діяльність на AWS для переміщення даних із таблиці DynamoDB в Amazon S3, коштуватиме 0, 60 доларів на місяць. Якщо додати EC2 для створення звіту на основі даних Amazon S3, загальна вартість трубопроводу складе 1, 20 долара на місяць. Якщо ми проводимо цю діяльність кожні 6 годин, вона коштувала б 2, 00 доларів на місяць, адже тоді це буде високочастотна активність.

Висновок

AWS Data Pipeline - це дуже зручне рішення для управління експоненціально зростаючими даними за дешевших витрат. Це дуже надійно, а також масштабується відповідно до вашого використання. Для будь-якої потреби в бізнесі, коли вона працює з великим обсягом даних, AWS Data Pipeline - це дуже хороший вибір для досягнення всіх наших бізнес-цілей.

Рекомендовані статті

Це посібник по трубопроводу даних AWS. Тут ми обговорюємо потреби трубопроводу даних, що таке трубопровід даних AWS, його деталі та ціни. Ви також можете ознайомитись з іншими нашими пов’язаними статтями, щоб дізнатися більше -

  1. AWS EBS
  2. Бази даних AWS
  3. Що таке AWS EC2?
  4. Переваги візуалізації даних
  5. Топ-7 конкурентів AWS з особливостями
  6. Дізнайтеся список функцій веб-служб Amazon

Категорія: