Вступ до інтеграції даних Talend

Інтеграція даних Talend означає комбінування даних з різних джерел та об'єднання їх до єдиного перегляду, щоб отримати якісь змістовні дані з тих, які можуть допомогти компанії чи організації покращити свій бізнес, аналізуючи ці дані. Інтеграція допомагає отримувати дані, очищати дані, роблячи необхідні перетворення тощо, а потім завантажувати їх у сховище даних.

Що таке інтеграція даних Talend?

  • Talend - це інструмент ETL, який використовується для інтеграції даних. Talend пропонує рішення для підготовки даних, якості даних, інтеграції даних та великих даних.
  • Talend пропонує Open Studio, який є відкритим кодом для інтеграції даних та великих даних.
  • Talend open studio допомагає в обробці величезних даних з великими компонентами даних. У ньому більше 800+ компонентів для різних цілей інтеграції. Тут ми обговоримо деякі компоненти. Щоб зробити це легким, див. Нижче приклад
  • Сім-оператор має величезну кількість даних про плани, клієнтів, деталі sim тощо. Ці дані величезні, тому великі дані також використовуються в інтеграції.

Клієнт Купівля сім-карти за допомогою ідентифікатора уряду.
Даючи своє ім'я: AB C
Адреса: Chennai, Chennai
Номер телефону: 1234567890

Після інтеграції даних

Ім'я: AB
Прізвище: C
Адреса: Ченнаї, Індія
Номер телефону: +911234567890

Тут дані очищаються і перетворюються на щось більш значиме.

Переваги інтеграції даних

Тут ми обговоримо переваги інтеграції даних.

  1. Аналіз тенденцій бізнесу за допомогою інтеграції даних
  2. Об'єднання даних в єдину систему
  3. Економія часу та ефективніша та менша кількість переробок
  4. Легка генерація звітів - використовується засобами BI
  5. Обслуговування та вставка даних у сховище даних та сховища даних

Застосування інтеграції даних Talend

Тут ми обговоримо застосування інтеграції даних Talend.

1. Робота з Talend

  • Переконайтеся, що у вас встановлено java та змінні середовища.
  • Завантажте відкритий код з веб-сайту Talend та встановіть програмне забезпечення.
  • Створіть новий проект і закінчіть налаштування
  • Talend відкриється на вкладці дизайнера.
  • Talend - це інструмент на основі затемнення, і компоненти можна перетягнути з палітри, або ви можете натиснути і ввести ім'я компонентів.

2. Перше завдання читання файлу

  • Шукайте компонент tFileinputdelimited. Цей компонент використовується для читання будь-яких файлів з обмеженим доступом.
  • Помістіть компонент tFileinputdelitedited. Шукайте tLogRow і помістіть його в дизайнера робіт.
  • Клацніть правою кнопкою миші tFileinputdelimited та виберіть рядок-> main та намалюйте рядок до tLogRow.
  • У компоненті вкладка вибирає шлях до файлу, який ви бажаєте прочитати, і дає роздільник рядків як \ n. Якщо файл має роздільник, ви можете згадати його.
  • Клацніть схему та вкажіть деталі типу стовпця, або ви можете прочитати весь рядок у вигляді рядка з одним стовпцем, а значення роздільника має бути порожнім.
  • Ви також можете пропустити заголовок і колонтитул.
  • У компоненті tLogRow виберіть спосіб, яким ви хочете бачити дані. Формат таблиці або однорядковий формат.
  • tLogRow відображає вихід у консолі запуску.
  • Після підключення і tFileinputdelimited, і tLogRow запустіть завдання з вкладки Run.
  • Ви можете побачити вміст файлу на консолі надрукованим.

3. Друга робота з використанням Tmap

  • Прочитайте файл і відфільтруйте його до різних вихідних файлів.
  • Прочитайте файл у компоненті tFileinputdelitedited із однією схемою стовпців як запис.
  • Компонент Tmap - Цей компонент допомагає перетворювати дані за допомогою деяких вбудованих функцій, таких як пошук, приєднання тощо.
  • У tmap створіть два виходи out1 та out2.
  • У фільтр out1 додайте record.contains («талант») і намалюйте запис у out1.
  • Намалюйте рядок запису до іншого out2.
  • З tmap візьміть основні рядки і підключіться до двох tFileoutputделімітованих.
  • out1 посилання на один tfileoutputdelimited1 як файл1.txt і out2 на інший tfileoutputdelimited2 як файл2.txt.
  • txt матиме записи, які містять талант.
  • txt матиме записи, які мають інші назви.

4. Вбудований і сховище

  • Вбудований означає, що ви повинні кожен раз встановлювати схему або деталі для підключення до бази даних.
  • Сховище стане в нагоді для збереження деталей у метаданих, щоб ви могли повторно використовувати ті самі деталі, не вводячи деталі кожен раз вручну. У метаданих ви можете зберегти файлові схеми, підключення до бази даних, з'єднання Hadoop, з'єднання вулика, з'єднання s3 та багато іншого.

Компоненти інтеграції даних Talend

Тут ми обговоримо компоненти інтеграції даних Talend.

1. tFileList: Цей компонент перераховує файли в каталозі або папці із заданим шаблоном маски файлів.

2. tMysqlConnection: Цей компонент використовується для з'єднання з базою даних MySQL. Компоненти Mysql можуть використовувати це з'єднання для зручного налаштування підключення до бази даних.

3. tMysqlInput: Цей компонент допомагає запустити запит бази даних mysql та отримати таблицю або стовпці. Цей компонент використовується для вибору запитів та отримання деталей.

4. tMysqlOutput: Цей компонент використовується для вставки або оновлення даних у базу даних Mysql.

5. tPrejob: Цей компонент є першим, що виконується в роботі, і його можна з'єднати з іншими компонентами в режимі Subjob.

6. tPostjob: Цей компонент є останнім, що виконується в роботі. Ви можете підключити це за допомогою компонентів, які закривають з'єднання.

7. tLogcatcher: Цей компонент фіксує попередження та помилки в роботі. Це найважливіший компонент, який використовується в техніці поводження з помилками. Журнали помилок можна записати за допомогою цього компонента разом із tfileoutputdelimited. Є понад 800+ компонентів.

8. Змінна контексту: змінні контексту - це змінні, які можуть бути використані в роботі будь-де. Він містить значення і може бути переданий на інше завдання, також використовуючи компоненти tRun. Використання змінних контексту полягає в тому, що ми можемо змінювати значення для різних цілей. Наприклад, ми можемо мати набір значень для групи контексту розвитку та різний набір контекстних значень для виробництва. Таким чином, нам не потрібно змінювати завдання, достатньо лише зміни параметрів контексту.

9. Побудова роботи: Щоб скласти роботу, клацніть завдання правою кнопкою миші та виберіть будівельну роботу. Ви можете імпортувати завдання збірки в TAC. У консолі адміністрування Talend ви плануєте роботу, щоб також викликати залежність від встановленого завдання. Ви також можете імпортувати завдання з сховища Nexus, використовуючи завдання артефакту.

10. Створіть завдання в TAC: Відкрийте диригента завдань у TAC. Клацніть нові завдання та виберіть звичайні завдання або артефакти. Імпортуйте завдання збірки або виберіть із Nexus. Виберіть сервер завдань, на якому буде працювати талант. Збережіть завдання. Тепер ви можете розгорнути та запустити завдання.

Висновок

  • "Спростіть ETL та ELT за допомогою провідного безкоштовного відкритого джерела ETL для великих даних".
  • У Talend Bigdata є багато компонентів для обробки величезних даних.
  • Стандартні завдання, робота Bigdata, потокові завдання Bigdata - це різні типи робіт, доступні в Talend.
  • Завдання Bigdata можуть бути створені в іскрі або в рамках MapReduce.

Рекомендована стаття

Це посібник з інтеграції даних Talend. Тут ми обговорюємо вступ до інтеграції даних Talend та переваги разом із додатками та компонентами. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше

  1. Інструмент інтеграції даних | Кращі 12 інструментів
  2. Сказати питання та відповіді на інтерв'ю
  3. Найкращі засоби візуалізації даних із їх типами
  4. Talend vs Mulesoft - відмінності
  5. Що таке Марта даних?

Категорія: