Вступ до методів обміну даними

Дані щодня збільшуються у величезних масштабах. Але всі зібрані або зібрані дані не корисні. Змістовні дані повинні бути відокремлені від галасливих даних (безглуздих даних). Цей процес відокремлення здійснюється за допомогою передачі даних.

Що таке майнінг даних?

Обмін даними - це процес отримання корисної інформації чи знань із величезної кількості даних (або великих даних). Розрив між даними та інформацією зменшився за допомогою різних інструментів видобутку даних. Обмін даними може також називатися виявленням знань з даних або KDD .

Джерела: - www.ques10.com

Обмін даними може здійснюватися на різних типах баз даних та сховищах інформації, таких як реляційні бази даних, сховища даних, транзакційні бази даних, потоки даних та багато іншого.

Різні методи обміну даними:

Для обміну даними використовується багато методів, але найважливішим кроком є ​​вибір відповідного методу у відповідності з бізнесом або постановкою проблеми. Ці методи обміну даними допомагають передбачити майбутнє, а потім приймати рішення відповідно. Вони також допомагають аналізувати тенденції ринку та збільшувати дохід компанії.

Деякі методи обміну даними:

  • Асоціація
  • Класифікація
  • Аналіз кластеризації
  • Прогнозування
  • Послідовні візерунки або відстеження візерунків
  • Дерева рішень
  • Аналіз зовнішнього вигляду або аналіз аномалії
  • Нейронна мережа

Давайте розберемося у кожному методі вилучення даних один за одним.

1. Асоціація:

Це метод, який використовується для пошуку кореляції між двома або більше елементами шляхом ідентифікації прихованої структури в наборі даних, а отже, також називається аналізом відношень . Цей метод використовується в аналізі ринкових кошиків для прогнозування поведінки замовника.

Припустимо, менеджер із маркетингу супермаркету хоче визначити, які продукти часто купуються разом.

Як приклад,

Купує (x, «пиво») -> купує (x, «чіпси») (підтримка = 1%, впевненість = 50%)

  • Тут х являє собою клієнт, який купує пиво та чіпси разом.
  • Впевненість свідчить про впевненість, що якщо клієнт купить пиво, є 50% шансів, що він також придбає чіпси.
  • Підтримка означає, що 1% усіх аналізованих транзакцій показав, що пиво та чіпси купували разом.

Можна розглянути багато подібних прикладів, як хліб з маслом або комп'ютер та програмне забезпечення.

Існує два типи правил асоціації:

  • Правило одновимірної асоціації: ці правила містять один атрибут, який повторюється.
  • Правило багатовимірної асоціації: ці правила містять кілька атрибутів, які повторюються.

https://bit.ly/2N61gzR

2. Класифікація:

Цей метод передачі даних використовується для розмежування елементів у наборах даних на класи або групи. Це допомагає точно передбачити поведінку предметів у групі. Це два етапи:

  • Крок навчання (етап навчання): У цьому алгоритмі класифікації будується класифікатор, аналізуючи навчальний набір.
  • Крок класифікації: Дані тестування використовуються для оцінки точності або точності правил класифікації.

Наприклад, банківська компанія використовує для ідентифікації заявників на кредити при низьких, середніх або високих кредитних ризиках. Аналогічно, медичний дослідник аналізує дані раку, щоб передбачити, яке ліки призначити пацієнту.

Джерела: - www.tutorialspoint.com

3. Аналіз кластеризації:

Кластеризація майже схожа на класифікацію, але в цих кластерах вони складаються залежно від подібності елементів даних. У різних кластерах є різні або неспоріднені об'єкти. Його також називають сегментацією даних, оскільки він розділяє величезні набори даних на кластери відповідно до подібності.

Існують різні методи кластеризації, які використовуються:

  • Ієрархічні агломераційні методи
  • Методи на основі сітки
  • Методи розподілу
  • Методи на основі моделей
  • Методи на основі щільності

Подібний приклад претендентів на позику також може бути розглянуто тут. Існують деякі відмінності, які зображені на малюнку нижче.

https://bit.ly/2N6aZpP

4. Прогнозування:

Цей метод використовується для прогнозування майбутнього на основі минулих та сучасних тенденцій чи набору даних. Прогнозування в основному використовується в поєднанні інших методів вилучення даних, таких як класифікація, відповідність шаблонів, аналіз тенденцій та співвідношення.

Наприклад, якщо менеджер з продажу супермаркету хотів би передбачити суму доходу, яку кожен товар отримає на основі даних про минулі продажі. Він моделює функцію безперервного значення, яка передбачає відсутні числові значення даних.

Джерела: - data-mining.philippe-fournier

Регресійний аналіз - найкращий вибір для прогнозування. З його допомогою можна встановити залежність між незалежними змінними та залежними змінними.

5. Послідовні шаблони або відстеження візерунків:

Цей метод передачі даних використовується для виявлення закономірностей, які часто трапляються протягом певного періоду часу.

Наприклад, менеджер з продажу одягу компанії бачить, що продажі куртки, схоже, збільшуються безпосередньо перед зимовим сезоном, або продажі в пекарні збільшуються в переддень Різдва чи Нового року.

Давайте розглянемо приклад з графіком

Джерела: - data-mining.philippe-fournier-viger

6.Дерезання дерев:

Дерево рішення - це структура дерева (як випливає з назви), де

  • Кожен внутрішній вузол представляє тест на атрибут.
  • Гілка позначає результат тесту.
  • Кінцеві вузли містять мітку класу.
  • Найвищий вузол - це кореневий вузол, на який є просте запитання, яке має два чи більше відповідей. Відповідно, дерево росте і формується схема структури, схожа на структуру.

Джерела: - www.tutorialride.com

У цьому рішенні уряд дерев класифікує громадян, які не досягли 18 або старше 18 років. Це допоможе їм вирішити, чи потрібно видавати ліцензію певному громадянину чи ні.

7. Аналіз зовнішньої діяльності або аналіз аномалії:

Цей метод передачі даних використовується для ідентифікації елементів даних, які не відповідають очікуваній схемі чи очікуваній поведінці. Ці несподівані елементи даних розглядаються як пережиті або шумові. Вони корисні в багатьох областях, таких як виявлення шахрайства на кредитній картці, виявлення вторгнень, виявлення несправностей тощо. Це також називається Outlier Mining .

Наприклад, припустимо, що наведений нижче графік побудований за допомогою деяких наборів даних у нашій базі даних.

Так намальована найкраща лінія підгонки. Точки, що лежать поблизу лінії, демонструють очікувану поведінку, тоді як точка, що знаходиться далеко від лінії, - це Аутлер.

Це допоможе виявити аномалії та вжити відповідних заходів відповідно.

https://bit.ly/2GrgjDP

8. Нейронна мережа:

Цей метод або модель вилучення даних заснована на біологічних нейронних мережах. Це сукупність нейронів на зразок процесорних одиниць із зваженими зв’язками між ними. Вони використовуються для моделювання взаємозв'язку між входами та виходами. Він використовується для класифікації, регресійного аналізу, обробки даних тощо. Ця методика працює на трьох опорах -

  • Модель
  • Алгоритм навчання (контрольований або непідконтрольний)
  • Функція активації

Джерела: - www.saedsayad.com

Рекомендовані статті

Це був посібник із методів обміну даними. На цьому прикладі ми обговорили, що таке обмін даними та різні типи методу обміну даними. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Програмне забезпечення Big Data Analytics
  2. Питання щодо інтерв'ю щодо структури даних
  3. Важливі методики видобутку даних
  4. Архів архітектури даних

Категорія: