Алгоритм дерева рішень - Пояснення та роль ентропії в дереві рішень

Зміст:

Anonim

Вступ до алгоритму дерева рішень

Коли у нас з’явилася проблема вирішити, яка є або класифікацією, або проблемою регресії, алгоритм дерева рішень є одним з найпопулярніших алгоритмів, що використовуються для побудови моделей класифікації та регресії. Вони підпадають під категорію контрольованого навчання, тобто дані, що мають маркування.

Що таке алгоритм дерева рішень?

Алгоритм дерева рішень - це контрольований алгоритм машинного навчання, де дані постійно діляться на кожен рядок на основі певних правил до отримання остаточного результату. Візьмемо приклад, припустимо, ви відкрили торговий центр, і, звичайно, ви хочете, щоб він з часом розвивався в бізнесі. Тож для цього вам потрібно буде повернути клієнтів плюс нових клієнтів у вашому торговому центрі. Для цього ви підготували різні бізнес-маркетингові стратегії, такі як надсилання електронних листів потенційним клієнтам; створювати пропозиції та угоди, орієнтуючись на нових клієнтів тощо. Але як ми можемо знати, хто є потенційними клієнтами? Іншими словами, як ми класифікуємо категорію клієнтів? Як і деякі клієнти відвідуватимуть раз на тиждень, а інші хотіли б відвідувати один чи два рази на місяць, або деякі відвідують через квартал. Отже дерева рішень є одним з таких алгоритмів класифікації, який класифікує результати за групами, поки не залишиться більше подібності.

Таким чином, дерево рішень складається в структурі, що складається з дерева. Основними компонентами дерева рішень є:

  • Вузли прийняття рішень, де дані розбиті або скажімо, це місце для атрибута.
  • Посилання рішення, що являє собою правило.
  • Листки для прийняття рішень, які є кінцевими результатами.

Розробка алгоритму дерева рішень

У роботі дерева рішень є багато кроків:

1. Розщеплення - це процес розподілу даних на підмножини. Розщеплення можна проводити за різними факторами, як показано нижче, тобто за ознакою статі, висоти або на основі класу.

2. Обрізка - це процес укорочення гілок дерева рішень, отже, обмеження глибини дерева

Обрізка буває також двох видів:

  • Попередня обрізка - тут ми припиняємо рости дерево, коли не знаходимо жодної статистично значущої асоціації між атрибутами та класом у будь-якому конкретному вузлі.
  • Після обрізки - для того, щоб провести обрізку, ми повинні перевірити ефективність моделі тестового набору, а потім вирізати гілки, що є результатом надмірного шуму з навчального набору.

3. Вибір дерева - Третій крок - це процес пошуку найменшого дерева, яке відповідає даним.

Приклади та ілюстрація побудови дерева рішень

Тепер, як ми дізналися принципи Дерева рішень. Давайте розберемось і проілюструємо це за допомогою прикладу.

Скажімо, ви хочете грати в крикет в якийсь конкретний день (Наприклад, субота). Які фактори, що беруть участь, визначають, відбудеться чи ні?

Зрозуміло, що головним фактором є клімат, жоден інший фактор не має такої великої ймовірності, як багато клімату для перерви у грі.

Ми зібрали дані за останні 10 днів, які представлені нижче:

ДеньПогодаТемператураВологістьВітерГра?
1ХмарноГарячийВисокийСлабкийТак
2СонячноГарячийВисокийСлабкийНі
3СонячноЛегкийНормальнийСильнийТак
4ДощовийЛегкийВисокийСильнийНі
5ХмарноЛегкийВисокийСильнийТак
6ДощовийКласноНормальнийСильнийНі
7ДощовийЛегкийВисокийСлабкийТак
8СонячноГарячийВисокийСильнийНі
9ХмарноГарячийНормальнийСлабкийТак
10ДощовийЛегкийВисокийСильнийНі

Давайте побудуємо наше дерево рішень на основі отриманих нами даних. Отже, ми розділили дерево рішень на два рівні: перший заснований на атрибуті "Погода", а другий - на "Вологість" та "Вітер". На малюнках нижче зображено вивчене дерево рішень.

Ми також можемо встановити деякі порогові значення, якщо функції безперервні.

Що таке ентропія в алгоритмі дерева рішень?

Простими словами, ентропія - це міра того, наскільки невпорядкованими є ваші дані. Хоча ви, можливо, чули цей термін на уроках математики чи фізики, тут це те саме.

Причина, що ентропія використовується в дереві рішень, полягає в тому, що кінцевою метою в дереві рішень є згрупування подібних груп даних в подібні класи, тобто впорядкування даних.

Давайте подивимось на зображенні нижче, де у нас є початковий набір даних, і нам потрібно застосувати алгоритм дерева рішень, щоб згрупувати подібні точки даних в одній категорії.

Після розколу рішення, як ми добре бачимо, більшість червоних кіл потрапляють під один клас, тоді як більшість синіх хрестів потрапляють під інший клас. Звідси було прийнято рішення про класифікацію ознак, які можуть базуватися на різних факторах.

Тепер спробуємо тут зробити математику:

Скажімо, у нас є "N" набори цього елемента, і ці елементи поділяються на дві категорії, і тепер для того, щоб групувати дані на основі міток, вводимо співвідношення:

Ентропія нашої множини задається наступним рівнянням:

Давайте перевіримо графік для даного рівняння:

Вище зображення (з р = 0, 5 і q = 0, 5)

Переваги

1. Дерево рішень просте для розуміння, і як тільки воно буде зрозуміле, ми можемо його побудувати.

2. Ми можемо реалізувати дерево рішень щодо числових, а також категоричних даних.

3. Дерево рішень є надійною моделлю з перспективними результатами.

4. Вони також ефективні у часі з великими даними.

5. Це вимагає менших зусиль для підготовки даних.

Недоліки

1. Нестабільність - Тільки якщо інформація точна і точна, дерево рішень дасть перспективні результати. Навіть якщо у вхідних даних незначна зміна, це може спричинити великі зміни в дереві.

2. Складність - Якщо набір даних величезний з великою кількістю стовпців і рядків, дуже складною завданням є проектування дерева рішень з багатьма гілками.

3. Витрати - іноді вартість також залишається головним фактором, оскільки коли потрібно побудувати складне дерево рішень, воно вимагає передових знань з кількісного та статистичного аналізу.

Висновок

У цій статті ми дізналися про алгоритм дерева рішень і як його побудувати. Ми також побачили велику роль, яку відіграє Entropy в алгоритмі дерева рішень і, нарешті, ми побачили переваги та недоліки дерева рішень.

Рекомендовані статті

Це було керівництвом до алгоритму дерева рішень. Тут ми обговорили роль, яку грають "Ентропія", "Робота", "Переваги" та "Недоліки". Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Важливі методи обміну даними
  2. Що таке веб-додаток?
  3. Керівництво до того, що таке наука даних?
  4. Питання щодо інтерв'ю з аналітиком даних
  5. Застосування дерева рішень при обробці даних