Вступ до дерева рішень в машинному навчанні

Дерево рішень в машинному навчанні отримало широке поле в сучасному світі. У МЛ існує багато алгоритмів, які використовуються в нашому повсякденному житті. Одним з важливих алгоритмів є Дерево рішень, яке використовується для класифікації, а також рішення для проблем регресії. Оскільки це прогнозна модель, аналіз дерева рішень проводиться за допомогою алгоритмічного підходу, коли набір даних розділений на підмножини відповідно до умов. Сама назва говорить про те, що це деревоподібна модель у вигляді тверджень if-then-else. Чим глибше дерево і чим більше вузлів, тим краща модель.

Типи дерева рішень в машинному навчанні

Дерево рішень - це деревоподібний графік, де сортування починається від кореневого вузла до вузла листя до досягнення мети. Він є найпопулярнішим для прийняття рішень та класифікації на основі керованих алгоритмів. Він побудований за допомогою рекурсивного розподілу, де кожен вузол виступає як тестовий випадок для деяких атрибутів, а кожен край, що походить від вузла, є можливою відповіддю в тестовому випадку. І кореневий, і лістовий вузли - два об'єкти алгоритму.

Давайте розберемося за допомогою невеликого прикладу так:

Тут кореневий вузол - вам менше 40 чи ні. Якщо так, то ви їсте фаст-фуд? Якщо так, то ви непридатні, інакше ви придатні. А якщо вам більше 40, то чи займаєтесь ви фізичними вправами? Якщо так, то ти підходить, інакше ти непридатний. Це в основному була бінарна класифікація.

Є два типи дерев рішень:

  1. Класифікаційні дерева: Наведений вище приклад є категоризованим деревом класифікації.
  2. Дерева регресії : У цьому алгоритмі рішення або результат є безперервним. Він отримав єдиний числовий висновок з більшою кількістю входів або предикторів.

У дереві рішень типовим завданням є визначення атрибута на кожному вузлі. Процес називається виділенням атрибутів і має використовувати деякі заходи для ідентифікації атрибута.

а. Приріст інформації (IG)

Інформаційний прийом вимірює, скільки інформації дає окрема особливість про клас. Він виступає головним ключем для побудови дерева рішень. Перший поділяється атрибут з найвищим рівнем інформації. Отже, Дерево рішень завжди максимально збільшує інформаційний приріст. Коли ми використовуємо вузол для поділу екземплярів на менші підмножини, то ентропія змінюється.

Ентропія: це міра невизначеності чи домішки у випадковій змінній. Ентропія вирішує, як дерево рішень розбиває дані на підмножини.

Рівняння для отримання інформації та ентропії наступні:

Інформаційний приріст = ентропія (батьківський) - (середньозважений * ентропія (діти))

Ентропія: ∑p (X) log p (X)

P (X) тут - частка прикладів у даному класі.

б. Індекс Джині

Індекс Джині - це показник, який визначає, як часто неправильно ідентифікований елемент буде вибраний неправильно. У ньому чітко зазначено, що першому перевагу надається атрибут з низьким індексом Джині.

Індекс Джині: 1-∑ p (X) 2

Сплит творення

  1. Щоб створити розкол, спочатку нам потрібно обчислити бал Джині.
  2. Дані розбиваються за допомогою списку рядків, що мають індекс атрибута та значення розбиття цього атрибута. Після того, як буде знайдено правий і лівий набір даних, ми можемо отримати значення розбиття за балом Джині з першої частини. Тепер значення розділення буде визначальним, де атрибут буде знаходитися.
  3. Наступна частина - це оцінка всіх розбитків. Найкраще можливе значення обчислюється шляхом оцінки вартості розбиття. Найкраще розщеплення використовується як вузол дерева рішень.

Побудова дерева - дерево рішень у машинному навчанні

Для створення дерева рішень є два етапи.

1. Створення термінального вузла

Створюючи термінальний вузол, найважливіше - зазначити, чи потрібно нам припиняти вирощування дерев чи продовжувати далі. Для цього можна використовувати наступні способи:

  • Максимальна глибина дерева: Коли дерево досягає максимальної кількості вузлів, виконання зупиняється на цьому.
  • Мінімальні записи вузлів: це може бути визначено як мінімум шаблонів, необхідних для вузла. Тоді ми можемо зупинити додавання кінцевих вузлів негайно, і отримаємо ці мінімальні записи вузлів.

2. Рекурсивне розщеплення

Після створення вузла ми можемо створити дочірній вузол рекурсивно, розділивши набір даних і викликавши одну і ту ж функцію кілька разів.

Прогнозування

Після побудови дерева прогнозування виконується за допомогою рекурсивної функції. Цей же процес прогнозування повторюється знову з лівими або правими дочірніми вузлами тощо.

Переваги та недоліки дерева рішень

Нижче наведено деякі переваги та недоліки:

Переваги

Дерево рішень має деякі переваги в машинному навчанні:

  • Вичерпний: Він враховує кожен можливий результат рішення і відповідно простежує кожен вузол до висновку.
  • Конкретні: Дерева рішень присвоюють конкретне значення кожній проблемі, рішенню та результату. Це зменшує невизначеність та неоднозначність, а також підвищує чіткість.
  • Простота: Дерево рішень - один з простіших і надійних алгоритмів, оскільки він не має складних формул або структур даних. Для розрахунку потрібні лише проста статистика та математика.
  • Універсальний: Дерева рішень можуть бути побудовані вручну за допомогою математики та також використовуватися з іншими комп'ютерними програмами.

Недоліки

Дерево рішень має деякі недоліки в машинному навчанні:

  • Дерева рішень менш підходять для оцінювання та фінансових завдань, коли нам потрібні відповідні значення.
  • Це алгоритм класифікації, схильний до помилок, порівняно з іншими обчислювальними алгоритмами.
  • Це обчислювально дорого. На кожному вузлі розбиття кандидата необхідно відсортувати перед тим, як визначити найкраще. Є й інші альтернативи, які багато суб’єктів господарювання дотримуються для виконання фінансових завдань, оскільки Дерево рішень занадто дороге для оцінки.
  • Працюючи з безперервними змінними, Дерево рішень не підходить як найкраще рішення, оскільки воно, як правило, втрачає інформацію при категоризації змінних.
  • Іноді це нестабільно, оскільки невеликі зміни в наборі даних можуть призвести до утворення нового дерева.

Висновок - Дерево рішень у машинному навчанні

Як один із найважливіших та керованих алгоритмів, Дерево рішень відіграє важливу роль в аналізі рішень у реальному житті. Як модель прогнозування вона використовується в багатьох областях для свого розбитого підходу, який допомагає визначити рішення, засновані на різних умовах, або методом класифікації, або регресії.

Рекомендовані статті

Це посібник з дерева рішень в машинному навчанні. Тут ми обговорюємо вступ, типи дерев рішень у машинному навчанні, створення розділів та створення дерева. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Типи даних Python
  2. Набори даних Tableau
  3. Моделювання даних Кассандри
  4. Тестова таблиця рішень
  5. Топ 8 етапів життєвого циклу машинного навчання

Категорія: