Вступ до створення дерева рішень
Зважаючи на недавнє швидке зростання кількості даних, генерованих інформаційними системами, для обробки великих наборів даних виникає домінуюча потреба у дереві рішень щодо зниження складності обчислень. Дерево рішень можна вважати найважливішим підходом для представлення класифікаторів. Іншими словами, можна сказати, що дані структуруються за допомогою стратегії поділу та перемоги. доки ми не знаємо, що ми лише досліджували. Дерево рішень структурується як основа для точного визначення значень та ймовірності результатів рішень
м кожного рівня вузла, допомагаючи особам, які приймають рішення, обирати правильні прогнози серед різних невідповідних даних. У цій статті ви ознайомитесь з тим, як простим способом створити дерево рішень на основі вибіркових даних.
Що таке дерево рішень?
Дерево рішень - це двійкова ієрархічна структура, яка визначає спосіб, коли кожен вузол розділяє набір даних на основі різних умов. Побудувати оптимальне дерево з модельним підходом для класифікації змінної відповіді, яка прогнозує значення цільової змінної за допомогою простих правил рішення (if-then-else операторів). Підхід під наглядовим навчанням здебільшого використовується в проблемах класифікації і вважається дуже ефективною прогностичною моделлю. Вони використовуються в різних областях застосування, таких як теорія ігор, штучний інтелект, машинне навчання, обмін даними та такі сфери, як безпека та медицина.
Як створити дерево рішень?
Дерево рішень створюється простими способами зверху вниз; вони складаються з вузлів, що утворюють спрямований вузол, який має кореневі вузли без вхідних країв, всі інші вузли називаються вузлами рішень (внутрішніми вузлами та вузлами листків, що відповідають міткам атрибутів та класів), що мають принаймні один вхідний край. Основна мета з наборів даних - мінімізувати помилки узагальнення шляхом пошуку оптимального рішення в дереві рішень.
Приклад дерева рішень пояснюється нижче з набором наборів даних. Мета - передбачити, чи зменшується прибуток, використовуючи атрибути життя та конкуренції. Тут змінні дерева рішень є категоричними (Так, Ні).
Набір даних
Життя | Конкуренція | Тип | Прибуток |
Старий | Так | Програмне забезпечення | Вниз |
Старий | Ні | Програмне забезпечення | Вниз |
Старий | Ні | Обладнання | Вниз |
Середина | Так | Програмне забезпечення | Вниз |
Середина | Так | Обладнання | Вниз |
Середина | Ні | Обладнання | Вгору |
Середина | Ні | Програмне забезпечення | Вгору |
Нові | Так | Програмне забезпечення | Вгору |
Нові | Ні | Обладнання | Вгору |
Нові | Ні | Програмне забезпечення | Вгору |
З вищенаведеного набору даних: життя, конкуренція, тип - це предиктори, а цільовий прибуток - ціль. Існують різні алгоритми для реалізації дерева рішень, але найкращий алгоритм, який використовується для побудови дерева рішень, - це ID3, який акцентує увагу на жадібному підході до пошуку. Дерево рішення слід за правилом виведення рішення або диз'юнктивною нормальною формою (^).
Дерево рішень
Спочатку весь тренувальний атрибут вважається коренем. Пріоритет порядку розміщення атрибутів як root виконується наступним підходом. Цей процес відомий тим, що вибір атрибутів визначає, який атрибут робиться кореневим вузлом на кожному рівні. Дерево слід двома кроками: будівництво дерева, обрізка дерева. І дані розділені по всіх вузлах прийняття рішень.
Інформаційний приріст
Це міра зміни ентропії на основі незалежної змінної. Дерево рішень повинно знайти найвищий приріст інформації.
Ентропія
Ентропія визначається як для кінцевої множини, міра випадковості даних або передбачуваності подій, якщо вибірка є аналогічними значеннями, то ентропія дорівнює нулю, і якщо вона однаково розділена з вибіркою, то вона є одиницею.
Ентропія для класу
Де p - ймовірність отримання прибутку, сказати "так", а N - втрата, скажіть "ні".
отже, ентропія = 1
Після обчислення значення ентропії необхідно визначити кореневий вузол з атрибуту.
Ентропія віку
Відповідно до набору даних для атрибута Life, у нас є старі = 3 вниз, середина = 2 вниз та одна вгору щодо прибуткової позначки.
Життя | Пі | ni | Я (пі, ні) | |
Старий | 0 | 3 | 0 | |
Середина | 2 | 2 | 1 | |
Нові | 3 | 0 | 0 |
Приріст = Ентропія класу - Ентропія життя = 1 - 0, 4 = 0, 6
Ентропія (конкуренція) = 0, 87
Конкуренція | Пі | ni | Я (пі, ні) | |
Так | 1 | 3 | 0, 8 | |
Ні | 4 | 2 | 0, 9 |
Приріст = Ентропія класу - Ентропія життя = 1 - 0, 87 = 0, 12
Тепер проблема виникає в атрибуті Life, де середина має рівну ймовірність і вгору, і вниз. отже, ентропія дорівнює 1. Аналогічно, вона розраховується для атрибута типу, знову-таки ентропія дорівнює 1, а коефіцієнт підсилення - 0. Тепер було створено повне рішення для отримання точного результату для середнього значення.
Переваги Дерева рішень
- Їх легко зрозуміти, а створені правила - гнучкі. Немає зусиль для підготовки даних.
- Візуальний підхід для представлення рішень та результатів дуже корисний.
- Дерево рішень обробляє набір навчальних даних з помилками та відсутніми значеннями.
- Вони можуть обробляти дискретні значення та числовий атрибут. Він працює категоричними та безперервними змінними для введення та виводу.
- Вони є корисним інструментом для ділової галузі, яка має приймати рішення після аналізу за певних умов.
Недоліки Дерева рішень
- Учні можуть створити складне дерево рішень залежно від навчених даних. цей процес називають надмірним, складним процесом у моделях дерева рішень.
- Значення, які бажано бути категоричними, якщо воно є безперервним, дерево рішення втрачає інформацію, що призводить до схильності до помилок. Експоненціальний приріст розрахунку вищий під час аналізу.
- Багато міток класів призводять до неправильних складних обчислень і дають низьку точність передбачення набору даних.
- Інформація, отримана в алгоритмі DT, дає упереджену відповідь на категоричні вищі значення.
Висновок
Отже, підсумовуючи, дерева рішень - це практичний та простий метод для навчання та широко відомий як ефективний інструмент для машинного навчання, оскільки за короткий час вони добре працюють із великими наборами даних. Це навчальне завдання, яке використовує статистичний підхід для узагальнення висновку. Тепер краще зрозуміти, чому дерево рішень використовується в прогнозуванні, а для науковців вони є потужним інструментом.
Рекомендовані статті
Це посібник зі створення дерева рішень. Тут ми обговорюємо, як створити дерево рішень разом з різними перевагами та недоліками. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -
- Огляд дерева рішень в R
- Що таке алгоритм дерева рішень?
- Вступ до інструментів штучного інтелекту
- Топ-10 запитань щодо інтерв'ю щодо штучного інтелекту