Регресія проти класифікації - Основні відмінності та порівняння

Різниця між регресією та класифікацією

У цій статті Регресія проти класифікації обговоримо основні відмінності між регресією та класифікацією. Машинне навчання широко поділяється на два типи: це наглядове машинне навчання та непідконтрольне машинне навчання. У контрольованому машинному навчанні ми маємо відоме значення вихідних даних у наборі даних, і ми тренуємо модель на їх основі та використовуємо її для прогнозування, тоді як при непідконтрольному машинному навчанні у нас немає відомого набору вихідних значень. Заздалегідь, щоб розмежувати класифікацію та регресію, давайте розберемося, що означає ця термінологія в машинному навчанні. Регресія - це алгоритм машинного навчання під керівництвом, який може бути навчений прогнозувати реальні виходи. Класифікація - це алгоритм керованого машинного навчання, який навчається визначати категорії та передбачати, у яку категорію вони потрапляють за новими значеннями.

Порівняння між категоріями регресії та класифікації (Інфографіка)

Нижче наведено топ-5 порівнянь між регресією та класифікацією :

Основні відмінності між регресією та класифікацією

Обговоримо деякі ключові відмінності між регресією та класифікацією у наступних пунктах:

Класифікація - це все стосується прогнозування етикетки чи категорії. Алгоритм класифікації класифікує необхідний набір даних на одну з двох або більше міток, алгоритм, який має справу з двома класами або категоріями, відомий як двійковий класифікатор, а якщо існує більше двох класів, то його можна назвати як алгоритм класифікації багатокласності.
Регресія полягає у пошуку оптимальної функції для ідентифікації даних безперервних реальних значень та прогнозування цієї кількості. Регресія з декількома змінними як вхідні дані або функції для тренування алгоритму відома як проблема багатоваріантної регресії. Якщо в задачі регресії вхідні значення залежать або впорядковані часом, це відоме як проблема прогнозування часових рядів.
Однак модель Класифікації також передбачає неперервне значення, яке є ймовірністю виникнення події, що належить до цього відповідного класу виводу. Тут вірогідність події представляє ймовірність даного прикладу, що належить до конкретного класу. Передбачуване значення ймовірності може бути перетворене у значення класу, вибравши мітку класу, яка має найбільшу ймовірність.
Давайте зрозуміємо це краще, побачивши приклад, припустимо, що ми навчаємо модель передбачати, чи є у людини рак чи не на основі деяких особливостей. Якщо ми отримаємо ймовірність того, що людина захворіє на рак як 0, 8, а рак не має 0, 2, ми можемо перетворити 0, 8 ймовірність на позначку класу, що має рак, оскільки вона має найбільшу ймовірність.
Як було сказано вище в класифікації, щоб побачити, наскільки добре працює класифікаційна модель, ми обчислюємо точність. Подивимося, як виконується обчислення, точність класифікації можна виконати, взявши відношення правильних прогнозів до загальних прогнозів, помножених на 100. Якщо зроблено 50 прогнозів і 10 з них правильних, а 40 - неправильних, точність буде 20 %.

Точність = (Кількість правильних прогнозів / Загальна кількість прогнозів) * (100)

Точність = (10/50) * (100)
Точність = 20%

Як було сказано вище в регресії, для визначення того, наскільки хороша модель регресії працює найпопулярнішим способом, є обчислення середньоквадратичної похибки квадрата (RMSE). Подивимося, як буде проведено розрахунок.

Прогнозоване значення регресійної моделі становить 4, 9, тоді як фактичне значення 5, 3.

Прогнозоване значення регресійної моделі становить 2, 3, тоді як фактичне значення 2, 1.

Прогнозоване значення регресійної моделі - 3, 4, тоді як фактичне значення - 2, 9.

Тепер, Root означає, що квадратну помилку можна обчислити за допомогою формули.

Похибка в квадраті дорівнює (5.3-4.9) 2 = 0.16, (2.1-2.3) 2 = 0.04, (2.9-3.4) 2 = 0.25

Середнє значення помилки в квадраті = 0, 45 / 3 = 0, 15

Середньоквадратична похибка = квадратний корінь 0, 15 = 0, 38

Це RMSE = 0, 38. Існує багато інших методів обчислення ефективності моделі, але найбільш використовуваним є RMSE, оскільки RMSE пропонує оцінку помилок у тих же одиницях, що і прогнозоване значення.

Приклади:

Більшості інженерів-науковців даних важко вибрати між регресією та класифікацією на початковій стадії своєї кар'єри. Щоб зробити це легше, давайте подивимось, як виглядають проблеми класифікації та як виглядають проблеми регресії,

Класифікація

Прогнозуючи, буде завтра дощ чи ні.
Прогнозуючи, що людина повинна купувати це добро чи не отримувати прибуток.
Прогнозування, чи є у людини захворювання чи ні.

Якщо ви помічаєте для кожної ситуації тут, як передбачуване вихідне значення може бути або Так, ні.

Регресія

Прогнозування ціни на землю.
Прогнозування ціни акцій.

Якщо ви помічаєте для кожної ситуації, то більшість з них мають числове значення як прогнозований вихід.

Порівняльна таблиця регресії та класифікації

У таблиці нижче наведено порівняння між регресією та класифікацією :

Параметр	Регресія	Класифікація
Тип функції картографування	У цих алгоритмах функція відображення буде обрана типу, який може вирівняти значення для безперервного виводу.	У цих алгоритмах функція відображення буде обрана типу, який може вирівняти значення за попередньо визначеними класами.
Залучає передбачення	Для цього типу алгоритмів прогнозовані дані належать до категорії безперервних значень. (Як 23, 34, 45, 67, 28)	За цим типом прогнозованих даних алгоритму належить до категорії дискретних значень. (Як-от Так, чи Ні, належить до A або B або C).
Метод розрахунку	Коренева середньоквадратична помилка буде обчислена для визначення найкращого набору даних.	Точність буде розрахована для визначення найкращого набору даних.
Характер прогнозованих даних	Упорядковано характер прогнозованих даних. (Тобто передбачені значення будуть у певній послідовності).	Характер прогнозованих даних не упорядкований. (Тобто передбачені значення не будуть в жодній послідовності).
Алгоритми	Підтримує вектор регресії та регресійних дерев також відомий як випадковий ліс, який є одним із популярних прикладів алгоритмів регресії.	Naive Bayes, дерева рішень та K Найближчі сусіди - деякі популярні приклади алгоритмів класифікації.

Висновок

Це деякі ключові відмінності між класифікацією та регресією. У деяких випадках прогнозовані в процесі регресії безперервні вихідні значення можуть бути згруповані в мітки та змінити в класифікаційні моделі. Отже, ми повинні чітко розуміти, яку вибрати, виходячи з ситуації, і що ми хочемо, щоб був прогнозований результат.