Що таке регресійний аналіз? - Типи та переваги регресійного аналізу

Зміст:

Anonim

Вступ до регресійного аналізу

Регресійний аналіз - алгоритм прогнозування моделювання для прогнозування результату змінної та ідентифікації змінних (незалежних змінних), які сприяють змінній результату або залежать від неї (цільової або залежної змінної). Простіше кажучи, це техніка пошуку зв’язку між незалежними та залежними змінними для отримання результату. Використовувати та інтерпретувати результат просто. Існує багато типів методів регресії, які широко застосовуються в різних секторах. Деякі з прикладів регресу - передбачити зарплату працівника або дохід компанії за рік.

Як працював регресійний аналіз?

Існує багато видів методів регресії, які використовуються з урахуванням різних факторів та результатів.

  • Лінійна регресія
  • Логістична регресія
  • Регресія Лассо / Рідж
  • Поліномна регресія

Нижче наведені деякі важливі статистичні регресійні тести, які використовуються в різних секторах:

1. Лінійна регресія

Це використовується, коли змінна результат лінійно залежить від незалежних змінних. Зазвичай він використовується, коли у нас немає величезного набору даних. Він також чутливий до людей, що пережили люди, тому якщо набір даних містить перенапруження, то краще обробити їх перед застосуванням лінійної регресії. Існують методи одно- і багатозмінної регресії. Проста лінійна регресія - це аналіз, коли змінна результат лінійно залежить від однієї незалежної змінної. Проста лінійна регресія випливає з рівняння прямої, яка наведена нижче:

Y=mx+c

Де,

Y = цільова, залежна або критеріальна змінна

x = незалежна чи предикторна змінна

m = коефіцієнт нахилу або регресії

c = постійна

Лінійна регресія з багато змінною визначає зв'язок між змінною результату та більш ніж однією незалежною змінною. З цього випливає нижченаведене рівняння прямої, де залежні змінні є лінійною комбінацією всіх незалежних змінних:

Y= m1x1+m2x2+m3x3+…mnan+c

Де,

Y = цільова, залежна або критеріальна змінна

x1, x2, x3… xn = Незалежні чи предикторні змінні

m1, m2, m3… mn = Коефіцієнти нахилу або регресії відповідних змінних

c = постійна

Лінійна регресія слідує принципу методу "Найменший квадрат". Цей метод зазначає, що лінія, що найкраще підходить, вибирається шляхом мінімізації суми помилки квадрата. Лінія, що найкраще підходить, вибирається там, де сума квадратичної помилки між спостережуваними даними та рядком мінімальна.

Існують деякі припущення, над якими слід подбати, перш ніж застосовувати лінійну регресію на наборі даних.

  • Повинна бути лінійна залежність між незалежними та залежними змінними.
  • Між незалежними змінними не повинно бути або мало мультиколінеарності. Мультиколінеарність визначається як явище, коли існує висока кореляція між незалежними змінними. Ми можемо ставитися до мультиколінеарності, видаляючи одну змінну, яка корелює або розглядає дві змінні як одну змінну.
  • Гомоседастичність: Вона визначається як стан, коли умови помилки повинні бути випадковим чином розподілені по лінії в регресійному аналізі. Не повинно бути жодного шаблону через лінію, якщо є якийсь ідентифікований шаблон, ніж дані, як кажуть, гетеросдастичні.
  • Усі змінні повинні бути нормально розподілені, що ми бачимо, будуючи графік QQ. Якщо дані зазвичай не поширюються, ми можемо використовувати будь-які нелінійні методи перетворення для їх обробки.

Отже, завжди доцільно перевірити припущення, застосовуючи лінійну регресію для отримання хорошої точності та правильного результату.

2. Логістична регресія

Цей метод регресії застосовується, коли змінна ціль або результат має категоричний або бінарний характер. Основна відмінність між лінійною та логістичною регресією полягає в цільовій змінній, у лінійній регресії вона повинна бути безперервною, тоді як у логістичній вона повинна бути категоричною. Змінна результат повинна мати лише два класи, не більше того. Деякі приклади - фільтри спаму в електронних листах (спам чи ні), виявлення шахрайства (шахрайство / не шахрайство) тощо. Це працює за принципом вірогідності. Його можна класифікувати на дві категорії, встановивши порогове значення.

Наприклад: Якщо є дві категорії A, B і ми встановимо порогове значення 0, 5, то ймовірність вище 0, 5 буде вважатися однією категорією, а нижче 0, 5 - іншою категорією. Логістична регресія ведеться за S-подібною кривою. Перш ніж побудувати модель логістичної регресії, ми повинні розділити набір даних на навчання та тестування. Оскільки цільова змінна категорична чи двійкова, ми повинні переконатися, що в навчальному наборі є належний баланс класу. Якщо є дисбаланс класу, це можна виправити за допомогою різних методів, як зазначено нижче:

  • Вибірка вище: У цій техніці клас, у якого є менше рядків, відбирається на вибірку, щоб відповідати кількості рядків класу більшості.
  • Вибірка вниз: У цій техніці клас, у якого є більше рядків, відбирається на вибір, щоб відповідати кількості рядків класу меншості.

Є кілька важливих моментів, які важливо зрозуміти, перш ніж застосовувати логістичну регресійну модель до наборів даних:

  • Цільова змінна повинна бути двійкової природи. Якщо в цільовій змінній є більше 2 класів, вона відома як мультиноміальна логістична регресія .
  • Між незалежними змінними не повинно бути або мало мультиколінеарності.
  • Для роботи потрібен величезний розмір вибірки.
  • Повинна бути лінійна залежність між незалежними змінними та журналом шансів.

Переваги регресії

Є багато переваг регресійного аналізу. Замість того, щоб розглянути наше відчуття кишечника і передбачити результат, ми можемо використовувати регресійний аналіз і показати достовірні бали для можливих результатів.

Деякі з них перелічені нижче:

  • Прогнозувати продажі та дохід у будь-якому секторі на коротший або триваліший період.
  • Прогнозувати норму скорочення споживачів у будь-якій галузі та з’ясувати відповідні заходи щодо їх зменшення.
  • Розуміти та прогнозувати рівні запасів складу.
  • Дізнатися, чи буде успішне впровадження нового товару на ринку, чи ні.
  • Передбачити, чи буде клієнт замовчувати кредит чи ні.
  • Щоб передбачити, купуватиме який-небудь замовник чи ні.
  • Виявлення шахрайства чи спаму

Висновок

Існують різні показники оцінки, які розглядаються після застосування моделі. Хоча існують припущення, необхідні для тестування перед застосуванням моделі, ми завжди можемо змінювати змінні за допомогою різних математичних методів та підвищувати продуктивність моделі.

Рекомендовані статті

Це посібник з регресійного аналізу. Тут ми обговорюємо Вступ до регресійного аналізу, як працював регресійний аналіз та переваги регресії. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Лінійний регресійний аналіз
  2. Інструменти аналізу даних
  3. Інструменти тестування регресії
  4. Аналіз великих даних
  5. Регресія проти класифікації | Основні відмінності