В одну сторону ANOVA в R - Як працює АНОВА в одну сторону?

Односторонній аналіз варіації

Аналіз дисперсії, написаний невдовзі як ANOVA - це процедура, за допомогою якої ми можемо порівнювати засоби для трьох чи більше груп населення. Статистично ми складаємо дві гіпотези, нульову гіпотезу: «Усі засоби населення рівні» та альтернативна гіпотеза: «Не всі засоби населення однакові». Це дозволяє нам перевірити рівність декількох засобів в одному тесті, а не порівнювати два засоби одночасно, що неможливо, коли існує кілька груп. У цій темі ми збираємось дізнатися про АНОВА в одну сторону в Р.

Односторонній аналіз варіації допомагає нам аналізувати лише один фактор або змінну. Наприклад, існує п'ять регіонів, і ми хочемо перевірити, чи середньодобові опади для всіх п'яти регіонів рівні, чи вони різні. У цьому випадку є лише один фактор, який є регіоном, тому що нам потрібно перевірити, чи впливають регіональні фактори на кількість опадів та структуру.

Припущення аналізу варіації

Нижче наведено припущення, які повинні бути виконані для застосування однобічного ANOVA:

Популяції, з яких беруть зразки, зазвичай розподіляються.
Популяції, з яких беруть зразки, мають однакову дисперсію або стандартне відхилення.
Зразки, взяті з різних популяцій, є випадковими та незалежними.

Як працює одностороння ANOVA в R?

Для нашої демонстрації ми використовуємо дані, які містять дві змінні, а саме. Бренд та продажі. Існує чотири марки - ATB, JKV, MKL та PRQ. Щомісячно продаються дані бренди. Нам потрібно перевірити, чи середні продажі у чотирьох марок рівні, чи вони відрізняються один від одного. Щоб перевірити це, ми будемо використовувати АНОВА в одну сторону. Покрокова процедура реалізації ANOVA така:

По-перше, імпортуйте дані в R. Дані є у форматі CSV. Отже, щоб імпортувати його, ми будемо використовувати функцію read.csv ().

Перегляньте перші кілька записів даних. Це важливо, щоб перевірити, чи правильно було імпортовано дані в R. Аналогічно, ми застосуємо до них функцію підсумкових даних (), щоб отримати основні відомості про дані.

Кожен раз, коли ми використовуємо змінні, присутні в наборі даних, нам потрібно чітко згадати назву набору даних, наприклад, brand_sales_data $ Brand або brand_sales_data $ Sales. Щоб подолати це, ми використаємо функцію прикріплення. Функцію потрібно застосувати, як показано нижче.

Давайте об'єднаємо продажі за маркою, використовуючи середнє або стандартне відхилення. Агрегація допомагає нам отримати основне уявлення про дані.

Вищенаведений результат показує, що засоби для чотирьох різних груп не рівні. JKV має найвищий середній обсяг продажів.

Як видно вище, стандартні відхилення в чотирьох групах не показують суттєвої різниці, і це найбільше для марки MKL.

Тепер ми застосуємо ANOVA для перевірки, якщо серед трьох груп населення рівні чи є різниця.

З наведених вище результатів ми бачимо, що тест ANOVA для Бренду є вагомим через р <0, 0001. Ми можемо тлумачити, що всі бренди не мають однакових рівнів переваг на ринку, що впливає на продаж цих брендів на ринку. Це може бути пов’язано з багатьма факторами та сподобанням людям певної марки.

Вищенаведений результат можна візуалізувати і це полегшує інтерпретацію. Для цього ми використаємо функцію plotmeans () у бібліотеці gplots (). Він працює як нижче:

Як ми бачимо вище, функція plotmeans () в пакеті gplots дозволяє нам візуально порівнювати засоби різних груп. Ми можемо бачити, що засоби не однакові у чотирьох брендів. Однак засоби для брендів MKL і PRQ потрапляють в тісний діапазон.

Наведений вище аналіз допомагає нам перевірити, чи мають бренди рівні кошти чи ні, однак зробити порівняння у парі складно. Ми можемо проводити парне порівняння для різних марок, використовуючи функцію TukeyHSD (), яка полегшує перевірку, чи бренд значно відрізняється від будь-якого з решти.

Паральні порівняння, як зазначено вище. Різниця між будь-якими двома групами значна, якщо р <0, 001. Як ми бачимо вище, р-значення для пари PRQ-MKL набагато вище, що вказує на те, що обидві марки не сильно відрізняються один від одного.

Щоб візуалізувати парні порівняння, ми побудуємо наведені вище результати, як показано нижче:

Перша функція par обертає мітки осі, роблячи їх горизонтальними, а друга операція par встановлює поля так, щоб мітки правильно підходили, інакше вони вийдуть з екрана.

Наведений вище графік пропонує хороший огляд, але ми можемо побудувати результати у вигляді боксплоту, щоб отримати кращі уявлення для більш чіткого тлумачення, як показано нижче.

Використовувана вище функція glht () постачається з вичерпним набором методів порівняння декількох засобів. Зауважте, опція рівня у функції cld () відноситься до рівня значущості, наприклад, 0, 05 або 95-відсоткова впевненість)

Використовуючи вищезазначений сюжет, стає легко порівнювати засоби по групах, а також це полегшує систематичне тлумачення. Для кожної марки є листи вгорі сюжету. Якщо дві марки мають однакову літеру, то вони не мають суттєво різних засобів, як марки MKL та PRQ, у цьому випадку однакові букви b.

До цього часу ми реалізували ANOVA та використовували сюжети для візуалізації результатів. Однак не менш важливо перевірити припущення. Спочатку ми перевіримо припущення про нормальність.

Автомобільний пакет в R забезпечує функцію qqPlot (). Наведений сюжет показує, що дані підпадають у межах 95% довіри. Це вказує на те, що припущення про нормальність майже виконано.

Далі ми перевіримо, якщо відхилення в різних брендах рівні. Для цього ми будемо використовувати тест Бартлетта

Значення р показує, що відхилення в групі суттєво не відрізняються

І останнє, але не менш важливе, ми перевіримо, чи існують люди, які впливають на результати ANOVA.

З вищенаведеного результату ми бачимо, що в даних немає вказівок на виснаження (NA виникає при p> 1)

Беручи до уваги результати QQ Plot, тесту Бартлетта та тесту Outlier, можна сказати, що дані відповідають усім припущенням ANOVA і отримані результати є достовірними.

Висновок - Одностороння ANOVA в R

ANOVA - це дуже зручна статистична методика, яка може бути використана для порівняння серед різних груп населення. R пропонує широкий спектр пакетів для впровадження ANOVA, отримання результатів та підтвердження припущень. У R статистичні результати можна інтерпретувати у візуальних формах, які пропонують глибші уявлення.