Вступ до ANOVA в R

Наступна стаття ANOVA в R надає контур порівняння середнього значення різних груп. Аналіз варіативності (ANOVA) - дуже поширена методика, яка використовується для порівняння середньої величини різних груп. Модель ANOVA використовується для тестування гіпотез, де певне припущення або параметр формується для сукупності, а статистичний метод використовується для визначення того, чи є гіпотеза правдивою чи помилковою.

Гіпотеза випливає з припущення слідчого та наявної інформації про населення. ANOVA називається Аналізом варіації та використовується для тестування гіпотез, де потрібно вимірювати засоби змінної у кількох незалежних групах.

Наприклад, у лабораторії для вивчення або винайдення нового ліки від ожиріння дослідники порівняють результат експериментального та стандартного лікування. У дослідженні ожиріння можуть бути отримані цінні результати, коли середній рівень ожиріння населення можна порівняти в різних вікових групах. У цьому випадку хочеться спостерігати середній показник ожиріння серед різних вікових груп, таких як вік (від 5 до 18), (19, 35) та (36 - 50). Метод ANOVA застосовується, оскільки існує більше двох незалежних груп. Метод ANOVA використовується для порівняння середнього ожиріння незалежних груп. Використовується функція aov (), а синтаксис - це aov (формула, дані = фрейм). У цій статті ми дізнаємось про модель ANOVA та надалі обговоримо односторонні та двосторонні моделі ANOVA разом із прикладами.

Чому ANOVA?

  • Ця методика використовується для відповіді на гіпотезу під час аналізу кількох груп даних. Існує кілька статистичних підходів, однак ANOVA в R застосовується тоді, коли порівняння потрібно проводити для більш ніж двох незалежних груп, як у нашому попередньому прикладі трьох різних вікових груп.
  • Техніка ANOVA вимірює середнє значення незалежних груп, щоб забезпечити дослідників результатом гіпотези. Для отримання точних результатів слід враховувати засоби вибірки, розмір вибірки та стандартне відхилення від кожної окремої групи.
  • Можна порівняти середнє значення для кожної з трьох груп для порівняння. Однак такий підхід має обмеження і може виявитися невірним, оскільки ці три порівняння не враховують загальних даних і, таким чином, можуть призвести до помилки типу 1. R надає нам функцію проводити аналіз ANOVA для вивчення мінливості між незалежними групами даних. Існує п’ять етапів проведення аналізу ANOVA. На першому етапі дані впорядковуються у форматі csv і стовпець формується для кожної змінної. Один із стовпців буде залежною змінною, а решта - незалежною змінною. На другому етапі дані зчитуються в студії R і називаються відповідним чином. На третьому етапі набір даних приєднується до окремих змінних і читається пам'яттю. Нарешті, ANOVA в R визначається та аналізується. У наведених нижче розділах я наводив декілька прикладів, у яких слід використовувати методи ANOVA.
  • Шість інсектицидів було випробувано на 12 полях кожне, і дослідники підрахували кількість клопів, що залишилися в кожному полі. Тепер фермери повинні знати, чи впливають на інсектициди, і якщо так, то який із них найкраще використовувати. Ви відповідаєте на це запитання, використовуючи функцію aov () для виконання ANOVA.
  • П’ятдесят пацієнтів отримували одне з п’яти лікувальних препаратів, що знижують холестерин (трт). Три умови лікування включали один і той же препарат, який вводили по 20 мг один раз на день (1 раз) по 10 мг два рази на день (2 рази) по 5 мг чотири рази на день (4 рази). Дві інші умови (drugD та drugE) являли собою конкуруючі препарати. Яке лікування препаратами призвело до найбільшого зниження рівня холестерину (відповіді)?

АНОВА Односторонній

  • Односторонній метод є однією з базових методів ANOVA, в яких застосовується дисперсійний аналіз та порівнюється середнє значення для декількох груп населення.
  • Одностороння ANOVA отримала свою назву через наявність односторонніх класифікованих даних. В односторонній ANOVA може бути доступна одна залежна змінна та одна або більше незалежних змінних.
  • Наприклад, ми будемо виконувати методику ANOVA на наборі даних про холестерин. Набір даних складається з двох змінних trt (які є обробкою на 5 різних рівнях) та змінних відповідей. Незалежна змінна - групи лікування наркотиками, залежна змінна - засоби 2 або більше груп ANOVA. З цих результатів можна підтвердити, що прийом дози 5 мг 4 рази на день був кращим, ніж прийом дози двадцяти мг один раз на день. Препарат D має кращі ефекти в порівнянні з цим препаратом Е

Препарат D забезпечує кращі результати, якщо його приймати в дозі 20 мг у порівнянні з препаратом Е

Використовує набір даних про холестерин у пакеті мультикомплектів
install.packages('multcomp')
library(multcomp)
str(cholesterol)
attach(cholesterol)
aov_model <- aov(response ~ trt)

Тест ANOVA F для лікування (trt) є вагомим (p <.0001), що свідчить про те, що п'ять методів лікування
# не всі однаково ефективні.
резюме (aov_model)
відшарування (холестерин)

Функція plotmeans () в пакеті gplots може використовуватися для отримання графіку групових засобів та їхніх довірчих інтервалів. Це чітко показує відмінності лікування
install.packages('gplots')
library(gplots)
plotmeans(response ~ trt, xlab="Treatment", ylab="Response",
main="Mean Plot\nwith 95% CI")

Розглянемо вихід з TukeyHSD () на парні відмінності між груповими засобами

TukeyHSD (aov_model)

Середнє зниження рівня холестерину в 1 та 2 рази суттєво не відрізняється одне від одного (p = 0, 138), тоді як різниця між 1 та 4 разів істотно відрізняється (p <0, 001).
par (mar = c (5, 8, 4, 2)) # збільшення ділянки лівого поля (TukeyHSD (aov_model), las = 2)

Впевненість у результатах залежить від того, наскільки ваші дані задовольняють припущення, що лежать в основі статистичних тестів. В односторонньому ANOVA залежна змінна вважається нормально розподіленою і має однакову дисперсію в кожній групі. Ви можете використовувати графік QQ для оцінки бібліотеки припущень щодо нормальності (автомобіля).
Діаграма QQ (lm (відповідь ~ trt, дані = холестерин), симуляція = ІСТИНА, main = "Діаграма QQ", мітки = ЛЖА)

Пунктирна лінія = довірча оболонка 95%, що говорить про те, що припущення про нормальність було виконано досить добре. ANOVA передбачає, що відхилення рівні за групами або вибірками. Тест Бартлетта може бути використаний для перевірки цього припущення
bartlett.test (відповідь ~ trt, дані = холестерин). Тест Бартлетта показує, що дисперсії в п'яти групах не сильно відрізняються (p = 0, 97).

ANOVA також чутливий до випробувань на аутлієри для людей, які використовують ексклюзив, використовуючи функцію outlierTest () в автомобільному пакеті. Можливо, вам не знадобиться запускати цей пакет, щоб оновити бібліотеку автомобілів.
update.packages(checkBuilt = TRUE)
install.packages("car", dependencies = TRUE)
library(car)
outlierTest(aov_model)

З результатів видно, що в даних про рівень холестерину немає вказівки на виснаження (NA виникає при p> 1). Беручи сюжет QQ, тест Бартлетта та тест поза межами, дані, здається, досить добре відповідають моделі ANOVA.

Двостороння Анова

Ще одна змінна додається в тест Двостороннього ANOVA. Якщо є дві незалежні змінні, нам потрібно буде використовувати двосторонній метод ANOVA, а не односторонній метод ANOVA, який застосовувався в попередньому випадку, коли у нас була одна безперервна залежна змінна та більше ніж одна незалежна змінна. Для перевірки двосторонньої ANOVA необхідно виконати кілька припущень.

  1. Наявність незалежних спостережень
  2. Спостереження слід нормально розподіляти
  3. Різниця повинна бути рівною в спостереженнях
  4. Асоціатори не повинні бути присутніми
  5. Самостійні помилки

Для перевірки двосторонньої ANOVA до набору даних додається інша змінна, яка називається BP. Змінна вказує на рівень артеріального тиску у пацієнтів. Ми хотіли б перевірити, чи є якась статистична різниця між АД та дозою, що надається пацієнтам.

df <- read.csv ("file.csv")
df
anova_two_way <- aov (відповідь ~ trt + BP, дані = df)
резюме (anova_two_way)

З висновку можна зробити висновок, що і trt, і BP статистично відрізняються від 0. Отже, нульову гіпотезу можна відкинути.

Переваги ANOVA в R

Тест ANOVA визначає різницю середніх величин між двома або більше незалежними групами. Ця методика дуже корисна для аналізу декількох предметів, що є важливим для аналізу ринку. Використовуючи тест ANOVA, можна отримати необхідну інформацію з даних. Наприклад, під час опитування продукту, де від користувачів збирається багато інформації, наприклад, списки покупок, сподобання покупців і не подобається. Тест ANOVA допомагає нам порівнювати групи населення. Група може бути чоловіком проти жінки або різними віковими групами. Техніка ANOVA допомагає розрізняти середні значення різних груп населення, які дійсно різні.

Висновок - ANOVA в R

ANOVA - один з найбільш часто використовуваних методів тестування гіпотез. У цій статті ми провели тест на ANOVA за набором даних, що складається з п’ятдесяти пацієнтів, які отримували лікування, що знижує рівень холестерину, і далі бачили, як можна проводити двосторонню ANOVA, коли є додаткова незалежна змінна.

Рекомендовані статті

Це посібник з ANOVA в Р. Тут ми обговорюємо односторонні та двосторонні моделі Anova разом із прикладами та перевагами ANOVA. Ви також можете ознайомитися з іншими запропонованими нами статтями -

  1. Регресія проти ANOVA
  2. Що таке SPSS?
  3. Як інтерпретувати результати за допомогою тесту ANOVA
  4. Функції в R

Категорія: