Графіки в R - Типи графіків в науково-дослідних прикладах із реалізацією

Зміст:

Anonim

Вступ до графіків на R

Графік - це інструмент, який суттєво впливає на аналіз. Графіки рідкісні важливі, оскільки допомагають представляти результати найбільш інтерактивним способом. R, як пакет статистичного програмування, пропонує широкі можливості для створення різноманітних графіків.

Деякі з графіків на R доступні в базовій установці, але інші можна використовувати, встановивши необхідні пакети. Унікальна особливість графіків в R полягає в тому, що вони пояснюють складні статистичні висновки за допомогою візуалізації. Отже, по суті це схоже на перехід на крок вище традиційного способу візуалізації даних. R, таким чином, пропонує нестандартний підхід до аналізу приводу.

Типи графіків в R

Різноманітність графіків доступна в R, і використання виключно регулюється контекстом. Однак дослідницький аналіз вимагає використання певних графіків у R, які необхідно використовувати для аналізу даних. Зараз ми розглянемо деякі такі важливі графіки в Р.

Для демонстрації різних діаграм ми будемо використовувати набір даних "дерева", доступний у базовій установці. Детальніше про набір даних можна дізнатися за допомогою? команда дерев у Р.

1. Гістограма

Гістограма - це графічний інструмент, який працює на одній змінній. Численні змінні значення згруповані в бункери, і число значень, що називаються частотою, обчислюється. Потім цей розрахунок використовується для побудови частотних смуг у відповідних квасолях. Висота смуги представлена ​​частотою.

У R ми можемо використовувати функцію hist (), як показано нижче, для генерації гістограми. Проста гістограма висот дерев наведена нижче.

Код:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Вихід:

Щоб зрозуміти тенденцію частоти, ми можемо додати графік щільності над наведеною гістограмою. Це пропонує більше розуміння розподілу даних, косості, куртозу тощо. Це робить наступний код, а результат виводиться за кодом.

Код:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Вихід:

2. Scatterplot

Цей сюжет - простий тип діаграми, але дуже важливий, який має величезне значення. Діаграма дає уявлення про співвідношення змінних і є зручним інструментом дослідницького аналізу.

Наступний код генерує просту діаграму Scatterplot. Ми додали до нього лінію тренду, щоб зрозуміти тенденцію, дані представляють.

Код:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Вихід:

Діаграма, створена за допомогою наступного коду, показує, що існує хороша кореляція між обхватом дерева та об'ємом дерева.

Код:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Вихід:

Матриці розсіювання

R дозволяє порівнювати декілька змінних одночасно, оскільки він використовує матриці розсіювання. Реалізація візуалізації досить проста, і її можна досягти за допомогою функції пар (), як показано нижче.

Код:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Вихід:

Scatterplot3d

Вони роблять можливою візуалізацію в трьох вимірах, що може допомогти зрозуміти взаємозв'язок між декількома змінними. Отже, щоб зробити розсипачі доступними в 3d, спочатку слід встановити пакет scatterplot3d. Отже, наступний код формує 3d графік, як показано нижче коду.

Код:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Вихід:

Ми можемо додати випадаючі лінії та кольори, використовуючи наведений нижче код. Тепер ми можемо зручно розрізняти різні змінні.

Код:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Вихід:

3. Boxplot

Boxplot - це спосіб візуалізації даних за допомогою скриньки та вусів. По-перше, змінні значення сортуються у порядку зростання, а потім дані діляться на чверті.

Поле в графіці - це середина 50% даних, відома як IQR. Чорна лінія у вікні позначає медіану.

Код:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Вихід:

Варіант боксплотта з насічками, як показано нижче.

Код:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Вихід:

4. Лінійна діаграма

Лінійні діаграми корисні при порівнянні декількох змінних. Вони допомагають нам взаємозв'язок між декількома змінними в одному сюжеті. На наступній ілюстрації ми спробуємо розібратися в тренді трьох особливостей дерева. Отже, як показано в коді нижче, спочатку і лінійна діаграма для Діапазону побудована за допомогою функції plot (). Тоді діаграми ліній для висоти та об'єму будуються на одному ділянці за допомогою функції лінії ().

Параметр "ylim" у plot () функціонував для правильного розміщення всіх трьох лінійних діаграм. Тут є важлива легенда, оскільки вона допомагає зрозуміти, який рядок являє собою змінну. У легенді параметр “lty = 1: 1” означає, що у нас однаковий тип рядка для всіх змінних, а “cex” являє собою розмір точок.

Код:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Вихід:

5. Точковий сюжет

Цей інструмент візуалізації корисний, якщо ми хочемо порівняти кілька категорій проти певної міри. Для ілюстрації нижче використовується набір даних mtcars. Функція dotchart () відображає зміщення для різних моделей автомобілів, як показано нижче.

Код:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Вихід:

Отже, зараз ми будемо сортувати набір даних за значеннями переміщення, а потім будувати їх за допомогою різних передач за допомогою функції dotchart ().

Код:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Вихід:

Висновок

Аналіз у справжньому розумінні використовується лише за допомогою візуалізації. R, як статистичний інструмент, пропонує сильні можливості візуалізації. Отже, численні варіанти, пов’язані з діаграмами, - це те, що робить їх особливими. Кожна з діаграм має власну програму, і діаграму слід вивчити перед тим, як застосувати її до проблеми.

Рекомендовані статті

Це посібник з Графіки в Р. Тут ми обговорюємо введення та типи графіків в R, таких як гістограма, розсип, бокс і багато іншого разом із прикладами та реалізацією. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. R Типи даних
  2. R пакети
  3. Вступ до Матлаба
  4. Графіки проти діаграм