Вступ до алгоритму KNN в R

В алгоритмі KNN в R KNN розшифровується як K найближчий сусідній алгоритм, а R - мова програмування. Кажуть, що це найпростіший алгоритм машинного навчання. KNN - це контрольований алгоритм, який класифікує точки даних у цільовий клас, порівнюючи функції з найближчим сусідом.

Приклад: Припустимо, ви хочете класифікувати сенсорний екран і телефон клавіатури. Існують різні фактори, які беруть участь у розрізненні обох телефонів. Однак фактором, який відрізняє обидва телефони, є клавіатура. Отже, коли ми отримуємо точку передачі даних (тобто телефон). Ми порівнюємо його з аналогічними функціями сусідніх точок передачі даних, щоб класифікувати його як клавіатуру або сенсорний телефон.

Особливості алгоритму KNN

Тут ми вивчимо особливості алгоритму KNN:

  • Алгоритм KNN використовує вхідні дані для прогнозування точок даних, встановлених на виході.
  • Алгоритм може застосовуватися до різних наборів задач.
  • Зосереджується на подібності функцій для класифікації даних.
  • Алгоритм KNN обробляє реалістичні дані та не робить жодних припущень щодо точок даних.
  • KNN запам'ятовує набір навчальних даних, а не інтуїтивно зрозумілий. Також можна сказати, що він має лінивий підхід.
  • Це може вирішити проблеми класифікації та регресії.

Розгляд проблем алгоритму KNN в R

Наступне вирішення проблеми:

1. Проблема класифікації

У проблемі класифікації значення дискретні так само, як ви любите їсти піцу з начинками чи без. Є спільна позиція. Алгоритм KNN допомагає у вирішенні такої проблеми.

2. Проблема регресії

Проблема регресії потрапляє до картини, коли у нас є залежна змінна та незалежна змінна. Наприклад: індекс ІМТ. Зазвичай кожен рядок містить спостереження чи точку даних та приклад.

Алгоритм KNN в R

Давайте розглянемо кроки в алгоритмі, який слід дотримуватися:

Крок 1: Завантажте вхідні дані.

Крок 2: Ініціалізуйте K з кількістю найближчих сусідів.

Крок 3: Обчислення даних (тобто відстань між поточним та найближчим сусідом)

Крок 4: Додавання відстані до поточного упорядкованого набору даних.

Крок 5: Підбір K-записів та маркування їх.

Крок 6: Поверніть середнє значення для проблеми регресії.

Крок 7: Поверніть значення режиму для проблем класифікації.

Точки, які слід пам’ятати під час реалізації алгоритму KNN

  • Ми повинні переконатися, що значення K більше, ніж одне, воно перешкоджає прогнозуванню бути точним.
  • Чим більше значення K, тим більш точним може бути прогноз за рахунок більшості.
  • Переважно мати K як непарне число. В іншому випадку це може призвести до розриву краватки.

Псевдокод КНН

У нижченаведеній формулі представляє змінні та представляє точки даних, де (i = 1, 2, 3….)

Set(, )

Використовуйте випадки

Далі наведені випадки використання в алгоритмі KNN в R:

1. Порівняння продуктів та допомога в рекомендаціях щодо покупок

Коли ми купуємо ноутбук або комп’ютер з веб-сайту електронної комерції, ми також бачимо рекомендації щодо покупок, як-от купувати антивірусне програмне забезпечення або колонки. Все це тому, що коли попередній клієнт купує ноутбук, його в основному купують разом із антивірусними або динаміками. Машинне навчання допомагає в рекомендаціях щодо електронної комерції.

2. Рекомендації щодо харчування

Машинне навчання також допомагає в рекомендаціях на основі раніше замовленої їжі, а також пропонують ресторани відповідно.

Приклад алгоритму KNN

Нижче наведено приклади алгоритму KNN:

1. Імпорт даних

Візьмемо манекенні дані про нас, прогнозуючи розмір футболки хлопця за допомогою росту та ваги.

Висота (см) Вага (кг) Розмір
140 58 S
140 59 S
140 63 S
150 59 М
152 60 М
153 60 М
154 61 М
155 64 М
156 64 М
157 61 М
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Пошук подібності шляхом обчислення відстані

Ми можемо використовувати як манхеттенську, так і евклідову відстань, оскільки дані безперервні. Ми обчислюємо відстань між новим зразком і набором даних про навчання, потім знаходимо K-найближче.

Приклад: Скажімо, "Raj" має висоту 165 см і важить 63 кг. Ми обчислюємо евклідову відстань, використовуючи перше спостереження за новим зразком: SQRT ((165-140) 2 + (63-58) 2)

3. Пошук K-найближчих сусідів

Припустимо, K = 4, Є 4 клієнта, у яких 3 з них мали середній розмір, а 1 - великих розмірів. Найкращий прогноз - це костюми середнього розміру Радж.

Різниця між KNN і K-середнім

Ось різниця:

  • KNN - це контрольований алгоритм (залежна змінна), тоді як середнє значення K - алгоритм без нагляду (не залежить від змінної).
  • K-середня використовує техніку кластеризації для розділення точок даних, утворюючи K-кластери. KNN використовує K-найближчі сусіди для класифікації точок даних та їх об'єднання.

Переваги та недоліки КНН

Нижче перелічені переваги:

  • Алгоритм KNN універсальний, може використовуватися для задач класифікації та регресії.
  • Немає необхідності в попередній моделі для складання алгоритму KNN.
  • Простий і легкий у виконанні.

Нижче наведені недоліки:

  • Алгоритм у міру збільшення кількості вибірок (тобто відсутність змінних)

Рекомендовані статті

Це посібник з алгоритму KNN в Р. Тут ми обговорюємо особливості, приклади, псевдокод, кроки, які слід дотримуватися в алгоритмі KNN. Ви також можете ознайомитись з іншими пов'язаними з нами статтями, щоб дізнатися більше -

  1. Алгоритми наукових даних
  2. Що таке генетичний алгоритм?
  3. Алгоритми маршрутизації
  4. Алгоритми нейронної мережі
  5. Алгоритм C ++ | Приклади алгоритму С ++

Категорія: