Вступ до алгоритму KNN в R
В алгоритмі KNN в R KNN розшифровується як K найближчий сусідній алгоритм, а R - мова програмування. Кажуть, що це найпростіший алгоритм машинного навчання. KNN - це контрольований алгоритм, який класифікує точки даних у цільовий клас, порівнюючи функції з найближчим сусідом.
Приклад: Припустимо, ви хочете класифікувати сенсорний екран і телефон клавіатури. Існують різні фактори, які беруть участь у розрізненні обох телефонів. Однак фактором, який відрізняє обидва телефони, є клавіатура. Отже, коли ми отримуємо точку передачі даних (тобто телефон). Ми порівнюємо його з аналогічними функціями сусідніх точок передачі даних, щоб класифікувати його як клавіатуру або сенсорний телефон.
Особливості алгоритму KNN
Тут ми вивчимо особливості алгоритму KNN:
- Алгоритм KNN використовує вхідні дані для прогнозування точок даних, встановлених на виході.
- Алгоритм може застосовуватися до різних наборів задач.
- Зосереджується на подібності функцій для класифікації даних.
- Алгоритм KNN обробляє реалістичні дані та не робить жодних припущень щодо точок даних.
- KNN запам'ятовує набір навчальних даних, а не інтуїтивно зрозумілий. Також можна сказати, що він має лінивий підхід.
- Це може вирішити проблеми класифікації та регресії.
Розгляд проблем алгоритму KNN в R
Наступне вирішення проблеми:
1. Проблема класифікації
У проблемі класифікації значення дискретні так само, як ви любите їсти піцу з начинками чи без. Є спільна позиція. Алгоритм KNN допомагає у вирішенні такої проблеми.
2. Проблема регресії
Проблема регресії потрапляє до картини, коли у нас є залежна змінна та незалежна змінна. Наприклад: індекс ІМТ. Зазвичай кожен рядок містить спостереження чи точку даних та приклад.
Алгоритм KNN в R
Давайте розглянемо кроки в алгоритмі, який слід дотримуватися:
Крок 1: Завантажте вхідні дані.
Крок 2: Ініціалізуйте K з кількістю найближчих сусідів.
Крок 3: Обчислення даних (тобто відстань між поточним та найближчим сусідом)
Крок 4: Додавання відстані до поточного упорядкованого набору даних.
Крок 5: Підбір K-записів та маркування їх.
Крок 6: Поверніть середнє значення для проблеми регресії.
Крок 7: Поверніть значення режиму для проблем класифікації.
Точки, які слід пам’ятати під час реалізації алгоритму KNN
- Ми повинні переконатися, що значення K більше, ніж одне, воно перешкоджає прогнозуванню бути точним.
- Чим більше значення K, тим більш точним може бути прогноз за рахунок більшості.
- Переважно мати K як непарне число. В іншому випадку це може призвести до розриву краватки.
Псевдокод КНН
У нижченаведеній формулі представляє змінні та представляє точки даних, де (i = 1, 2, 3….)
Set(, )
Використовуйте випадки
Далі наведені випадки використання в алгоритмі KNN в R:
1. Порівняння продуктів та допомога в рекомендаціях щодо покупок
Коли ми купуємо ноутбук або комп’ютер з веб-сайту електронної комерції, ми також бачимо рекомендації щодо покупок, як-от купувати антивірусне програмне забезпечення або колонки. Все це тому, що коли попередній клієнт купує ноутбук, його в основному купують разом із антивірусними або динаміками. Машинне навчання допомагає в рекомендаціях щодо електронної комерції.
2. Рекомендації щодо харчування
Машинне навчання також допомагає в рекомендаціях на основі раніше замовленої їжі, а також пропонують ресторани відповідно.
Приклад алгоритму KNN
Нижче наведено приклади алгоритму KNN:
1. Імпорт даних
Візьмемо манекенні дані про нас, прогнозуючи розмір футболки хлопця за допомогою росту та ваги.
Висота (см) | Вага (кг) | Розмір |
140 | 58 | S |
140 | 59 | S |
140 | 63 | S |
150 | 59 | М |
152 | 60 | М |
153 | 60 | М |
154 | 61 | М |
155 | 64 | М |
156 | 64 | М |
157 | 61 | М |
160 | 62 | L |
161 | 65 | L |
162 | 62 | L |
163 | 63 | L |
163 | 66 | L |
165 | 63 | L |
165 | 64 | L |
165 | 68 | L |
2. Пошук подібності шляхом обчислення відстані
Ми можемо використовувати як манхеттенську, так і евклідову відстань, оскільки дані безперервні. Ми обчислюємо відстань між новим зразком і набором даних про навчання, потім знаходимо K-найближче.
Приклад: Скажімо, "Raj" має висоту 165 см і важить 63 кг. Ми обчислюємо евклідову відстань, використовуючи перше спостереження за новим зразком: SQRT ((165-140) 2 + (63-58) 2)
3. Пошук K-найближчих сусідів
Припустимо, K = 4, Є 4 клієнта, у яких 3 з них мали середній розмір, а 1 - великих розмірів. Найкращий прогноз - це костюми середнього розміру Радж.
Різниця між KNN і K-середнім
Ось різниця:
- KNN - це контрольований алгоритм (залежна змінна), тоді як середнє значення K - алгоритм без нагляду (не залежить від змінної).
- K-середня використовує техніку кластеризації для розділення точок даних, утворюючи K-кластери. KNN використовує K-найближчі сусіди для класифікації точок даних та їх об'єднання.
Переваги та недоліки КНН
Нижче перелічені переваги:
- Алгоритм KNN універсальний, може використовуватися для задач класифікації та регресії.
- Немає необхідності в попередній моделі для складання алгоритму KNN.
- Простий і легкий у виконанні.
Нижче наведені недоліки:
- Алгоритм у міру збільшення кількості вибірок (тобто відсутність змінних)
Рекомендовані статті
Це посібник з алгоритму KNN в Р. Тут ми обговорюємо особливості, приклади, псевдокод, кроки, які слід дотримуватися в алгоритмі KNN. Ви також можете ознайомитись з іншими пов'язаними з нами статтями, щоб дізнатися більше -
- Алгоритми наукових даних
- Що таке генетичний алгоритм?
- Алгоритми маршрутизації
- Алгоритми нейронної мережі
- Алгоритм C ++ | Приклади алгоритму С ++