Алгоритм KNN в R

Вступ до алгоритму KNN в R

В алгоритмі KNN в R KNN розшифровується як K найближчий сусідній алгоритм, а R - мова програмування. Кажуть, що це найпростіший алгоритм машинного навчання. KNN - це контрольований алгоритм, який класифікує точки даних у цільовий клас, порівнюючи функції з найближчим сусідом.

Приклад: Припустимо, ви хочете класифікувати сенсорний екран і телефон клавіатури. Існують різні фактори, які беруть участь у розрізненні обох телефонів. Однак фактором, який відрізняє обидва телефони, є клавіатура. Отже, коли ми отримуємо точку передачі даних (тобто телефон). Ми порівнюємо його з аналогічними функціями сусідніх точок передачі даних, щоб класифікувати його як клавіатуру або сенсорний телефон.

Особливості алгоритму KNN

Тут ми вивчимо особливості алгоритму KNN:

Алгоритм KNN використовує вхідні дані для прогнозування точок даних, встановлених на виході.
Алгоритм може застосовуватися до різних наборів задач.
Зосереджується на подібності функцій для класифікації даних.
Алгоритм KNN обробляє реалістичні дані та не робить жодних припущень щодо точок даних.
KNN запам'ятовує набір навчальних даних, а не інтуїтивно зрозумілий. Також можна сказати, що він має лінивий підхід.
Це може вирішити проблеми класифікації та регресії.

Розгляд проблем алгоритму KNN в R

Наступне вирішення проблеми:

1. Проблема класифікації

У проблемі класифікації значення дискретні так само, як ви любите їсти піцу з начинками чи без. Є спільна позиція. Алгоритм KNN допомагає у вирішенні такої проблеми.

2. Проблема регресії

Проблема регресії потрапляє до картини, коли у нас є залежна змінна та незалежна змінна. Наприклад: індекс ІМТ. Зазвичай кожен рядок містить спостереження чи точку даних та приклад.

Давайте розглянемо кроки в алгоритмі, який слід дотримуватися:

Крок 1: Завантажте вхідні дані.

Крок 2: Ініціалізуйте K з кількістю найближчих сусідів.

Крок 3: Обчислення даних (тобто відстань між поточним та найближчим сусідом)

Крок 4: Додавання відстані до поточного упорядкованого набору даних.

Крок 5: Підбір K-записів та маркування їх.

Крок 6: Поверніть середнє значення для проблеми регресії.

Крок 7: Поверніть значення режиму для проблем класифікації.

Точки, які слід пам’ятати під час реалізації алгоритму KNN

Ми повинні переконатися, що значення K більше, ніж одне, воно перешкоджає прогнозуванню бути точним.
Чим більше значення K, тим більш точним може бути прогноз за рахунок більшості.
Переважно мати K як непарне число. В іншому випадку це може призвести до розриву краватки.

Псевдокод КНН

У нижченаведеній формулі представляє змінні та представляє точки даних, де (i = 1, 2, 3….)

Set(, )

Використовуйте випадки

Далі наведені випадки використання в алгоритмі KNN в R:

1. Порівняння продуктів та допомога в рекомендаціях щодо покупок

Коли ми купуємо ноутбук або комп’ютер з веб-сайту електронної комерції, ми також бачимо рекомендації щодо покупок, як-от купувати антивірусне програмне забезпечення або колонки. Все це тому, що коли попередній клієнт купує ноутбук, його в основному купують разом із антивірусними або динаміками. Машинне навчання допомагає в рекомендаціях щодо електронної комерції.

2. Рекомендації щодо харчування

Машинне навчання також допомагає в рекомендаціях на основі раніше замовленої їжі, а також пропонують ресторани відповідно.

Приклад алгоритму KNN

Нижче наведено приклади алгоритму KNN:

1. Імпорт даних

Візьмемо манекенні дані про нас, прогнозуючи розмір футболки хлопця за допомогою росту та ваги.

Висота (см)	Вага (кг)	Розмір
140	58	S
140	59	S
140	63	S
150	59	М
152	60	М
153	60	М
154	61	М
155	64	М
156	64	М
157	61	М
160	62	L
161	65	L
162	62	L
163	63	L
163	66	L
165	63	L
165	64	L
165	68	L

2. Пошук подібності шляхом обчислення відстані

Ми можемо використовувати як манхеттенську, так і евклідову відстань, оскільки дані безперервні. Ми обчислюємо відстань між новим зразком і набором даних про навчання, потім знаходимо K-найближче.

Приклад: Скажімо, "Raj" має висоту 165 см і важить 63 кг. Ми обчислюємо евклідову відстань, використовуючи перше спостереження за новим зразком: SQRT ((165-140) 2 + (63-58) 2)

3. Пошук K-найближчих сусідів

Припустимо, K = 4, Є 4 клієнта, у яких 3 з них мали середній розмір, а 1 - великих розмірів. Найкращий прогноз - це костюми середнього розміру Радж.

Різниця між KNN і K-середнім

Ось різниця:

KNN - це контрольований алгоритм (залежна змінна), тоді як середнє значення K - алгоритм без нагляду (не залежить від змінної).
K-середня використовує техніку кластеризації для розділення точок даних, утворюючи K-кластери. KNN використовує K-найближчі сусіди для класифікації точок даних та їх об'єднання.

Переваги та недоліки КНН

Нижче перелічені переваги:

Алгоритм KNN універсальний, може використовуватися для задач класифікації та регресії.
Немає необхідності в попередній моделі для складання алгоритму KNN.
Простий і легкий у виконанні.

Нижче наведені недоліки:

Алгоритм у міру збільшення кількості вибірок (тобто відсутність змінних)

Алгоритм KNN в R - Повна деталізація в алгоритмі KNN в R

Зміст:

Вступ до алгоритму KNN в R

Особливості алгоритму KNN

Розгляд проблем алгоритму KNN в R

1. Проблема класифікації

2. Проблема регресії