Вступ до алгоритму кластеризації K- означає?

Кластеризація K - означає належний алгоритм навчання без нагляду. Він використовується, коли дані не визначені у групах чи категоріях, тобто без маркування. Метою цього алгоритму кластеризації є пошук і пошук груп у даних, де змінна K являє собою кількість груп.

Розуміння K-означає алгоритм кластеризації

Цей алгоритм є ітераційним алгоритмом, який розподіляє набір даних відповідно до їх особливостей на K кількість заздалегідь визначених кластерів або підгруп, що не перекриваються. Це робить точки даних між кластерами максимально схожими, а також намагається тримати кластери якомога далі. Він розподіляє точки даних кластеру, якщо сума квадрату відстані між центроїдом кластера та точками даних мінімальна, де центроїд кластера - середнє арифметичне точок даних, що знаходяться в кластері. Менша зміна кластеру призводить до подібних або однорідних точок даних всередині кластера.

Як працює алгоритм кластеризації K- означає?

K- означає, що алгоритм кластеризації потребує таких входів:

  • K = кількість підгруп або кластерів
  • Зразок або навчальний набір = (x 1, x 2, x 3, ……… x n )

Тепер припустимо, що у нас є набір даних без маркування, і нам потрібно розділити їх на кластери.

Тепер нам потрібно знайти кількість кластерів. Це можна зробити двома методами:

  • Ліктьовий метод.
  • Метод мети.

Розглянемо їх коротко:

Ліктьовий метод

У цьому методі проводиться крива між "в межах суми квадратів" (WSS) та кількістю кластерів. Нанесена крива нагадує людську руку. Його називають ліктьовим методом, оскільки точка ліктя у кривій дає нам оптимальну кількість скупчень. На графіку чи кривій, після точки ліктя, значення WSS змінюється дуже повільно, тому точка ліктя повинна враховуватися, щоб дати остаточне значення кількості кластерів.

Цільове призначення

У цьому методі дані діляться на основі різних показників, після чого оцінюється, наскільки добре вони виконувались для цього випадку. Наприклад, розташування сорочок у відділі чоловічого одягу в торговому центрі робиться за критеріями розмірів. Це можна зробити, виходячи з ціни і брендів також. Найкраще було б вибрати найкращу кількість кластерів, тобто значення K.

Тепер ми повернемося до нашого даного вище набору даних. Ми можемо обчислити кількість кластерів, тобто значення K, використовуючи будь-який з перерахованих вище методів.

Як користуватися вищевказаними методами?

Тепер перегляньмо процес виконання:

Крок 1: Ініціалізація

По-перше, ініціалізуйте будь-які випадкові точки, що називаються центроїдами кластера. Під час ініціалізації ви повинні подбати про те, щоб центроїди кластера були меншими, ніж кількість точок даних тренувань. Цей алгоритм є ітераційним алгоритмом, тому наступні два етапи виконуються ітераційно.

Крок 2: Призначення кластеру

Після ініціалізації проходять усі точки даних та обчислюється відстань між усіма центроїдами та точками даних. Тепер кластери формуються залежно від мінімальної відстані від центроїдів. У цьому прикладі дані діляться на два кластери.

Крок 3: Переміщення Центроїда

Оскільки кластери, сформовані на вищенаведеному етапі, не оптимізовані, тому нам потрібно сформувати оптимізовані кластери. Для цього нам потрібно ітераційно перемістити центроїди на нове місце. Візьміть точки одного кластера, обчисліть їх середнє значення, а потім перемістіть центроїд цього кластера до цього нового місця. Повторіть той самий крок для всіх інших кластерів.

Крок 4: Оптимізація

Вищеописані два кроки робляться повторно, поки центроїди не перестають рухатися, тобто вони більше не змінюють своїх позицій і не стають статичними. Після цього алгоритм k- означає, що його називають конвергентним.

Крок 5: конвергенція

Тепер цей алгоритм зійшов і чіткі кластери формуються і добре видно. Цей алгоритм може давати різні результати залежно від того, як кластери були ініціалізовані на першому кроці.

Застосування алгоритму кластеризації K-засобів

  • Сегментація ринку
  • Кластеризація документів
  • Сегментація зображень
  • Стиснення зображення
  • Векторні квантування
  • Кластерний аналіз
  • Особливості навчання або вивчення словника
  • Визначення схильних до злочинів районів
  • Виявлення страхових шахрайств
  • Аналіз даних громадського транспорту
  • Кластеризація ІТ-активів
  • Сегментація клієнтів
  • Ідентифікація даних про рак
  • Використовується в пошукових системах
  • Прогнозування активності наркотиків

Переваги алгоритму кластеризації K- означає

  • Це швидко
  • Міцний
  • Легко зрозуміти
  • Порівняно ефективний
  • Якщо набори даних відрізняються, то це дає найкращі результати
  • Створюйте більш щільні кластери
  • При перерахунку центроїдів зміни кластера.
  • Гнучка
  • Легко інтерпретувати
  • Кращі обчислювальні витрати
  • Підвищує акуратність
  • Краще працює зі сферичними кластерами

Недоліки алгоритму кластеризації K- означає

  • Потрібна попередня специфікація кількості центрів кластерів
  • Якщо є два сильно перекриваються дані, то їх неможливо розрізнити і не можна сказати, що є два кластери
  • При різному представленні даних досягнуті результати також відрізняються
  • Евклідова відстань може неоднаково зважувати фактори
  • Це дає локальну оптимуму функції помилки у квадраті
  • Іноді вибір центроїдів випадковим чином не може дати плідних результатів
  • Можна використовувати лише в тому випадку, якщо значення визначено
  • Не вдається обробити залишків та галасливих даних
  • Не працюйте для нелінійного набору даних
  • Не вистачає консистенції
  • Чутлива до масштабу
  • Якщо трапляються дуже великі набори даних, комп'ютер може вийти з ладу.
  • Питання прогнозування

Рекомендовані статті

Це було керівництвом алгоритму кластеризації K-Means. Тут ми обговорили роботу, застосування, переваги та недоліки алгоритму кластеризації K-Means. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Що таке нейронні мережі?
  2. Що таке майнінг даних? | Роль обміну даними
  3. Питання для інтерв'ю для інтелектуального аналізу даних
  4. Машинне навчання проти нейронної мережі
  5. Кластеризація в машинному навчанні

Категорія: