Огляд типів кластеризації

Перш ніж вивчати типи кластеризації, давайте розберемося, що таке кластеризація і чому це так важливо в галузі машинного навчання саме зараз.

Що таке кластеризація? Кластеризація - це процес, коли алгоритм ділить точки даних на безліч груп, виходячи з принципу, що подібні точки даних залишаються близько один до одного і вони потрапляють в одну групу.

Чому це зараз так важливо? Давайте зрозуміємо, що, побачивши приклад, наприклад, є інтернет-магазин одягу, і вони хочуть краще зрозуміти своїх клієнтів, щоб вони могли зробити свою рекламну стратегію більш ефективною. Для них неможливо створити унікальний тип стратегії для кожного замовника, замість цього те, що вони можуть зробити, це розділити клієнтів на певну кількість груп (виходячи з їх попередніх закупівель) та мати окрему стратегію окремих груп. Це робить бізнес більш ефективним, це є причиною того, що кластеринг зараз важливий у галузі.

Види кластеризації

Методи кластеризації в основному класифікуються на два типи: це жорсткі методи та м'які методи. У методі жорсткого кластеризації кожна точка даних або спостереження належить лише одному кластеру. У методі м'якого кластеризації кожна точка даних не буде повністю належати до одного кластеру, натомість, він може бути членом більш ніж одного кластеру, він має набір коефіцієнтів членства, що відповідає ймовірності перебування в даному кластері.

В даний час використовуються різні типи методів кластеризації, тут у цій статті ми побачимо деякі важливі, такі як ієрархічне кластеризація, кластеризація розділів, нечітка кластеризація, кластеризація на основі щільності та кластеризація на основі моделі розподілу. Тепер обговоримо кожен із них на прикладі:

1. Кластеризація розділів

Кластеризація розділів - це метод кластеризації, який розділяє набір даних на задану кількість груп. (Наприклад, значення K в KNN, і це буде вирішено, перш ніж ми будемо тренувати модель). Це також можна назвати методом на основі центроїдів. У цьому підході центр кластерів (центроїд) формується таким, що відстань точок даних у цьому кластері є мінімальним при обчисленні з іншими центроїдами кластера. Найпопулярнішим прикладом цього алгоритму є алгоритм KNN. Ось так виглядає алгоритм кластеризації розділів

2. Ієрархічна кластеризація

Ієрархічна кластеризація - це тип кластеризації, який розділяє ці дані на ряд кластерів, де користувач не визначає кількість кластерів, які потрібно сформувати перед навчанням моделі. Цей тип кластеризації відомий також як методи, що базуються на з’єднанні. У цьому методі простого розділення набору даних не буде зроблено, тоді як він забезпечує нам ієрархію кластерів, які зливаються один з одним через певну відстань. Після того, як ієрархічна кластеризація буде виконана на наборі даних, результатом буде представлення на дереві точок даних (Dendogram), які поділяються на кластери. Ось так виглядає ієрархічна кластеризація після навчання

Джерело посилання: Ієрархічна кластеризація

У кластеризації розділів та ієрархічних кластерингах одна головна відмінність, яку ми можемо помітити, полягає в кластеризації розділів, заздалегідь визначимо значення, на скільки кластерів ми хочемо розділити набір даних, і ми не заздалегідь визначатимемо це значення в ієрархічній кластеризації. .

3. Кластеризація на основі щільності

У цьому кластеризації кластери техніки формуватимуться шляхом поділу різних областей щільності на основі різної щільності в графіку даних. Просторове кластеризація на основі щільності та застосування із шумом (DBSCAN) - це найбільш використовуваний алгоритм у цьому виді техніки. Головною ідеєю цього алгоритму є наявність мінімальної кількості точок, що містяться в районі заданого радіуса для кожної точки кластера. Поки що у вищеописаних методах кластеризації, якщо уважно спостерігати, ми можемо помітити одну загальну річ у всіх техніках, що мають форму скупчень або сферичної, або овальної, або увігнутої форми. DBSCAN може формувати кластери різної форми, цей тип алгоритму є найбільш підходящим, коли набір даних містить шум або перешкоди. Ось так виглядає алгоритм просторового кластеризації на основі щільності після закінчення навчання.

Джерело посилання: Кластеризація на основі щільності

4. Кластеризація на основі моделі розподілу

У цьому типі кластеризації кластери техніки формуються шляхом ідентифікації за ймовірністю всіх точок даних кластера, що надходять від одного і того ж розподілу (нормального, гауссового). Найпопулярнішим алгоритмом у цьому виді техніки є кластеризація очікування-максимізації (ЕМ) за допомогою Гауссових моделей сумішей (GMM).

Нормальні методи кластеризації, такі як ієрархічна кластеризація та кластеризація розділів, не базуються на формальних моделях, KNN при кластеризації розділів дає різні результати з різними значеннями K. Оскільки KNN та KMN вважають середніми для центру кластера, це не найкраще підходить в деяких випадках з Гауссовими моделями сумішей, ми припускаємо, що точки даних розподіляються по Гауссу, таким чином у нас є два параметри для опису форми середнього кластеру та стандартного відхилення. Таким чином, для кожного кластеру призначається одна гауссова розподіл, щоб отримати оптимальні значення цих параметрів (середнє та стандартне відхилення), використовується алгоритм оптимізації, який називається Максималізація очікування. Так виглядає EM - GMM після тренувань.

Джерело посилання: Кластеризація на основі моделі розподілу

5. Нечітке скупчення

Належить до гілки методів кластеризації м'яких методів, тоді як всі вищезазначені методи кластеризації належать до методів кластеризації жорстких методів. У цьому типі техніки кластеризації точок, близьких до центру, можливо, частина іншого кластера вищою мірою, ніж точки на краю цього ж кластера. Ймовірність приналежності точки до даного кластеру - це значення, яке лежить від 0 до 1. Найпопулярнішим алгоритмом у цьому виді техніки є FCM (нечіткий алгоритм C - означає) Тут центроїд кластера обчислюється як середнє значення усіх балів, зважених на їх вірогідність приналежності до кластеру.

Висновок - Види кластеризації

Це декілька різних методів кластеризації, які зараз використовуються, і в цій статті ми розглянули один популярний алгоритм у кожній методиці кластеризації. Ми повинні вибрати тип технології, яку ми використовуємо, виходячи з нашого набору даних та вимог, які нам потрібно виконати.

Рекомендовані статті

Це було керівництвом щодо типів кластеризації. Тут ми обговорюємо різні типи кластеризації з їх прикладами. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Ієрархічний алгоритм кластеризації
  2. Кластеризація в машинному навчанні
  3. Види алгоритмів машинного навчання
  4. Типи методів аналізу даних
  5. Як використовувати та видалити ієрархію в Tableau?
  6. Повне керівництво по типах аналізу даних

Категорія: