Ієрархічна кластеризація - Агломераційна та роздільна кластеризація

Зміст:

Anonim

Вступ до ієрархічної кластеризації

  • Нещодавно один із наших клієнтів попросив нашу команду вивести список сегментів із порядковим значенням для своїх клієнтів, щоб націлити їх на франчайзинг однієї із своїх нещодавно запущених продуктів. Зрозуміло, що лише сегментація клієнтів, що використовують часткове кластеризацію (k-засоби, c-нечіткі), не виведе порядку важливості, саме там ієрархічна кластеризація відображається.
  • Ієрархічна кластеризація розділяє дані на різні групи на основі деяких заходів подібності, відомих як кластери, які по суті спрямовані на побудову ієрархії між кластерами. В основному це непідконтрольне навчання, а вибір атрибутів для вимірювання подібності залежить від застосування.

Кластер ієрархії даних

  • Агломераційна кластеризація
  • Роздільна кластеризація

Візьмемо для прикладу дані, бали, отримані 5 учнями, щоб згрупувати їх для майбутнього конкурсу.

СтудентЗнаки
А10
Б7
С28
D20
Е35-ті

1. Агломераційна кластеризація

  • Для початку ми розглянемо кожну окрему вагу точки / елемента тут як кластери і продовжуємо об’єднувати подібні точки / елементи, щоб сформувати новий кластер на новому рівні, поки нам не залишиться єдиний кластер - це підхід знизу вгору.
  • Одиничний та повний зв'язок - два популярні приклади агломераційного кластеризації. За винятком середньої та середньої зв'язку. В одному з’єднанні ми з’єднуємо на кожному кроці два кластери, два найближчих члени яких мають найменшу відстань. У повному зв’язку ми зливаємося в членах найменшої відстані, які забезпечують найменшу максимальну парну відстань.
  • Матриця наближення, Ядро для виконання ієрархічної кластеризації, яка дає відстань між кожною з точок.
  • Зробимо матрицю близькості для наших даних, наведених у таблиці, оскільки ми обчислюємо відстань між кожною з точок з іншими точками, це буде асиметрична матриця форми n × n, в нашому випадку 5 × 5 матриць.

Популярним методом обчислення відстані є:

  1. Евклідова відстань (у квадраті)

dist((x, y), (a, b)) = √(x - a)² + (y - b)²

  1. Манхеттенська відстань

dist((x, y), (a, b)) =|x−c|+|y−d|

Евклідова відстань найчастіше використовується, ми будемо використовувати ту саму, і ми підемо зі складними зв’язками.

Студент (кластери)АБСDЕ
А03181025
Б30211328
С1821087
D10138015
Е25287150

Діагональні елементи матриці близькості завжди будуть дорівнювати 0, оскільки відстань між точкою з однаковою точкою завжди буде 0, отже, діагональні елементи звільнені від розгляду для групування.

Тут, в ітерації 1, найменша відстань дорівнює 3, отже, ми зливаємо A і B для формування кластера, знову формуємо нову матрицю близькості з кластером (A, B), приймаючи (A, B) точку кластера як 10, тобто максимум ( 7, 10) таким чином буде новостворена матриця близькості

Скупчення(A, B)СDЕ
(A, B)0181025
С18087
D108015
Е257150

В ітерації 2, 7 - мінімальна відстань, отже ми зливаємо C і E, утворюючи новий кластер (C, E), ми повторюємо процес, наступний в ітерації 1, поки ми не закінчимося єдиним кластером, тут ми зупинимось на ітерації 4.

Весь процес зображений на малюнку нижче:

(A, B, D) і (D, E) - це два кластери, утворені під час ітерації 3, на останньому ітерації ми бачимо, що ми залишаємося з одним кластером.

2. Роздільна кластеризація

Для початку ми розглянемо всі точки як єдиний кластер і розділимо їх на найдальшу відстань, поки ми не закінчимо окремі точки як окремі кластери (не обов'язково ми можемо зупинитися посередині, залежить від мінімальної кількості елементів, які ми хочемо у кожному кластері) на кожному кроці. Це якраз протилежність агломераційній кластеризації, і це підхід зверху вниз. Роздільна кластеризація - це спосіб, що повторюється k означає кластеризацію.

Вибір між агломераційним та розділовим кластером знову залежить від програми, але слід врахувати декілька моментів:

  1. Розділення складніше, ніж агломераційне кластеризація.
  2. Поділ кластеризації є більш ефективним, якщо ми не формуємо повну ієрархію до окремих точок даних.
  3. Агломераційна кластеризація приймає рішення, розглядаючи локальні малюнки, не беручи до уваги глобальні зразки, які спочатку неможливо змінити.

Візуалізація ієрархічної кластеризації

Супер корисний метод для візуалізації ієрархічної кластеризації, який допомагає в бізнесі, - «Dendogram». Дендограми - це деревоподібні структури, які фіксують послідовність злиття та розщеплення, у яких вертикальна лінія представляє відстань між кластерами, відстань між вертикальними лініями та відстань між кластерами прямо пропорційна, тобто більше відстань, чим більше кластери можуть бути різними.

Ми можемо використовувати дендограму, щоб визначити кількість кластерів, просто намалюємо лінію, що перетинається з найдовшою вертикальною лінією на дендограмі, кількість вертикальних ліній, що перетинаються, буде кількість кластерів, які слід врахувати.

Нижче наводиться приклад Dendogram.

Існують досить прості та прямі пакети python, і це функції виконувати ієрархічну кластеризацію та графіки дендограм.

  1. Ієрархія від науки.
  2. Cluster.hierarchy.dendogram для візуалізації.

Загальні сценарії, в яких використовується ієрархічна кластеризація

  1. Сегментація клієнтів до маркетингу товарів чи послуг.
  2. Місто планування для визначення місць для побудови структур / послуг / будівель.
  3. Наприклад, аналіз соціальних мереж визначить усіх шанувальників MS Dhoni для реклами його біографії.

Переваги ієрархічної кластеризації

Переваги наведені нижче:

  1. У разі часткового кластеризації, як k-засоби, кількість кластерів повинна бути відома до кластеризації, що неможливо в практичних програмах, тоді як в ієрархічній кластеризації попереднє знання кількості кластерів не потрібно.
  2. Ієрархічна кластеризація виводить ієрархію, тобто структуру, більш інформативну, ніж неструктурований набір плоских кластерів, повернутих шляхом часткового кластеризації.
  3. Ієрархічну кластеризацію легко здійснити.
  4. Представляє результати у більшості сценаріїв.

Висновок

Тип кластеризації має велику різницю під час подання даних, більш ігровим є ієрархічне кластеризація, яке легше аналізувати, ніж часткове кластеризація. І це часто асоціюється з тепловими картами. Не забувати атрибути, обрані для обчислення подібності чи несхожості, переважно впливають як на кластери, так і на ієрархію.

Рекомендовані статті

Це посібник з ієрархічної кластеризації. Тут ми обговорюємо вступ, переваги ієрархічної кластеризації та загальні сценарії, в яких використовується ієрархічна кластеризація. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Алгоритм кластеризації
  2. Кластеризація в машинному навчанні
  3. Ієрархічна кластеризація в R
  4. Методи кластеризації
  5. Як видалити ієрархію в Tableau?