Вступ до методів кластеризації
У цій статті представлено огляд різних методів кластеризації, які використовуються в методах обміну даними з різними принципами. Кластеризація - це сукупність об’єктів даних, організованих в іншу логічну групування. Групування подібних елементів даних та призначення подібних елементів даних до окремих кластерів. Кластеризація виконується у великих наборах даних для непідконтрольного навчання. Під час цього ми виконуємо розділення на множині даних на групи. Структура кластеризації представлена наступним чином із підмножинами. C = c1, c2… c n . Оскільки групи кластеризації мають подібні об'єкти, деякі методи повинні бути вжиті методами кластеризації для визначення відстані та заходів подібності. Методи кластеризації засновані на імовірнісних моделях. Обмін даними вимагає кластеризації для масштабованості для роботи з високими базами даних, обробкою багатовимірного простору, для боротьби з помилковими даними та шумом.
Поясніть методи кластеризації?
Цей метод кластеризації допомагає згрупувати цінні дані в кластери, і з цього вибирається відповідні результати на основі різних методик. Наприклад, при пошуку інформації результати запиту групуються в невеликі кластери, і кожен кластер має нерелевантні результати. За методами кластеризації вони групуються в подібні категорії, і кожна категорія підрозділяється на підкатегорії для сприяння вивченню результатів запитів. Існують різні типи методів кластеризації, вони є
- Ієрархічні методи
- Методи розподілу
- На основі щільності
- Кластеризація на основі моделі
- Модель на основі сітки
Далі наведено огляд методик, що застосовуються при обробці даних та штучному інтелекті.
1. Ієрархічний метод
Цей метод створює кластер шляхом розподілу або вгорі, і вниз. Обидва ці підходи виробляють дендрограму, вони забезпечують зв'язок між ними. Дендрограма - це деревоподібний формат, який зберігає послідовність об'єднаних кластерів. Ієрархічні методи отримують декілька розділів щодо рівнів подібності. Вони поділяються на агломераційну ієрархічну кластеризацію та роздільну ієрархічну кластеризацію. Тут дерево кластерів створюється за допомогою методів злиття. Для процесу розщеплення використовується ділення, об'єднання використовує агломеративне. Агломераційна кластеризація включає:
- Спочатку беруть усі точки даних і розглядають їх як окремі кластери, починаються від зверху вниз. Ці кластери об'єднуються, поки ми не отримаємо бажаних результатів.
- Наступні два схожі кластери згруповані разом, щоб утворити величезний єдиний кластер.
- Знову обчислюємо близькість у величезному кластері та об'єднуємо подібні кластери.
- Заключний крок включає об'єднання всіх вихідних кластерів на кожному кроці, щоб утворити остаточний єдиний кластер.
2. Спосіб розподілу:
Основна мета перегородки - переселення. Вони переміщують розділи, переходячи з одного кластеру на інший, що робить початковий розділ. Він ділить об’єкти даних 'n' на 'k' кількість кластерів. Цей метод розділення є кращим, ніж ієрархічна модель розпізнавання візерунків. Для задоволення методик встановлені наступні критерії:
- Кожен кластер повинен мати один об’єкт.
- Кожен об'єкт даних належить до одного кластеру.
Найпоширенішими методами розділення є алгоритм K-середнього значення. Вони діляться на «K» кластери, представлені центроїдами. Кожен центр кластера обчислюється як середнє значення для цього кластера, а функція R візуалізує результат. Цей алгоритм має наступні кроки:
- Вибір випадкових об'єктів K із набору даних та формує початкові центри (центроїди)
- Далі призначаємо евклідову відстань між предметами та середнім центром.
- Призначення середнього значення для кожного окремого кластеру.
- Кроки оновлення Centroid для кожного кластера "k".
3. Модель щільності:
У цій моделі кластери визначаються шляхом розміщення в кластері областей підвищеної щільності. Основним принципом, що стоїть за ними, є концентрація на двох параметрах: максимальний радіус мікрорайону та мінімальна кількість балів. Модель на основі щільності визначає скупчення різної форми та шуму. Він працює шляхом виявлення шаблонів шляхом оцінки просторового розташування та відстані до використовуваного тут методу сусіда - DBSCAN (просторове кластеризація, засноване на щільності), що надає руки для великих просторових баз даних. Використання трьох точок даних для кластеризації, а саме основних пунктів, прикордонних точок та видатків. Основна мета - визначити кластери та їх параметри розподілу. Процес кластеризації зупиняється потребою в параметрах щільності. Для пошуку кластерів важливо мати параметр Мінімальні функції на кластер для обчислення відстані в ядрі. Три різні інструменти, що надаються цією моделлю, це DBSCAN, HDBSCAN, Multi-scale.
4. Кластеризація на основі моделі
Ця модель поєднує два або три кластери разом із розподілу даних. Основна ідея цієї моделі полягає в необхідності поділу даних на дві групи на основі моделі ймовірності (Багатоваріантні нормальні розподіли). Тут кожна група призначається як поняття або клас. Кожен компонент визначається функцією щільності. Для пошуку параметра в цій моделі використовується оцінка максимальної ймовірності для підгонки розподілу суміші. Кожен кластер 'K' моделюється розподілом Гаусса з двопараметричним µ k середнім вектором та коваріаційним вектором £ k .
5. Модель на основі сітки
У такому підході об'єкти вважаються керованим простором шляхом розподілу простору на кінцеву кількість комірок для формування сітки. За допомогою сітки застосовується техніка кластеризації для швидшої обробки, яка зазвичай залежить від комірок, а не від об'єктів. Залучені кроки:
- Створення структури сітки
- Щільність клітин розраховується для кожної клітини
- Застосування механізму сортування до їх щільності.
- Пошук центрів кластерів та обхід сусідніх комірок, щоб повторити процес.
Важливість методів кластеризації
- Наявність методів кластеризації допомагає перезапустити локальну процедуру пошуку та усунути неефективність. Кластеризація допомагає визначити внутрішню структуру даних.
- Цей кластерний аналіз був використаний для модельного аналізу, векторної області залучення.
- Кластеризація допомагає зрозуміти природне групування в наборі даних. Їх мета полягає в тому, щоб мати сенс розділити дані на якусь групу логічних груп.
- Якість кластеризації залежить від методів та виявлення прихованих зразків.
- Вони відіграють широку роль у таких додатках, як маркетингові економічні дослідження, веб-журнали для виявлення закономірностей заходів подібності, обробка зображень, просторові дослідження.
- Вони використовуються в чужих виявленнях для виявлення фальсифікації кредитних карт.
Висновок
Кластеризація вважається загальним завданням для вирішення проблеми, яка формулює задачу оптимізації. Він відіграє ключове значення в галузі видобутку даних та аналізу даних. Ми бачили різні методи кластеризації, які розділяють набір даних залежно від вимог. Більшість досліджень базується на традиційних методах, таких як K-засоби та ієрархічні моделі. Області кластерів застосовуються у державах високих розмірів, що формує майбутнє коло дослідників.
Рекомендована стаття
Це було керівництвом щодо методів кластеризації. Тут ми обговорили концепцію, важливість та методи методів кластеризації. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -
- Що таке ETL?
- Що таке наука даних
- Що таке Терадата?
- Топ-6 альтернатив AWS
- Кластеризація в машинному навчанні
- Багатоваріантна регресія
- Ієрархічна кластеризація | Агломераційна та роздільна кластеризація