Представляємо найкраще порівняння факторного аналізу кластера в / с

Зміст:

Anonim

Що таке кластерний аналіз

Кластерний аналіз групує дані на основі характеристик, якими вони володіють. Кластерний аналіз групує об'єкти на основі факторів, що робить їх подібними. Кластерний аналіз інакше називається аналіз сегментації або аналіз таксономії. Кластерний аналіз не диференціює залежні та незалежні змінні. Кластерний аналіз використовується в широкому спектрі таких галузей, як психологія, біологія, статистика, пошук даних, розпізнавання образів та інші соціальні науки.

Мета кластерного аналізу

Основна мета аналізу кластерів - вирішити неоднорідність у кожному наборі даних. Іншими цілями кластерного аналізу є

  • Опис таксономії - Ідентифікація груп у даних
  • Спрощення даних - здатність аналізувати групи подібних спостережень замість всіх окремих спостережень
  • Генерація або тестування гіпотез - Розробка гіпотези на основі характеру даних або для тестування раніше заявленої гіпотези
  • Ідентифікація відносин - спрощена структура кластерного аналізу, що описує відносини

Існує дві основні цілі кластерного аналізу - Розуміння та корисність.

За обставин Розуміння, кластерний аналіз групує об'єкти, які мають загальні характеристики

В цілях програми Utility кластерний аналіз забезпечує характеристики кожного об'єкта даних для кластерів, до яких вони належать.

Кластерний аналіз йде рука об руку з факторним аналізом та дискримінантним аналізом.

Ви повинні задати собі кілька запитань щодо аналізу кластерів, перш ніж починати з нього

  • Які змінні є актуальними?
  • Чи достатній розмір вибірки?
  • Чи можна виявити залишків і чи слід їх видаляти?
  • Як слід вимірювати подібність об'єкта?
  • Чи слід стандартизувати дані?

Види кластерів

Існує три основних типи кластеризації

  • Ієрархічна кластеризація - яка містить агломераційний та подільний метод
  • Часткове кластеризація - містить під собою K-засоби, нечіткі K-засоби, Isodata
  • Кластеризація на основі густини - має Denclust, CLUPOT, середній зсув, SVC, парзен-вододіл під ним

Припущення в кластерному аналізі

В кластерному аналізі завжди є два припущення

  • Передбачається, що зразок є представником сукупності
  • Передбачається, що змінні не співвідносяться. Навіть за умови кореляції змінних видаляють корельовані змінні або використовують міри відстані, що компенсує кореляцію.

Етапи кластерного аналізу

    • Крок 1: Визначте проблему
    • Крок 2: Визначте відповідний захід подібності
    • Крок 3: Визначте, як згрупувати об’єкти
    • Крок 4: Визначте кількість кластерів
    • Крок 5: Інтерпретувати, описати та перевірити кластер

Аналіз кластерів у SPSS

У SPSS ви можете знайти параметр аналізу кластерів у парамелі «Аналіз / Класифікація». У SPSS існує три методи кластерного аналізу - кластер K-Means, ієрархічний кластер та кластер з двома кроками.

Метод кластеру K-Means класифікує заданий набір даних через фіксовану кількість кластерів. Цей метод легко зрозуміти і дає найкращий результат, коли дані добре відокремлені один від одного.

Двоступеневий кластерний аналіз - це інструмент, призначений для обробки великих наборів даних. Він створює кластери як на категоричні, так і на постійні змінні.

Ієрархічний кластер - це найпоширеніший метод кластерного аналізу. Він поєднує випадки в однорідні кластери, об'єднуючи їх через ряд послідовних етапів.

Ієрархічний аналіз кластерів містить три етапи

  • Обчисліть відстань
  • Зв’яжіть кластери
  • Вибір рішення шляхом вибору потрібної кількості кластерів

Нижче наведено кроки для здійснення ієрархічного кластерного аналізу в SPSS.

  • Перший крок - вибір змінних, які підлягають кластеризації. Наведене нижче діалогове вікно пояснює це вам
  • Клацнувши опцію статистики у наведеному вище діалоговому вікні, ви отримаєте діалогове вікно, де потрібно вказати вихід
  • У діалоговому вікні діаграми додайте Dendrogram. Дендрограма - це графічне зображення методу ієрархічного кластерного аналізу. Він показує, як кластери поєднуються на кожному кроці, поки він не сформує єдиний кластер.
  • Метод діалогового вікна має вирішальне значення. Тут можна згадати метод відстані та кластеризації. У SPSS є три заходи щодо інтервалу, підрахунків та двійкових даних.
  • Відстань у квадраті Евкліда - це сума різниць у квадраті, не приймаючи квадратний корінь.
  • У підрахунках ви можете вибрати між мірою площі Чи та площею Фі
  • У розділі Бінарне можна вибрати багато варіантів. Квадратна евклідова відстань - найкращий варіант для використання.
  • Наступним кроком є ​​вибір кластерного методу. Завжди рекомендується використовувати одинарний зв’язок або найближчий сусід, оскільки це легко допомагає визначити людей, що вижили. Після того, як ідентифікатори будуть визначені, ви можете використовувати метод Уорда.
  • Останній крок - стандартизація

Критика кластерного аналізу

Нижче перераховані найпоширеніші зауваження

  • Це описовий, теоретичний та неінфекційний характер.
  • Він створюватиме кластери незалежно від фактичного існування будь-якої структури
  • Він не може широко застосовуватися, оскільки він повністю залежить від змінних, що використовуються як основа для вимірювання подібності

Що таке факторний аналіз?

Факторний аналіз - це дослідний аналіз, який допомагає групувати подібні змінні в розміри. З його допомогою можна спростити дані шляхом зменшення розмірів спостережень. Факторний аналіз має кілька різних методів обертання.

Факторний аналіз використовується здебільшого для зменшення даних.

Існує два типи факторного аналізу - дослідницький та конфірмаційний

  • Дослідницький метод застосовується, коли ви не маєте заздалегідь визначеного уявлення про структури чи розміри в наборі змінних.
  • Метод підтвердження застосовується, коли потрібно перевірити конкретну гіпотезу про структури чи розміри в наборі змінних.

Цілі факторного аналізу

Існує дві основні цілі факторного аналізу, про які йдеться нижче

  • Ідентифікація основних факторів - Це включає групування змінних в однорідні множини, створення нових змінних та допомога в отриманні знань про категорії
  • Скринінг змінних - Це корисно при регресії та визначає групування, щоб ви могли вибрати одну змінну, яка представляє багато.

Припущення факторного аналізу

Нижче наведено чотири основні припущення факторного аналізу

  • Моделі, як правило, засновані на лінійних відносинах
  • Він передбачає, що зібрані дані мають масштаб інтервалу
  • Мультиколінеарність даних є бажаною, оскільки метою є виявлення взаємопов'язаного набору змінних
  • Дані повинні бути відкритими та відповідати для аналізу факторів. Це не повинно бути таким чином, щоб змінна співвіднесена лише сама з собою і не існує кореляції з будь-якою іншою змінною. Факторний аналіз на таких даних неможливо зробити.

Види факторингу

  • Основний компонентний факторинг - Найчастіше використовується метод, коли обчислюються вагові коефіцієнти для вилучення максимально можливої ​​дисперсії і продовжується до тих пір, поки не залишиться суттєвої дисперсії.
  • Канонічний факторний аналіз - Знаходить фактори, які мають найвищу канонічну кореляцію із спостережуваними змінними
  • Загальний факторний аналіз - шукає найменшу кількість факторів, які можуть враховувати загальну дисперсію набору змінних
  • Факторинг зображень - заснований на кореляційній матриці, де кожна змінна прогнозується від інших за допомогою множинної регресії
  • Альфа-факторинг - Максимізує надійність факторів
  • Факторна регресійна модель - поєднання факторної моделі та регресійної моделі, фактори якої частково відомі

Критерії факторного аналізу

  1. Критерії власного значення

  • Представляє кількість дисперсії в оригінальних змінних, яка пов'язана з фактором
  • Сума квадрата факторних навантажень кожної змінної на коефіцієнт представляє власне значення
  • Фактори зі власними значеннями, що перевищують 1, 0, зберігаються
  1. Критерії осіннього сюжету

  • Діаграма власних значень проти кількості факторів у порядку вилучення.
  • Форма сюжету визначає кількість факторів
  1. Відсоток критеріїв варіації

  • З'ясовується кількість факторів, що видобуваються так, що зростаючий відсоток дисперсії, видобутий факторами, досягає рівня задоволеності.
  1. Критерії перевірки значущості

  • З’ясовано статистичне значення окремих власних значень, зберігаються лише ті фактори, які є статистично значущими

Факторний аналіз використовується в різних галузях, таких як психологія, соціологія, політологія, освіта та психічне здоров'я.

Факторний аналіз у SPSS

У SPSS варіант факторного аналізу можна знайти в Аналіз à зменшення розміру - фактор

  • Почніть з додавання змінних до списку змінних
  • Перейдіть на вкладку Описовий та додайте кілька статистичних даних, під якими перевіряються припущення факторного аналізу.
  • Клацніть на опцію Видобуток, яка дозволить вам обрати спосіб вилучення та відрізати значення для вилучення
  • Основні компоненти (PCA) - метод вилучення за замовчуванням, який витягує навіть некорельовані лінійні комбінації змінних. PCA можна використовувати, коли кореляційна матриця є сингулярною. Він дуже схожий на Canonical Correlation Analysis, коли перший коефіцієнт має максимальну дисперсію і наступні фактори пояснюють меншу частину дисперсії.
  • Другий найбільш загальний аналіз - це основний вісь-факторинг. Він визначає приховані конструкції, що стоять за спостереженнями.
  • Наступним кроком є ​​вибір методу обертання. Найчастіше застосовуваний метод - Varimax. Цей метод спрощує тлумачення факторів.
  • Другий метод - Quartimax. Цей метод обертає фактори, щоб мінімізувати кількість факторів. Це спрощує інтерпретацію спостережуваної змінної.
  • Наступним методом є Еквамакс, який є комбінацією двох вищеописаних методів.
  • У діалоговому вікні, натиснувши на "Параметри", ви можете керувати відсутніми значеннями
  • Перш ніж зберегти результати у наборі даних, спочатку запустіть факторний аналіз та перевірте, чи немає припущень та переконайтесь, що результати значущі та корисні.

Аналіз кластерів та факторний аналіз

Як кластерний аналіз, так і факторний аналіз - це непідконтрольний метод навчання, який використовується для сегментації даних. Багато нових дослідників у цій галузі вважають, що кластерний аналіз та аналіз факторів схожі. Це може здатися схожим, але вони багато в чому різняться. Відмінності між кластерним аналізом та факторним аналізом наведені нижче

  • Об'єктивна

Завдання кластерного та факторного аналізу різні. Мета кластерного аналізу - розділити спостереження на однорідні та чіткі групи. Факторний аналіз, з іншого боку, пояснює однорідність змінних, що є результатом подібності значень.

  • Складність

Складність - це ще один фактор, за яким кластерний та факторний аналіз відрізняються. Розмір даних по-різному впливає на аналіз. Якщо розмір даних занадто великий, то він стає обчислювально нерозбірним при кластерному аналізі.

  • Рішення

Рішення проблеми є більш-менш схожим як у факторному, так і в кластерному аналізі. Але факторний аналіз забезпечує краще рішення дослідника в кращому аспекті. Кластерний аналіз не дає найкращого результату, оскільки всі алгоритми кластерного аналізу обчислювально неефективні.

  • Програми

Факторний аналіз та аналіз кластерів застосовуються по-різному до реальних даних. Факторний аналіз підходить для спрощення складних моделей. Це зводить великий набір змінних до набагато меншого набору факторів. Дослідник може розробити набір гіпотез і провести факторний аналіз, щоб підтвердити або спростувати ці гіпотези.

Кластерний аналіз підходить для класифікації об'єктів за певними критеріями. Дослідник може виміряти певні аспекти групи та поділити їх на конкретні категорії за допомогою кластерного аналізу.

Існує також багато інших відмінностей, про які йдеться нижче

  • Кластерний аналіз намагається групувати випадки, тоді як факторний аналіз намагається групувати ознаки.
  • Кластерний аналіз використовується для пошуку менших груп випадків, що репрезентують дані в цілому. Факторний аналіз застосовується для пошуку меншої групи ознак, які є репрезентативними для оригінальних наборів даних.
  • Найважливішою частиною кластерного аналізу є пошук кількості кластерів. В основному методи кластеризації поділяються на два - метод агломерації та метод розподілу. Агломераційний метод починається з кожного випадку у власному кластері та припиняється, коли досягаються критерії. Метод розділення починається з усіх випадків в одному кластері.
  • Факторний аналіз використовується для з'ясування основної структури в наборі даних.

Висновок

Сподіваюсь, ця стаття допомогла б вам зрозуміти основи кластерного аналізу та факторного аналізу та відмінності між ними.

Схожі курси: -

  1. Курс кластерного аналізу