Вступ до некерованого машинного навчання

Ви коли-небудь замислювалися про те, як дитина здатна розрізняти яблука та апельсини, коли він не знає, що вони є насправді, як вони мають смак, але виходячи з кольору та розміру, він може розділити їх на 2 групи без попередньої інформації? Чи можемо ми очікувати такої ж сегментації, як і дитина від машин, якщо надавати інформацію про колір і розмір? Подивимось, як ми можемо це зробити! У цій темі ми дізнаємось про непідконтрольне машинне навчання.

"Машинне навчання" як термін підказує, що ми навчаємо машини виконувати завдання, схожі на людину, і як люди навчаються, чи то від когось, чи то за спостереженням. Так само, як і люди, спосіб навчання машини.

Машинне навчання можна розділити на 3 частини: -

  1. Контрольоване навчання
  2. Непідконтрольне навчання
  3. Підсилення навчання

Види машинного навчання

Підсилення навчання - це агентське навчання, яке включає винагороду та покарання за дії, вчинені агентом. Кінцева мета - максимізувати загальну винагороду в процесі навчання з навколишнього середовища.

Якщо у вас є вхідні та вихідні дані, коротше кажучи, марковані дані, наприклад, з урахуванням зросту та ваги для визначення того, людина є чоловіком чи жінкою, можна розглядати як навчальне завдання під наглядом (від когось у випадку людей).

Але у багатьох сценаріях реального життя такі мічені або анотовані дані не завжди доступні. Багато разів ми стикаємося з проблемами сегментування об'єктів на основі їх властивостей, які прямо не зазначені. Як вирішити цю проблему? Ну, непідконтрольне навчання - це рішення.

У Вікіпедії зазначається, що непідконтрольне навчання - це тип самоорганізованого геббійського навчання, який допомагає знаходити невідомі раніше шаблони в наборі даних без попередніх міток. У навчанні без нагляду ми не маємо інформації про етикетки, але все ж ми хочемо отримати інформацію з даних на основі різних її властивостей.

Види непідконтрольного машинного навчання

Завдання без нагляду за навчанням можна розділити на 3 категорії:

  1. Асоціація правила видобутку
  2. Кластеризація
  3. Система рекомендацій

1. Асоціація видобутку правил

Коли у нас є дані про трансакцію для чогось, це може стосуватися продуктів, що продаються, або будь-яких даних про трансакцію, для цього важливо, я хочу знати, чи є прихований зв’язок між покупцем і товаром або продуктом до продукту, таким чином я можу якось використовувати цю інформацію щоб збільшити продажі. Вилучення цих відносин є основою асоціації видобутку правил. Ми можемо використовувати алгоритми росту AIS, SETM, Apriori, FP для вилучення відносин.

2. Кластеризація

Кластеризацією можна зробити будь-які дані, де у нас немає інформації про клас чи ярлики. Ми хочемо згрупувати дані так, щоб спостереження з подібними властивостями належали до одного кластеру / групи, а міжкластерна відстань повинна бути максимальною. Тоді як внутрішньокластерна відстань повинна бути мінімальною. Ми можемо об'єднати дані виборців, щоб дізнатися думку про уряд чи продукти кластера, виходячи з їх особливостей та використання. Сукупність сегментів на основі особливостей доходу або використання кластеризації в продажах та маркетингу.

Ми можемо використовувати K-Means, K-Means ++, K-Medoids, Fuzzy C-засоби (FCM),

Максималізація очікування (EM), агломераційна кластеризація, DBSCAN, типи ієрархічної кластеризації як єдине з'єднання, повна зв'язок, медіанна зв'язок, алгоритми методів кластеризації Варда.

3. Система рекомендацій

Система рекомендацій - це, в основному, розширення майнінгу правил асоціації, в ARM ми видобуваємо відносини, а в Рекомендаційній системі ми використовуємо ці відносини, щоб рекомендувати щось, що має більш високі шанси прийняття кінцевим користувачем. Системи рекомендацій набули популярності після того, як Netflix оголосив головний приз у розмірі 1000 000 доларів США у 2009 році.

Рекомендаційні системи працюють над транзакційними даними, будь то фінансові транзакції, електронна комерція або транзакції продуктових магазинів. В даний час гігантські гравці в галузі електронної комерції заманюють клієнтів, роблячи індивідуальні рекомендації для кожного користувача, виходячи з їх минулої історії покупок та подібних даних про покупку поведінки від інших користувачів.

Методи розробки систем рекомендацій можна в основному розділити на спільну фільтрацію та фільтрування на основі вмісту. У фільтрації спільної спільної роботи ми знову використовуємо фільтрування спільно з користувачем і спільне фільтрування за предметом, які є підходами на основі пам’яті, а матрична факторизація та синхронне розкладання значення (SVD) є модельними підходами.

Застосування непідконтрольного навчання

Оскільки дані у світі надзвичайно збільшуються з кожним днем, без нагляду навчання має багато застосувань. Ми завжди створюємо дані, використовуючи платформи соціальних медіа чи якийсь відеоконтент на YouTube, і багато разів навіть навмисно не робимо. Усі ці дані неструктуровані, і маркування їх під контрольовані навчальні завдання буде втомливим і дорогим.

Нижче наведено кілька цікавих застосувань непідконтрольного машинного навчання.

  1. Продуктовий магазин або магазин / ринок електронної комерції: Правила асоціації витягів із даних про трансакцію клієнтів та рекомендації споживачам купувати товари.
  2. Платформа соціальних медіа: вилучайте стосунки з різними користувачами, пропонуючи товари чи послуги. Рекомендуйте нових людей для соціального зв’язку.
  3. Послуги: Рекомендації туристичних послуг, рекомендації орендувати будинки або послуги з проведення сватання.
  4. Банківські операції : клієнти кластеру на основі їх фінансових операцій. Кластерна шахрайська операція з виявлення шахрайства.
  5. Політика: думки виборців щодо шансів на перемогу для певної партії.
  6. Візуалізація даних: За допомогою кластеризації та розподіленого стохастичного сусідського вбудовування (t-SNE) ми можемо візуалізувати дані з високими розмірами. Також це можна використовувати для зменшення розмірності.
  7. Розваги: Рекомендації щодо фільмів, музики, як це роблять Netflix та Amazon.
  8. Сегментація зображення: ділянки зображень кластеру на основі найближчих значень пікселів.
  9. Зміст: персоналізовані газети, рекомендації веб-сторінок, програми електронного навчання та фільтри електронної пошти.
  10. Структурне відкриття: за допомогою кластеризації ми можемо виявити будь-яку приховану структуру в даних.

Висновок

Непідконтрольне машинне навчання не надто піддається кількісній оцінці, але може вирішити безліч проблем, за яких керовані алгоритми виходять з ладу. У багатьох областях, де ми маємо неструктуровані та не марковані дані, існує безліч застосувань для непідконтрольного навчання. Ми можемо використовувати техніку навчання без нагляду, щоб навчити наші машини робити кращу роботу, ніж ми. В останні роки машини перевершували людину в плані завдань, які вважаються вирішеними людиною протягом століть. Я сподіваюся, що з цією статтею ви зрозуміли, що таке і як технічні засоби машинного навчання без нагляду можуть бути використані для вирішення реальних проблем.

Рекомендовані статті

Це посібник з непідконтрольного машинного навчання. Тут ми обговорюємо типи машинного навчання та види непідконтрольного машинного навчання разом із його застосуваннями. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Алгоритми машинного навчання
  2. Що таке машинне навчання?
  3. Вступ до машинного навчання
  4. Інструменти машинного навчання
  5. Кластеризація в машинному навчанні
  6. Гіперпараметр машинного навчання
  7. Ієрархічний алгоритм кластеризації
  8. Ієрархічна кластеризація | Агломераційна та роздільна кластеризація
  9. Топ 8 етапів життєвого циклу машинного навчання

Категорія: