Вступ до моделей машинного навчання

Огляд різних моделей машинного навчання, що застосовуються на практиці. Виходячи з визначення, модель машинного навчання - це математична конфігурація, отримана після застосування конкретних методологій машинного навчання. Використовуючи широкий діапазон API, побудова моделі машинного навчання в наш час набагато пряма вперед з меншою кількістю рядків кодів. Але справжня майстерність професіонала прикладної науки полягає у виборі правильної моделі на основі постановки проблеми та перехресної перевірки замість того, щоб викидати дані до фантазійних алгоритмів випадковим чином. У цій статті ми розглянемо різні моделі машинного навчання та способи їх ефективного використання на основі типу проблем, які вони вирішують.

Типи моделей машинного навчання

Виходячи з типу завдань, ми можемо класифікувати моделі машинного навчання за такими типами:

  • Моделі класифікації
  • Регресійні моделі
  • Кластеризація
  • Зменшення розмірності
  • Поглиблене навчання тощо

1) Класифікація

Що стосується машинного навчання, класифікація - це завдання передбачити тип або клас об'єкта в межах обмеженої кількості варіантів. Вихідна змінна для класифікації завжди є категоричною змінною. Наприклад, передбачення електронної пошти є спамом чи ні - це стандартна задача бінарної класифікації. Тепер відзначимо кілька важливих моделей проблем класифікації.

  1. Алгоритм K-Найближчих сусідів - простий, але обчислювально вичерпний.
  2. Наївний Байєс - заснований на теоремі Байєса.
  3. Логістична регресія - лінійна модель для двійкової класифікації.
  4. SVM - може використовуватися для двійкових / багатокласових класифікацій.
  5. Дерево рішень - класифікатор на основі " If Else ", більш надійний для людей, що втратили життя.
  6. Ансамблі - комбінація декількох моделей машинного навчання, з’єднаних між собою, щоб отримати кращі результати.

2) Регресія

У машині регресія навчання - це набір проблем, коли змінна вихідна здатність може приймати постійні значення. Наприклад, прогнозування ціни авіакомпанії може розглядатися як стандартне завдання регресії. Відзначимо деякі важливі регресійні моделі, що застосовуються на практиці.

  1. Лінійна регресія - найпростіша базова модель для регресійної задачі, працює добре лише тоді, коли дані лінійно відокремлюються і дуже менше або немає мультиколінеарності.
  2. Регресія Лассо - лінійна регресія з регуляризацією L2.
  3. Регрес хребта - лінійна регресія з L1 регуляризацією.
  4. Регрес SVM
  5. Регресія дерева рішень тощо.

3) Кластеризація

Простими словами, кластеризація - це завдання згрупувати подібні об’єкти разом. Моделі машинного навчання допомагають автоматично ідентифікувати подібні об'єкти без ручного втручання. Ми не можемо побудувати ефективні керовані моделі машинного навчання (моделі, які потребують навчання з курованими або маркованими даними вручну) без однорідних даних. Кластеризація допомагає нам досягти цього розумнішим чином. Нижче наведено декілька широко використовуваних моделей кластеризації:

  1. K означає - Простий, але страждає від великої дисперсії.
  2. K означає ++ - Модифікована версія K означає.
  3. До медоїдів.
  4. Агломераційна кластеризація - Ієрархічна модель кластеризації.
  5. DBSCAN - алгоритм кластеризації на основі щільності тощо.

4) Зменшення розмірності

Розмірність - це кількість змінних предиктора, які використовуються для прогнозування незалежної змінної або target.often у реальних наборах даних, кількість змінних занадто висока. Занадто багато змінних також приносять прокляття надмірного пристосування до моделей. На практиці серед цієї великої кількості змінних не всі змінні однаково сприяють досягненню мети, і у великій кількості випадків ми можемо фактично зберегти відхилення з меншою кількістю змінних. Перелічимо кілька часто використовуваних моделей для зменшення розмірності.

  1. PCA - це створює меншу кількість нових змінних із великої кількості предикторів. Нові змінні незалежні одна від одної, але менш інтерпретовані.
  2. TSNE - Забезпечує вбудування нижнього розміру точок даних з більшими розмірами.
  3. SVD - сингулярне розкладання величини використовується для розкладання матриці на більш дрібні частини для ефективного обчислення.

5) Глибоке навчання

Глибоке навчання - це підмножина машинного навчання, яка має справу з нейронними мережами. Виходячи з архітектури нейронних мереж, перерахуємо важливі моделі глибокого навчання:

  1. Багатошаровий перцептрон
  2. Нейрові мережі згортки
  3. Повторні нейронні мережі
  4. Машина Больцмана
  5. Автокодування тощо.

Яка модель найкраща?

Вище ми взяли ідеї про безліч моделей машинного навчання. Тепер нам на думку спадає очевидне питання "Яка найкраща модель серед них?" Це залежить від проблеми і інших пов'язаних атрибутів, таких як ексклюзиви, обсяг доступних даних, якість даних, інженерія функцій тощо. На практиці завжди бажано починати з найпростішої моделі, застосовної до проблеми, і збільшувати складність. поступово шляхом правильної настройки параметрів та перехресної перевірки. У світі наукових даних існує прислів’я - «Перехресне підтвердження надійніше, ніж знання домену».

Як побудувати модель?

Подивимося, як побудувати просту логістичну регресійну модель за допомогою бібліотеки Scikit Learn python. Для простоти, ми припускаємо, що проблема є стандартною класифікаційною моделлю, а "train.csv" - поїзд, а "test.csv" - дані поїзда та випробування відповідно.

Висновок

У цій статті ми обговорили важливі моделі машинного навчання, що використовуються в практичних цілях, і як побудувати просту модель машинного навчання в python. Вибір правильної моделі для конкретного випадку використання дуже важливий для отримання належного результату завдання машинного навчання. Для порівняння результативності між різними моделями визначаються показники оцінки або KPI для конкретних бізнес-проблем, а найкраща модель вибирається для виробництва після застосування статистичної перевірки ефективності.

Рекомендовані статті

Це посібник з моделей машинного навчання. Тут ми обговорюємо топ 5 типів моделей машинного навчання з його визначенням. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Методи машинного навчання
  2. Види машинного навчання
  3. Алгоритми машинного навчання
  4. Що таке машинне навчання?
  5. Гіперпараметр машинного навчання
  6. КПІ в Power BI
  7. Ієрархічний алгоритм кластеризації
  8. Ієрархічна кластеризація | Агломераційна та роздільна кластеризація

Категорія: