Що таке навчання підсиленням? - Функція та різні фактори

Вступ у зміцнення навчання

Підсилення навчання - це тип машинного навчання, а отже, воно також є частиною Штучного інтелекту, коли застосовується до систем, системи виконують кроки та навчаються на основі результатів кроків, щоб отримати складну мету, яка встановлена для досягнення системи.

Зрозуміти, що навчається зміцненню

Спробуємо під час навчання підкріплення вивчити за допомогою 2 простих випадків використання:

Справа №1

У сім’ї є дитина, і вона тільки почала ходити, і всі дуже раді цьому. Одного разу батьки намагаються поставити мету, давайте дитині дістатися до дивана, і подивимося, чи здатна дитина це зробити.

Результат 1 випадку: дитина успішно дістається до диванчика, і тому всі в сім'ї дуже раді бачити це. Обраний шлях тепер приносить позитивну винагороду.

Бали: нагорода + (+ n) → позитивна нагорода.

Джерело: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Справа №2

Дитина не змогла піднятися на диван, і дитина впала. Боляче! Що може бути причиною? На шляху до дивана можуть виникнути перешкоди, і дитина потрапила на перешкоди.

Результат випадку 2: Дитина потрапляє до якихось перешкод, і вона плаче! О, це було погано, вона дізналася, щоб наступного разу не потрапити в пастку перешкод. Обраний шлях тепер отримує негативну винагороду.

Бали: нагороди + (-n) → негативна нагорода.

Джерело: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Зараз ми бачили випадки 1 і 2, в яких навчальне підкріплення в принципі робить те саме, за винятком того, що воно не є людиною, а натомість виконується обчислювально.

Використання армування поетапно

Давайте розберемося з навчанням підкріплення, поетапно запроваджуючи Арматурний агент. У цьому прикладі наш навчальний агент підкріплення - Маріо, який навчиться грати самостійно:

Джерело: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

Поточний стан ігрового середовища Mario є S_0. Тому що гра ще не почалася, а Маріо на своєму місці.
Далі гра починається і Маріо рухається, Маріо, тобто агент RL приймає і діє, скажімо, A_0.
Тепер стан ігрового середовища перетворився на S_1.
Крім того, агенту RL, тобто Маріо, тепер присвоюється позитивний бал R_1, ймовірно, тому, що Маріо все ще живий і жодної небезпеки не виникало.

Тепер вищезгаданий цикл буде продовжувати працювати, поки Маріо остаточно не помер, або Маріо не досягне місця призначення. Ця модель буде постійно виводити дію, винагороду та стан.

Нагороди за максимізацію

Метою посиленого навчання є максимізація винагороди за рахунок врахування деяких інших факторів, таких як знижка на винагороду; ми коротко пояснимо, що розуміється під знижкою за допомогою ілюстрації.

Сукупна формула дисконтованих винагород така:

Дисконтні винагороди

Давайте зрозуміємо це на прикладі:

На даній фігурі мета полягає в тому, що миша в грі повинна з'їсти стільки сиру, перш ніж їсти кішку або не зазнати електрошоку.
Тепер ми можемо припустити, що чим ближче ми до кота чи електричної пастки, тим більше ймовірності ми допускаємо до того, що миша буде з'їдена чи шокована.
Це означає, що навіть якщо у нас повний сир біля блоку ураження електричним струмом або біля кота, тим ризикованіше їхати туди, краще їсти сир, який знаходиться поруч, щоб уникнути будь-якого ризику.
Тож навіть у нас є один «блок1» сиру, який повний і знаходиться далеко від котячого та електричного струму, а інший - «блок2», який також повний, але знаходиться поруч з котом або електричним струмом, пізніший сирний блок, тобто "block2", буде знижений у винагороді, ніж попередній.

Джерело: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Джерело: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Види підсилення навчання

Нижче наведено два типи навчання з підсиленням з їх перевагами та недоліками:

1. Позитивний

Коли сила і частота поведінки збільшуються через виникнення якоїсь конкретної поведінки, вона відома як Позитивне зміцнення навчання.

Переваги: продуктивність максимізована, і зміни залишаються на довший час.

Недоліки: Результати можна зменшити, якщо у нас занадто багато підкріплення.

2. Негативний

Це посилення поведінки, здебільшого через негативний термін зникає.

Переваги: поведінка посилюється.

Недоліки: лише мінімальна поведінка моделі може бути досягнута за допомогою негативного підкріплення навчання.

Де слід використовувати навчання для посилення?

Те, що можна зробити за допомогою навчального / прикладного підкріплення. Нижче наведені сфери, де в наші дні застосовується зміцнення навчання:

Охорона здоров'я
Освіта
Ігри
Комп'ютерне бачення
Бізнес Менеджмент
Робототехніка
Фінанси
NLP (Обробка натуральної мови)
Перевезення
Енергія

Кар'єра в навчанні зміцнення

Насправді є звіт із сайту роботи, оскільки RL - це галузь машинного навчання, згідно з доповіддю, Машинне навчання - найкраща робота 2019 року. Нижче наведено короткий звіт звіту. Відповідно до сучасних тенденцій, інженери машинного навчання надходять із колосальною середньою заробітною платою в розмірі 146 085 доларів та зі зростанням 344 відсотків.

Джерело: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Навички для посилення навчання

Нижче наведено навички, необхідні для навчання підкріплення:

1. Основні навички

Ймовірність
Статистика
Моделювання даних

2. Навички програмування

Основи програмування та інформатики
Дизайн програмного забезпечення
Здатний застосовувати бібліотеки та алгоритми машинного навчання

3. Мови програмування машинного навчання

Пітон
R
Хоча є й інші мови, де можуть бути спроектовані моделі машинного навчання, такі як Java, C / C ++, але Python та R - найбільш популярні мови.

Висновок

У цій статті ми почали з короткого вступу про підсилення навчання, а потім ми глибоко занурилися в роботу RL та різних факторів, які беруть участь у роботі моделей RL. Тоді ми навели кілька реальних прикладів, щоб зрозуміти ще краще тему. На кінець цієї статті слід добре розуміти роботу навчання з підсиленням.

Що таке навчання підсиленням? - Функція та різні фактори

Зміст:

Вступ у зміцнення навчання

Зрозуміти, що навчається зміцненню

Справа №1

Справа №2

Використання армування поетапно

Нагороди за максимізацію

Дисконтні винагороди

Види підсилення навчання

1. Позитивний

2. Негативний

Де слід використовувати навчання для посилення?

Кар'єра в навчанні зміцнення

Навички для посилення навчання

1. Основні навички

2. Навички програмування

3. Мови програмування машинного навчання

Висновок

Рекомендовані статті

Непрозорість шару проти заповнення Photoshop

Навчальний посібник з кольоровими та кольоровими каналами Photoshop RGB

Кордони та рамки Photoshop - рамка для матових малюнків

Як створити диптих за допомогою Photoshop CS6

8 бітний колір проти 16 бітового кольору - робота з 16 бітовими зображеннями у Photoshop

Формула нерозподіленого прибутку - Калькулятор (шаблон Excel)

Формула коефіцієнта утримання - Калькулятор (шаблон Excel)

Рентабельність середніх активів - Переваги та обмеження ROAA

Рентабельність капіталу, зайнятого - Приклади - Переваги та обмеження

Рентабельність середнього капіталу, зайнятого - Переваги та обмеження

10 питань щодо інтерв'ю з істотною потужністю (Оновлено на 2019 рік)

Power BI проти Excel - Дізнайтеся про найкращі 19 відмінностей

Power BI проти Qlikview - знайдіть 22 найкращих корисних порівняння

Power BI проти SSRS - 11 дивовижних порівнянь, про які слід дізнатися

Power BI Calendar - Як використовувати функцію календаря DAX в Power BI?