Вступ до інформаційного машинного навчання

Дані - це в основному інформація, особливо факти чи цифри, зібрані для вивчення та розгляду та використання для сприяння прийняттю рішень чи інформації в електронному вигляді, які можуть зберігатися та використовуватися комп’ютером. Тепер ми вивчимо визначення даних про наукові дані та машинне навчання.

Data Science (DS) : Це дуже широке поле, де застосовуються різні методи, такі як статистичні методи, наукові підходи, архітектурні процеси, різноманітність алгоритмів для отримання проникливої ​​інформації з наявних даних, які можуть бути як структурованими, так і неструктурованими даними.

Машинне навчання ( ML ): Це підмножина Data Science. В машинному навчанні в основному за допомогою статистичних моделей та різних алгоритмів машини навчаються, не даючи чітких інструкцій, він спирається на структури, створені за допомогою даних ».

Важливість наукових даних

  • Ми живемо в епоху технологій, коли кожна людина так чи інакше використовує технологію для комфорту / ефективності / легкості, наприклад, стільниковий телефон / Ноутбуки / Планшети для зв'язку, автомобілі / поїзди / автобуси / літаки для перевезень, такі послуги банківські послуги / електроенергія та багато іншого для зручності життя.
  • У кожному такому випадку ми створюємо дані свідомо чи несвідомо, як журнали викликів / тексти / соціальні медіа - зображення / відео / блоги - це частина даних, а також транспортування нашої навігації до різних місць за допомогою GPS / продуктивність автомобіля, записаного через ECU частина даних. Наші операції з банківськими та мобільними гаманцями створюють величезний обсяг даних, споживання електроенергії в будь-якій області чи секторі також є частиною даних.
  • І якщо сказати, ці дані зростають експоненціально з кожним днем ​​або хвилиною за хвилиною.
  • Тепер виникає питання, чи можемо ми щось зробити з цими даними? Чи можемо ми використовувати ці дані, щоб дати корисну інформацію? Чи можемо ми підвищити ефективність? Чи можемо ми використовувати ці дані для прогнозування майбутніх результатів?
  • Щоб відповісти на всі подібні запитання, ми маємо поле, яке називається наукою даних.
  • Data Science може розглядатися як широке поле, яке включає обмін даними, інженерія даних, візуалізація даних, статистичні методи інтеграції даних, програмування R / python / SQL, машинне навчання, великі дані та багато іншого.

Тепер розберемося з важливими поняттями науки про дані.

1. Інженерія даних

Інженерія даних є одним із аспектів науки про дані, яка в основному зосереджується на застосуванні даних, збиранні даних та аналізі даних. Всі роботи, які виконують вчені, люблять відповідати на декілька питань, пов'язаних з прогнозами або аналізом, використовують великий набір інформації.

Тепер їм потрібна правильна та корисна інформація, яка створює потребу в зборі та валідації наявної інформації. Все це є частиною інженерних завдань. Деякі з цих завдань - перевірка наявності нульових значень (відсутні дані), категоризація даних (категоричні дані), створення структур даних (правила асоціації) тощо.

2. Візуалізація даних

Візуалізація даних - це графічний підхід до представлення даних. Тут ми використовуємо вбудовану бібліотеку python для створення візуальних елементів, наприклад, таблиць, кореляційних діаграм, гістограм, парних графіків тощо. Візуалізація даних відіграє дуже важливу роль у наданні дуже простого способу аналізу даних, перегляду та розуміння тенденцій, фігури з аутлайнерів тощо.

3. Статистичне розуміння

Статистика відіграє дуже важливу роль у галузі науки про дані. Статистика є дуже потужним інструментом для виконання завдань Data Science (DS). Статистика використовує математику для технічного аналізу наявної інформації. За допомогою візуалізацій, таких як смуга або діаграма, ми можемо отримати інформацію про тенденції, але статистика допомагає нам працювати з даними математично / цільовим чином. Без знання даних візуалізація науки - це лише гра в здогадки.

Ми обговоримо деякі важливі статистичні методи, які застосовують науковці щодня.

  • Середнє значення: Середнє значення - це в основному середнє значення всіх даних, що обчислюється додаванням усіх елементів даних, а потім діленням їх на кількість елементів. Використовується для ідентифікації центрального значення всіх елементів.
  • Медіана: Медіана також використовується для пошуку середнього значення доступних елементів, але тут усі дані розташовані в порядку, а точне середнє значення вважається медіаною.

Якщо кількість елементів непарне, то медіана - це ((n + 1) / 2) термін. Якщо кількість елементів є парними, то медіана буде ((n / 2) + 1) доданком.

  • Режим: Режим - це статистичний параметр, який вказує на найчастіший або значення, яке з’являється найбільшу кількість разів, трактується як режим.
  • Стандартне відхилення: стандартне відхилення вказує, скільки розкиду є в даних, або це вимірювання для визначення спред від середнього значення або середнього значення або очікуваного значення.

Якщо у нас низьке стандартне відхилення, це вказує, що більшість значень даних близькі до середнього значення. Якщо у нас високе стандартне відхилення, значить, наші значення більше розподіляються від середнього значення.

  • Варіант: дисперсія те саме, що і стандартне відхилення з невеликою різницею, це квадрат стандартного відхилення. Стандартне відхилення походить від дисперсії, оскільки стандартне відхилення показує розкид у відношенні даних, тоді як дисперсія показує спред на квадрат. Співвідносити спред легко за допомогою дисперсії.
  • Кореляція: Кореляція є одним з найважливіших статистичних заходів, вона вказує, як змінні в наборі даних пов'язані. Коли ми змінюємо один параметр, як він впливає на інший параметр.

Якщо у нас є додатне значення кореляції, це означає, що змінні будуть або збільшуватися, або зменшуватися паралельно

Якщо ми маємо від'ємне значення кореляції, це означає, що змінні будуть поводитись обернено, на приріст одна від одної зменшуватиметься і навпаки.

У статистиці маємо розподіл ймовірностей, байєсівську статистику та тестування гіпотез, які також є дуже важливим інструментом для вченого.

Машинне навчання

Машинне навчання в основному означає спосіб, за допомогою якого машини можуть вивчати та отримувати вихід на основі функцій введення.

Визначення: "Машинне навчання - це поле вивчення, де комп'ютер вчиться на основі наявних даних / історичних даних без явного програмування"

У машинному навчанні основна увага приділяється автоматизації та вдосконаленню навчального процесу комп’ютерів на основі їх досвіду введення даних, і ми не будемо програмувати код явно для кожного типу проблеми, тобто машина вирішить, як підійти до проблеми. Тут результати можуть бути неточними, але можна зробити хороший прогноз.
Давайте розберемося так:

Традиційно комп'ютери використовуються для полегшення процесу обчислення. тому якщо у нас є якісь арифметичні підрахунки. Що ми будемо робити? Ми підготуємо одну комп'ютерну програму, яка вирішить цю операцію легко та швидко. наприклад, якщо ми хочемо додати два об'єкти, ми створимо один фрагмент програмного коду, який займе два входи, а у виході буде показано підсумок.

У машинному навчанні інший підхід замість подачі прямого алгоритму в програмний код вводиться спеціальний алгоритм, який намагатиметься розпізнати шаблон і на основі цих моделей намагатиметься передбачити найкращий можливий результат. Тут ми не кодуємо жоден алгоритм явно для будь-якої конкретної операції, натомість ми подаємо дані в машину, щоб дізнатися, що таке шаблон і що може бути результатом.

Тепер, чому нам потрібно піти на такий підхід, коли ми можемо безпосередньо отримати точні результати, просто кодуючи точний алгоритм? Точні алгоритми складні і обмежені. Давайте розглянемо це з іншого погляду, це епоха, коли ми маємо велику кількість даних, і вона вибухає щодня, як ми говорили в попередньому розділі. Тут ми маємо справу з контрольованим та непідконтрольним навчанням.

Машинне навчання сьогодні викликає гострий інтерес, оскільки ми маємо велику кількість даних. Щоб зрозуміти ці дані, нам потрібно мати якісь значущі результати або якісь змістовні зразки, які можна проаналізувати та застосувати до реального використання.

Але все ж, чому нас цікавить Машинне навчання та ці дані?

Ми знаємо, що людство просто відтворює історію так, як ми такі самі, як були наші попередні покоління, і наші нащадки також зіткнуться з кількома тими ж ситуаціями, з якими ми стикаємося зараз або зіткнулися. На цьому етапі ми повинні уявити, як реагувати на майбутнє, використовуючи історичні дані.
Тож тепер ми знаємо, що дані - дуже цінний актив.

Проблема - як найкраще ми можемо використовувати ці наявні дані?

Це найцікавіша тема (як?), Де ми будемо розуміти наявні дані. В основному є 3 підходи до машинного навчання:

  • Контрольоване навчання
  • Навчання без нагляду
  • Навчання зміцненню

Ці три підходи використовуються для створення моделі машинного навчання типу (лінійна регресія, логістична регресія, випадковий ліс, дерева рішень тощо).

Наприклад, існує широке застосування цих моделей машинного навчання:

  • Фінанси: виявлення шахрайства
  • Маркетинг / продаж: персоналізація рекомендації
  • Охорона здоров'я: визначити тенденцію захворювання.

Висновок - Машинне навчання даних з даних

  • Data Science - це широке поле, підмножиною якого є машинне навчання. У цьому ми аналізуємо наявні у нас історичні дані та намагаємось передбачити найбільш ймовірні майбутні результати.
  • Для прогнозування нам потрібно очистити дані, упорядкувати дані (інженерія даних). Маючи дані в руці, ми візуалізуємо схему / тенденції, а потім, розуміючи статистику, виводимо проникливу інформацію.
  • Ці дані будуть надходити на машину за допомогою алгоритму машинного навчання.
  • Ці алгоритми тренують машину і створюють одну модель машинного навчання.
  • Цю модель потім можна використовувати для прогнозування.

Рекомендовані статті

Це посібник з інформаційного машинного навчання. Тут ми обговорюємо важливість інформатики разом з машинним навчанням. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Кращі програми з наукових даних
  2. Навики наукових даних
  3. Мови наукових даних
  4. Методи машинного навчання
  5. Що таке інтеграція даних?
  6. Як використовується гістограма в Matlab (приклади)
  7. Дерево рішень в машинному навчанні
  8. Прості способи створення дерева рішень

Категорія: