Вступ до обробки даних у машинному навчанні

Попередня обробка даних у машинному навчанні - це спосіб перетворення даних із необробленої форми у набагато більш форматовану, непридатну чи бажану форму. Це невід'ємне завдання машинного навчання, яке виконує науковець даних. Оскільки зібрані дані є в необробленому форматі, це може бути неможливо здійснити навчання моделі, використовуючи її. Важливо ретельно обробити ці необроблені дані, щоб зробити належну інтерпретацію з них та остаточно уникнути негативного результату в прогнозуванні. Коротше кажучи, якість нашого алгоритму навчання сильно залежить від типу набору даних, який ми використовували для подачі моделі, тому попередня обробка даних використовується для підтримки цієї якості.

Дані, зібрані для навчання моделі, є з різних джерел. Ці зібрані дані, як правило, знаходяться в необробленому форматі, тобто вони можуть мати шуми, як відсутні значення, і відповідну інформацію, цифри у строковому форматі тощо, або вони можуть бути неструктурованими. Попередня обробка даних підвищує ефективність та точність моделей машинного навчання. Оскільки це допомагає у видаленні цих шумів із набору даних та надає значення набору даних

Шість різних кроків, залучених до машинного навчання

Нижче наведено шість різних етапів машинного навчання виконання попередньої обробки даних:

Крок 1: Імпорт бібліотек

Крок 2: Імпорт даних

Крок 3: Перевірка відсутніх значень

Крок 4: Перевірка категоричних даних

Крок 5: Масштабування функцій

Крок 6: Розбиття даних на набори для навчання, валідації та оцінювання

Давайте розберемося в деталях кожного з цих кроків:

1. Імпорт бібліотек

Найпершим кроком є ​​імпорт кількох важливих бібліотек, необхідних для попередньої обробки даних. Бібліотека - це сукупність модулів, які можна викликати та використовувати. У python у нас є багато бібліотек, які допомагають у попередній обробці даних.

Кілька з важливих бібліотек python:

  • Numpy: Більшість використовується бібліотека для впровадження або використання складних математичних обчислень машинного навчання. Це корисно при виконанні операції над багатовимірними масивами.
  • Панди : Це бібліотека з відкритими джерелами, яка забезпечує високу продуктивність і просту у використанні структуру даних та інструменти аналізу даних в python. Він розроблений таким чином, щоб зробити роботу зі зв’язком і міченими даними легко та інтуїтивно зрозуміло.
  • Matplotlib: Це бібліотека візуалізації, що надається python для 2D-графіків масиву. Він побудований на масивному масиві і призначений для роботи з більш широким стеком Scipy. Візуалізація наборів даних корисна для сценарію, коли доступні великі дані. Діаграми, доступні в матопластині, - це лінія, брусок, розкидання, гістограма тощо.
  • Seaborn: Це також бібліотека візуалізації, яку надає python. Він забезпечує інтерфейс високого рівня для малювання привабливих та інформативних статистичних графіків.

2. Імпорт набору даних

Після імпортування бібліотек наш наступний крок - завантаження зібраних даних. Бібліотека Pandas використовується для імпорту цих наборів даних. Переважно набори даних доступні у форматах CSV, оскільки вони мають невеликі розміри, що робить його швидким для обробки. Отже, завантажити файл csv за допомогою функції read_csv бібліотеки панди. Різні інші формати набору даних, які можна побачити, є

Після завантаження набору даних ми повинні перевірити його та шукати будь-який шум. Для цього нам слід створити матрицю характеристик X та вектор спостереження Y відносно X.

3. Перевірка відсутності значень

Після створення матриці функцій ви можете виявити деякі недолікові значення. Якщо ми не впораємося з цим, то це може спричинити проблеми під час тренувань.

Існує два способи поводження з відсутніми значеннями:

  1. Видалення всього рядка, який містить пропущене значення, але може бути ймовірність, що ви можете втратити деяку життєво важливу інформацію. Це може бути хорошим підходом, якщо розмір набору даних великий.
  2. Якщо числовий стовпець має відсутнє значення, то ви можете оцінити значення, взявши середнє, медіанне, режим тощо.

4. Перевірка категоричних даних

Дані в наборі даних повинні бути в числовій формі, щоб проводити обчислення на ньому. Оскільки моделі машинного навчання містять складні математичні обчислення, ми не можемо подати їм нечислове значення. Отже, важливо перетворити всі текстові значення в числові значення. Клас LabelEncoder () вивченого використовується для перетворення цих категоричних значень у числові значення.

5. Масштабування функції

Значення необроблених даних сильно відрізняються, і це може призвести до необ'єктивного навчання моделі або в кінцевому підсумку до збільшення обчислювальної вартості. Тому важливо їх нормалізувати. Масштабування функцій - це техніка, яка використовується для приведення значення даних у коротший діапазон.

Методи використання масштабування функцій:

  • Масштабування (нормалізація min-max)
  • Середня нормалізація
  • Стандартизація (нормалізація Z-балів)
  • Масштабування до одиниці довжини

6. Розщеплення даних на навчальні, валідаційні та оціночні набори

Нарешті, нам потрібно розділити наші дані на три різні набори, навчальний набір для тренування моделі, набір перевірки для перевірки точності нашої моделі та нарешті тестовий набір для перевірки працездатності нашої моделі на загальних даних. Перед розділенням набору даних важливо перемістити набір даних, щоб уникнути будь-яких упереджень. Ідеальна пропорція для поділу набору даних - 60:20:20, тобто 60% як навчальний набір, 20% як набір для тестування та перевірки. Для розділення набору даних використовуйте train_test_split з sklearn.model_selection двічі. Один раз розділити набір даних на набір поїздів і валідацій, а потім розділити решту даних поїздів на поїзд і набір тестів.

Висновок - попередня обробка даних у машинному навчанні

Попередня обробка даних - це те, що вимагає практики. Це не схожа на просту структуру даних, в якій ви вивчаєте та застосовуєте безпосередньо для вирішення проблеми. Щоб отримати хороші знання про те, як очистити набір даних або як візуалізувати ваш набір даних, вам потрібно працювати з різними наборами даних.

Чим більше ви будете використовувати ці методи, тим краще розумієтесь. Це було загальне уявлення про те, як обробка даних відіграє важливу роль у машинному навчанні. Поряд із цим ми також побачили кроки, необхідні для попередньої обробки даних. Тому наступного разу перед тим, як перейти до тренування моделі з використанням зібраних даних, обов’язково застосуйте попередню обробку даних.

Рекомендовані статті

Це посібник з попередньої обробки даних у машинному навчанні. Тут ми обговорюємо вступ, шість різних кроків, залучених до машинного навчання. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Важливість штучного інтелекту
  2. IoT-технології
  3. Типи даних PL / SQL
  4. Типи даних вуликів
  5. R Типи даних

Категорія: