Що таке аналітика даних - Різні типи даних Analytics

Зміст:

Anonim

Що таке аналітика даних?

Аналітика даних - це процес виявлення ключових висновків та цінних висновків із величезної кількості даних, зібраних чи зібраних з різних джерел для підтримки прийняття рішень. Збільшена обчислювальна потужність, висока швидкість обробки. Поява інтерактивних інтерфейсів для кінцевих користувачів та доведена ефективність розподіленої обчислювальної парадигми для обробки великих фрагментів даних, що дозволили проаналізувати дані у всіх областях, зокрема в галузі роздрібної торгівлі, банківської справи, охорони здоров'я, логістики, оборони, державного управління тощо.

Види аналітики даних

Процес аналізу даних суб'єктивно класифікується на три типи на основі аналізу даних як

  • Описова аналітика
  • Прогнозована аналітика
  • Написання аналітики

Характеристики вищеперелічених типів Analytics описані нижче:

1. Описова аналітика

Описова аналітика фокусується на узагальненні минулих даних для отримання висновків. Найбільш часто використовувані заходи для характеристики розподілу історичних даних кількісно включають

  • Заходи центральної тенденції - середній, середній, квартіль, режим.
  • Заходи мінливості чи поширення - дальність, міжквартильний діапазон, відсотки.

Останнім часом труднощі та обмеження, пов'язані зі збором, зберіганням та осмисленням масивної маси даних, долаються за допомогою процесу статистичних висновків. Узагальнені умовиводи щодо статистики набору даних про населення виводяться за допомогою методів вибірки разом із застосуванням центральної теорії обмеження.

Провідний телеканал новин збирає деталізовані дані про голосування випадково вибраних виборців на виході з опитувальної станції в день виборів, щоб отримати статистичні висновки про уподобання всього населення.

Повторне вибірка набору даних популяції призводить до утворення зразків з досить великим розміром вибірки. Кластерна вибірка, як правило, бажана для створення добре стратифікованих, неупереджених представників набору даних. Статистичний показник інтересу обчислюється на фрагментах вибіркових даних для отримання розподілу статистичних значень вибірки, званих розподілом вибірки. Характеристики розподілу вибірки пов'язані з характеристикою даних набору населення за допомогою центральної теорії обмеження.

2. Прогнозована аналітика

Прогнозна аналітика використовує шаблони в історичних чи минулих даних для оцінки майбутніх результатів, виявлення тенденцій, виявлення потенційних ризиків та можливостей або прогнозування поведінки процесу. Оскільки випадки використання прогнозування є правдоподібними за своїм характером, ці підходи використовують ймовірнісні моделі для вимірювання ймовірності всіх можливих результатів.

Чат-бот на порталі обслуговування клієнтів фінансової фірми проактивно вивчає наміри або потреби клієнтів, що базуються на його попередніх заходах у своїй веб-області. З передбачуваним контекстом, chatBot інтерактивно взаємодіє з клієнтом, щоб швидко надавати влучні послуги та досягти кращого задоволення клієнтів.

Окрім сценаріїв екстраполяції для прогнозування того, що станеться у майбутньому, на основі наявних минулих даних, існує небагато програм, які здогадуються пропущені записи даних за допомогою доступних зразків даних. Це наближення пропущених значень у діапазоні заданих зразків даних технічно називається Інтерполяцією.

Потужний додаток редактора зображень підтримує реконструкцію пропущених частин текстури завдяки супер-накладеному тексту шляхом інтерполяції функції функції у пропущений блок. Функція функції може бути інтерпретована як математичне позначення візерунків у текстурі спотвореного зображення.

Важливими чинниками, які впливають на вибір прогнозних моделей / стратегій, є:

  • Точність прогнозування: це передає ступінь близькості між прогнозованим значенням і фактичним значенням. Менша дисперсія різниці між прогнозованим значенням і фактичним значенням передбачає більш високу точність прогнозної моделі.
  • Швидкість передбачень. У додатках відстеження в реальному часі пріоритет має високий рівень
  • Швидкість навчання моделі: Це залежить від складності моделі та обчислень, що беруть участь у розрахунку параметрів моделі.

3. Настановна аналітика

Програмна аналітика використовує знання, виявлені як частину описового та прогнозного аналізу, щоб рекомендувати орієнтований на контекст хід дій. Для розуміння розподілу прогнозованих прогнозів реалізовані передові статистичні методи та обчислювально-інтенсивні методи оптимізації.

На точних умовах оцінюється вплив та користь кожного результату, які оцінюються під час прогнозної аналітики для прийняття евристичних та часових залежних рішень для заданого набору умов.

Консультаційна фірма на фондовому ринку проводить SWOT (Сила, Слабкість, Можливості та Загроза) аналіз прогнозованих цін на акції в портфоліо інвесторів та рекомендує своїм клієнтам найкращі варіанти купівлі-продажу.

Процес потоку в аналітиці даних

Процес аналізу даних має різні етапи обробки даних, як пояснено нижче:

1. Вилучення даних

Прийом даних із різних джерел даних різних типів, включаючи веб-сторінки, бази даних, застарілі програми, призводить до введення наборів даних різних форматів. Формати даних, введені в потік аналітики даних, можна широко класифікувати як

  • Структуровані дані мають чітке визначення типів даних разом із пов’язаною довжиною поля або роздільниками поля. Цей тип даних можна легко запитати, як вміст, що зберігається в реляційній базі даних (RDBMS)
  • Напівструктуровані дані не мають точного визначення макета, але елементи даних можуть бути ідентифіковані, відокремлені та згруповані на основі стандартної схеми або інших правил метаданих. У файлі XML використовується теги для зберігання даних, тоді як файл Notation object Notation (JSON) містить дані в парах імен-значення. Бази даних NoSQL (не тільки SQL) на зразок MongoDB, але і база дивана також використовуються для зберігання напівструктурованих даних.
  • Неструктуровані дані включають бесіди в соціальних мережах, зображення, аудіокліпи тощо. Традиційні методи аналізу даних не розуміють цих даних. Неструктуровані дані зберігаються в озерах даних.

Реалізація аналізу даних для структурованих і напівструктурованих даних включена в різні інструменти ETL, такі як Ab Initio, Informatica, Datastage та альтернативи з відкритим кодом, такі як Talend.

2. Очищення та трансформація даних

Очищення проаналізованих даних проводиться для забезпечення узгодженості даних та наявності відповідних даних на пізніших етапах потоку процесу. Основними операціями з очищення в аналітиці даних є:

  • Виявлення та усунення залишків у томах даних
  • Видалення дублікатів у наборі даних
  • Обробка відсутніх записів у записах даних з розумінням функціональності або випадків використання
  • Перевірка допустимих значень поля в записах даних, таких як "31 лютого", не може бути дійсним значенням в жодному з полів дати.

Очищені дані перетворюються у відповідний формат для аналізу даних. Перетворення даних включають

  • Фільтр небажаних записів даних.
  • Приєднання даних, отриманих з різних джерел.
  • Агрегація або групування даних
  • Класифікація даних

3. Виведення KPI / Insight

Обмін даними, методи глибокого навчання використовуються для оцінки ключових показників ефективності (KPI) або отримання цінних даних із очищених та перетворених даних. Виходячи з мети аналітики, аналіз даних проводиться за допомогою різних методів розпізнавання шаблонів, таких як кластеризація k-засобів, класифікація SVM, байєсових класифікаторів тощо. Та моделей машинного навчання, таких як Марківські моделі, Гауссові моделі сумішей (GMM) тощо.

Імовірнісні моделі на етапі тренінгу вивчають оптимальні параметри моделі, а на етапі валідації модель тестується за допомогою тестування перехресної перевірки k-кратного уникнення, щоб уникнути перенапруг і недостатніх помилок.

Найчастіше використовуваною мовою програмування для аналізу даних є R та Python. Обидві мають багатий набір бібліотек (SciPy, NumPy, Pandas), які відкриті для виконання складного аналізу даних.

4. Візуалізація даних

Візуалізація даних - це процес чіткого та ефективного представлення непокритих шаблонів, отриманих висновків із даних за допомогою графіків, графіків, інформаційних панелей та графіки.

  • Інструменти звітності даних, такі як QlikView, Tableau тощо, відображають KPI та інші похідні показники на різних рівнях деталізації.
  • Інструменти звітування дозволяють кінцевим користувачам створювати спеціалізовані звіти за допомогою перемикання, розгортання параметрів за допомогою зручного інтерфейсу перетягування
  • Інтерактивні бібліотеки візуалізації даних, такі як D3.js (документи, керовані даними), HTML5-Anycharts і т. Д., Використовуються для підвищення можливості вивчення аналізованих даних

Рекомендовані статті

Це керівництво щодо Що таке аналітика даних. Тут ми обговорили різні типи аналітики даних з потоком процесу. Ви також можете переглянути інші запропоновані статті, щоб дізнатися більше -

  1. Питання та відповіді щодо інтерв'ю аналітика даних
  2. Що таке візуалізація даних?
  3. Що таке аналітика великих даних?
  4. Що таке Minitab?