Відмінності текстового майнінгу від текстової аналітики

Структуровані дані існують з початку 1900-х років, але те, що зробило видобуток тексту та аналітику тексту настільки особливим, що використовує інформацію з неструктурованих даних (Natural Language Processing). Як тільки ми зможемо перетворити цей неструктурований текст у напівструктуровані або структуровані дані, можна буде застосувати всі алгоритми виведення даних, наприклад. Статистичні та машинні алгоритми навчання.

Навіть Дональд Трамп зміг використати ці дані та перетворити їх на інформацію, яка допомогла йому виграти президентські вибори в США, а в основному він цього не зробив, як це робили його підлеглі. Тут є дуже хороша стаття http://fivethirtyeight.com/features/the-real-story-of-2016/, ви можете її пройти.

Багато підприємств почали використовувати видобуток тексту, щоб використовувати цінні вкладення тексту, доступного там, наприклад, компанія, що базується на продуктах, може використовувати дані twitter / дані Facebook, щоб знати, наскільки добре чи погано працює їхній продукт у світі, використовуючи Sentimental Аналіз. У перші дні обробка використовувала багато часу, днів, фактично, щоб обробити або навіть реалізувати алгоритми машинного навчання, але з введенням таких інструментів, як Hadoop, Azure, KNIME та інших програм для великих даних, текстове видобуток отримало величезну популярність на ринку. Один з найкращих прикладів текстової аналітики з використанням майнінгу асоціацій - це система рекомендацій Amazon, де він автоматично дає рекомендації своїм клієнтам, що ще купували інші люди, купуючи будь-який конкретний продукт.

Однією з найбільших проблем застосування інструментів пошуку тексту до чогось, що не в цифровому форматі / на комп'ютерному приводі, є процес його виготовлення. Старі архіви та багато важливих документів, які доступні лише на паперах, іноді читаються через OCR (оптичне розпізнавання символів), які мають багато помилок, а іноді дані вводяться вручну, схильні до людських помилок. Ми хочемо, щоб це було в тому, що ми можемо отримати іншу інформацію, яку не видно з традиційного читання.

Деякі етапи пошуку тексту наведені нижче

  • Пошук інформації
  • Підготовка та чистка даних
  • Сегментація
  • Токенізація
  • Номери стоп-слова та видалення розділових знаків
  • Стерління
  • Перетворити в малі регістри
  • Позначення POS
  • Створіть текстовий корпус
  • Термін-матриця документа

А нижче - кроки в текстовій аналітиці, які застосовуються після підготовки матриці термінових документів

  • Моделювання (Це може включати в себе інфекційні моделі, прогнозні моделі або приписні моделі)
  • Навчання та оцінювання моделей
  • Застосування цих моделей
  • Візуалізація моделей

Єдине, про що слід завжди пам’ятати - це те, що видобуток тексту завжди передує аналітиці тексту.

Порівняння між голосами та текстовою аналітикою (Інфографіка)

Нижче наведено 5 порівнянь між прогнозуванням текстового майнінгу та текстовою аналітикою

Основні відмінності між текстовим майнінгу та текстовою аналітикою

Давайте диференціюємо розробки тексту та аналітику тексту на основі кроків, які беруть участь у кількох програмах, де застосовуються ці функції інтелектуального аналізу тексту та тексту:

• Класифікація документів
У цьому кроці, що входить до видобутку тексту, - це токенізація, стримування та лематизація, видалення зупинок і пунктуації та нарешті обчислення терміна матриці частот або матриць частоти документа.

Токенізація - процес розбиття цілих даних (корпусу) на менші шматки або менші слова, як правило, окремі слова відомий як токенізація (модель N-Gram або модель мішків)

Стовбування та лематизація - Наприклад, слова, великі великі та найбільші всі означають те саме, і вони утворюватимуть дублікати даних, для того, щоб дані були зайвими, ми робимо лематизацію, пов'язуючи слова з кореневим словом.
Видалення стоп-слів - Стоп-слова не використовуються в аналітиці, яка буде включати такі слова, як,, і т.д.

Термінні частоти - Це матриця, яка містить заголовки рядків як назви документів та стовпці як терміни (слова), а дані - це частота слів, що зустрічаються в цих конкретних документах. Нижче наведено зразковий скріншот.

На наведеному малюнку у нас є атрибути у рядках (слова) та номер документа у вигляді стовпців та частота слів як дані.

Тепер, переходячи до аналітики тексту, ми маємо наступні кроки, які потрібно враховувати

Кластеризація - Використовуючи кластеризацію K-засобів / Нейронні мережі / CART (дерева класифікації та регресії) або будь-який інший алгоритм кластеризації, ми тепер можемо кластеризувати документи на основі створених функцій (тут є слова).

Оцінка та візуалізація - ми розбудовуємо кластер на два виміри і дивимось, як ці кластери відрізняються один від одного, і якщо модель добре відповідає тестовим даним, ми можемо розгорнути їх у виробництві, і це буде хорошим класифікатором документів, який класифікує будь-які нові документи, які подаються як вхідні дані, і він би просто назвав кластер, в який він потрапить.

• Аналіз почуттів

Один з найпотужніших інструментів на ринку, який допомагає обробляти дані Twitter / Facebook або будь-які інші дані, які можуть бути використані для виведення настрою з того, чи є настрої хорошими, поганими чи нейтральними щодо будь-якого конкретного процесу / продукту або людина аналізує настрої.
Джерело даних може бути легко доступним за допомогою API API Twitter / Facebook, щоб отримати твіти / коментарі / лайки тощо у твітті чи публікації компанії. Основна проблема полягає в тому, що ці дані важко структурувати. Ці дані також містять різні рекламні оголошення, і вчений, який працює в компанії, повинен переконатися, що підбір даних проводиться правильно, щоб на етапах попередньої обробки проходили лише вибрані твіти / публікації.
Інші інструменти включають Web-Scraping - це частина видобутку тексту, в якій ви скрапте дані з веб-сайтів за допомогою сканерів.
Процес видобутку тексту залишається таким самим, як токенізація, стримування та лематизація, видалення стоп-слов та пунктуації та нарешті обчислення, термін матриця частоти або матриця частоти документа, але єдина різниця виникає при застосуванні аналізу настроїв.
Зазвичай ми даємо оцінку будь-якій публікації / твіту. Зазвичай, коли ви купуєте товар і рецензуєте, якщо вам також надають можливість надати відгуки зірок та опублікувати коментар. Google, Amazon та інші веб-сайти використовують зірки, щоб оцінити коментар, не тільки це вони також приймають твіти / публікації та дають їх людям, щоб оцінити їх як хороші / погані / нейтральні, а при поєднанні цих двох балів вони створюють новий оцінка до будь-якого певного твіту / допису.
Візуалізацію аналізу настроїв можна здійснити за допомогою слово хмара, смугові діаграми матриці частотного терміна.

• Асоціація гірничого аналізу

Одним із застосувань, над якими працювали деякі хлопці, була «ймовірнісна модель побічних подій щодо наркотиків», де можна перевірити, які побічні явища можуть спричинити інші побічні явища, якщо він прийме якийсь конкретний препарат.
Додавання тексту включає нижчий робочий процес

З наведеного малюнка ми бачимо, що до обміну даними всі кроки належать до видобутку тексту, який ідентифікує джерело даних, витягує їх і потім готує їх до аналізу.

Тоді застосовуючи асоціативний майнінг, ми маємо наступну модель
Як ми бачимо, що деякі знаки стрілки вказують на помаранчеве коло, а потім одна стрілка вказує на будь-який конкретний ADE (Побічна подія наркотиків). Якщо ми візьмемо приклад у лівій нижній частині зображення, ми можемо виявити апатію, астенію та почуття ненормальності, що призводить до почуття провини, то можна сказати, що це очевидно, це очевидно, тому що як людина ти можеш інтерпретувати та співвідносити, але тут машина інтерпретує це і дає нам наступний несприятливий випадок від наркотиків.

Приклад слова хмара наведений нижче

Таблиця порівняння між Text Mining і Text Analytics

Нижче наведено списки пунктів, опишіть порівняння між текстовим майнінгу та текстовою аналітикою:

Основа для порівнянняТекстовий майнінгТекст Analytics

Значення

Введення тексту - це в основному очищення одних даних, доступних для аналізу текстуText Analytics застосовує методи статистичного та машинного навчання, щоб можна було передбачити / прописати або вивести будь-яку інформацію з текстових даних.

Концепція

Переробка тексту - це інструмент, який допомагає очистити дані.Text Analytics - це процес застосування алгоритмів

Рамка

Якщо говорити про рамки, видобуток тексту схожий на ETL (Extract Transform Load), що означає, щоб мати можливість вставляти дані в базу даних, ці кроки виконуютьсяВ текстовій аналітиці ці дані використовуються для додавання значень бізнесу, наприклад створення хмарних слів, двограмових діаграм частоти, N-грамів у деяких випадках

Мову

Python і R - найвідоміші інструменти для видобутку тексту для видобутку текстуДля текстової аналітики, коли дані доступні на рівні бази даних, ми можемо використовувати будь-яке програмне забезпечення для аналітики, включаючи python та R. Інше програмне забезпечення включає Power BI, Azure, KNIME тощо.

Приклади

  • категоризація тексту
  • кластеризація тексту
  • вилучення концепції / сутності
  • аналіз настроїв
  • узагальнення документів
  • виробництво зернистих таксономій
  • Моделювання відносин особи
  • Аналіз асоціацій
  • візуалізація
  • прогностична аналітика
  • пошук інформації
  • лексичний аналіз
  • розпізнавання образів
  • мітка / анотація

Висновок -Text Mining vs Text Analytics

Майбутнє видобутку тексту та текстової аналітики стосується не лише англійської мови, але й постійно розвиваються, і за допомогою лінгвістичних інструментів для аналізу не надто розглядаються лише інші англійські мови.

Обсяг та майбутнє видобутку тексту зростатимуть, оскільки для аналізу інших мов будуть обмежені ресурси.

Text Analytics має дуже широкий спектр, де його можна застосувати. Ось декілька прикладів галузей, де це можна використовувати:

  • Моніторинг соціальних медіа
  • Фарма / Біотехнологічні програми
  • Бізнес та маркетингові програми

Рекомендована стаття

Це було керівництвом щодо різниці між текстовим майнінгу та текстовою аналітикою, їх значенням, порівнянням між головами, ключовими відмінностями, таблицею порівняння та висновком. Ви також можете переглянути наступні статті, щоб дізнатися більше -

  1. Лазурний Паас проти Яаса - з’ясуйте відмінності
  2. Кращі 3 речі, з яких можна дізнатися про майнінг даних проти розробки тексту
  3. Знайте кращі 7 різниць між аналітикою даних для видобутку даних
  4. Бізнес-інтелект проти машинного навчання - який краще
  5. Прогнозована аналітика в порівнянні з обробкою даних - який корисніший

Категорія: