Що таке функція вулика?

Як ми знаємо сьогодні, Hadoop - одна з універсальних технологій великих даних. Hadoop має можливість справлятися з великим набором даних, але в міру зростання даних пропорційне написання програм зменшення карти стає важким. Для виконання SQL запитів, присутніх у HDFS, одна така технологія була введена Hadoop під назвою apache Hive, розпочата Facebook. Вулик дуже використовується аналітиком даних. Вони розгорнуті для трьох функцій, а саме: Зведення даних, аналіз даних розподілених файлів та запит даних. Hive забезпечує такі SQL запити, які називаються HQL - мова високих запитів підтримує DML, визначені користувачем функції. Компілятор Hive внутрішньо перетворює цей запит у завдання зменшення карти, що спрощує роботу Hadoop у написанні складних програм. Ми можемо знайти вулик у таких додатках, як зберігання даних, візуалізація даних та спеціальний аналіз, аналітика Google. Основна перевага полягає в тому, що вони використовують знання SQL, що є базовим вмінням, що реалізується у науковців та фахівців з програмного забезпечення.

Різні функції вулика в деталях

Hive підтримує різні типи даних, які не зустрічаються в інших системах баз даних. вона включає в себе карту, масив та структуру. У вулику є кілька вбудованих функцій для виконання декількох математичних та арифметичних функцій спеціального призначення. Функції у вулику можна класифікувати на наступні типи. Це вбудовані функції та визначені користувачем функції.

A) Вбудовані функції

Ці функції витягують дані з таблиць вуликів та обробляють обчислення. Деякі з вбудованих функцій:

1. Математичні / числові функції

Ці функції в основному використовуються для математичних обчислень. Ці функції використовуються в SQL-запитах.

Назва функціїПрикладОпис
ABS (подвійний x)Вулик> виберіть ABS (-200) від tmp;Він поверне абсолютне значення числа.
CEIL (подвійний х)Вулик> виберіть CEIL (8.5) від tmp;Він отримає найменше ціле число, що перевищує або дорівнює значенню x.
Rand (), rand (int насіння)Вулик> виберіть Rand () від tmp;

Ранд (0-9)

Він повертає випадкове число, залежно від значення насіння, що випадкові числа, що утворюються, були б детермінованими.
Pow (подвійний x, подвійний y)Вулик> виберіть порошок (5, 2) від tmp;Він повертає значення x, підняте на потужність y.
ПОЛЯ (подвійний y)Вулик> виберіть ПОЛОВ (11.8) від tmp;Він повертає максимальне ціле число, менше або дорівнює значенню y.
EXP (подвійний а)Вулик> виберіть Exp (30) від tmp;Він поверне значення показника 30. значення природного алгоритму.
PMOD (int a, int b)Вулик> виберіть PMOD (2, 4) від tmp;Це дає позитивний модуль числа.

2. Функції колекції

Збирання всіх елементів разом і повернення окремих елементів залежить від типу даних, що входять.

Назва функціїПрикладОпис
Map_values (Карта)Вулик> виберіть значення карт ("привіт", 45)Він отримує не упорядковані елементи масиву.
Розмір (карта)Вулик> вибір розміру (карта)Повертає кількість елементів на карті типу даних.
Array_contains (масив b)Вулик> виберіть масив_контейнери (a (10))Повертає TRUE, якщо масив містить значення.
Sort_array (масив a)Вулик> виберіть sort_array ((10, 3, 6, 1, 7))Сортує вхідний масив у порядку зростання відповідно до природного упорядкування елементів масиву та повертає значення.

3. Строкові функції

За допомогою строкових функцій аналіз даних виконується відмінно.

Розділити (string s, string pat)Вулик> виберіть розділений ('educba ~ вулик ~ Hadoop, ' ~ ') вихід: ("educba", "вулик", "Hadoop")Він розділяє рядок навколо виразів pat і повертає масив.
навантаження (string s, int Len, накладка струни)Вулик> виберіть навантаження ('EDUCBA', 6, 'H')Він повертає рядки з правим накладкою з довжиною рядка. (символ накладки).
Довжина (рядок рядка)Вулик> вибір довжини ('educba')Ця функція повертає довжину рядка.
Rtrim (рядок a)Вулик> виберіть rtrim ('TOPIC');

Вихід: "Тема"

Він повертає результат, обрізаючи пробіли з правого кінця.
Concat (рядок m, рядок n)Вулик> виберіть concat ('дані', 'посуд') Результат: DatawareЦе призводить до рядка шляхом об'єднання двох рядків, це може зайняти будь-яку кількість входів.
Зворотний (рядок s)Вулик> виберіть реверс ("Мобільний")Повертає результат зворотного рядка.

4. Функція дати
Потрібно мати формат даних у вулику, щоб запобігти помилці Нуля у виході. Потрібно мати сумісність з датами, щоб перейти з вуликом, що запровадили функції дати.

Unix_timestamp (дата рядка, рядок)Вулик> виберіть часові позначки Unix_ ('2019-06-08', 'yyyy-mm-dd');
Результат: 124576 400 часу: 0, 146 секунди
Ця функція повертає дату до певного формату та повертає секунди між датою та часом Unix.
Unix_timestamp (дата рядка)Вулик> виберіть часову позначку Unix_ ('2019-06-08 09:20:10', 'yyyy-mm-dd');Він повертає дату у форматі «yyyy-MM-dd HH: mm: ss» у часову позначку Unix.
Година (дата рядка)Вулик> виберіть годину ('2019-06-08 09:20:10'); Результат: 09 годинВін повертає годину позначки часу

5. Умовні функції

Якщо (булевий тест, значення T вірно, t хибне)Вулик> виберіть IF (1 = 1, 'TRUE', 'FALSE')
як IF_CONDITION_TEST;
Він перевіряє умову, чи значення true відповідає поверненню 1, а false - 0.
Не є нульовим (b)Вулик> Вибрати не є нульовим (null);Це витягує не нульові твердження. якщо null повертає false.
Злиття (значення1, значення2)Приклад: вулик> виберіть coalesce (Null, null, 4, null, 6). він повертається 4.Він отримує спочатку ненульові значення зі списку значень.

B) Функція, визначена користувачем (UDF)

Hive використовує функції, орієнтовані на користувача, відповідно до вимог клієнта, написаних у програмі java. Він реалізований двома інтерфейсами, а саме простим API та складним API. Вони викликаються із запиту вулика. Три типи АДС:

1. Регулярний АДС

Він працює на столі з одним рядком. Він створюється шляхом створення класу java, потім упаковки їх у файл .jar, наступним кроком є ​​перевірка за допомогою вулика classpath. потім, нарешті, виконавши їх у запиті вулика.

2. Функція сукупності, визначена користувачем

Вони використовують сукупні функції, такі як avg / mean, реалізуючи п’ять методів init (), iterate (), part (), merge (), endinate ().

3. Визначені користувачем таблиці генеруючі функції

Він працює з одним рядком у таблиці та призводить до кількох рядків.

Висновок

На закінчення ми дізналися, як працювати на платформі вулика з вбудованими функціями та визначеними користувачем функціями детально за допомогою цієї статті. Більшість організацій мають програміста та SQL-розробника для роботи на сервері, але апаратний вулик є потужним інструментом, який допомагає їм використовувати рамку Hadoop без попередніх знань про програми та зменшення карт. Hive допомагає новим користувачам починати та досліджувати аналіз даних без жодних бар'єрів.

Рекомендовані статті

Це посібник з функції вулика. Тут ми обговорюємо Концепцію, два різних типи функцій та підфункцій у вулику. Ви також можете ознайомитися з іншими запропонованими нами статтями, щоб дізнатися більше -

  1. Основні струнні функції у вулику
  2. Питання для опитування вулика
  3. Що таке RMAN Oracle?
  4. Що таке модель водоспаду?
  5. Вступ до архітектури вуликів
  6. Замовлення вуликів за

Категорія: