Встановити вулик - Покрокова установка вулика на Ubuntu

Як встановити вулик?

Apache Hadoop - це набір фреймворків, що дозволяє обробляти великі дані, розподілені по кластеру. Відповідно до Apache Hive - це проект програмного забезпечення для зберігання даних, побудований на вершині Apache Hadoop для забезпечення запиту та аналізу даних. Вулик Apache забезпечує інтерфейс, подібний SQL, для запиту та обробки великої кількості даних, що називається HQL (мова запитів Hive). Вулик Apache працює над екосистемою Hadoop, а дані, що зберігаються у вигляді файлу, означають розподілену файлову систему Hadoop (HDFS). Apache Hive надає користувачеві чудовий інтерфейс для доступу та виконання операцій над даними у вигляді таблиці, в якій передбачена чудова техніка оптимізації для підвищення продуктивності. Дуже складно зробити запит швидше з великими даними, і повірте, це важливо у виробничих умовах.

У бекенді компілятор перетворює HQL-запит у карту зменшення завдань, а потім подається на рамки Hadoop для виконання.

Різниця між Hive та SQL

Apache Hive дуже схожий на SQL, але, як ми знаємо, вулик працює поверх екосистеми Hadoop і внутрішньо перетворює завдання в MR (Map Reduce jobs), це робить деяку різницю між Hive та SQL.

Вулик був би не найкращим підходом для тих застосувань, де потрібна дуже швидка реакція, і дуже важливо розуміти, що вулик краще підходить для пакетної обробки над дуже великими наборами незмінних даних, і ми повинні відзначити це, що вулик є звичайним RDBMS і, нарешті, але не в останню чергу апаш-вулик - схема на засобах зчитування (при вставці даних у таблицю вулика це не буде турбуватись про невідповідність типу даних, але під час читання даних воно покаже нульове значення, якщо тип даних не збігається з типом даних конкретного стовпця).

Попередня вимога до встановлення вулика

Як я вже говорив раніше, дуже важливо зрозуміти, що вулик Apache працює над Екосистемою Hadoop, і Hadoop повинен бути готовим до роботи з усіма демонами.

Деякі основні демони Hadoop такі:

Назва вузла
Вузол даних
Менеджер ресурсів
Менеджер вузлів

Щоб перевірити версію Hadoop нижче, це команда:

Введіть → Версія Hadoop у командному рядку надасть вам версію Hadoop.

Щоб перевірити тригер звіту кластера Hadoop нижче команди:

Введіть → Hadoop dfsadmin - звіт у командному рядку, він видасть вам весь звіт про кластер, якщо ваш сервер працює.

Якщо Hadoop не встановлений на вашій машині з проханням дотримуватися інструкції apache, щоб встановити Hadoop у вашій системі.

Я сподіваюся, що Java вже встановлена у вашій системі. Щоб перевірити версію Java, зверніться до знімка екрана.

Кроки для установки вулика на Ubuntu

Нижче наведено наступні етапи встановлення Hive на Ubuntu:

Крок 1 : Вуликовий дьоготь ми можемо завантажити, використовуючи команду нижче в терміналі, яку ми можемо також безпосередньо завантажити з терміналу.

Команда: отримуємо http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Крок 2 : Витягніть файл смоли, використовуючи команду нижче в терміналі, ми можемо безпосередньо витягнути дьоготь вище завантаженого файлу тару.

Команда: tar -xzf apache-вулик-2.1.0-bin.tar.gz

Я запропоную вам перевірити команду ls про вилучений файл вулика.

Крок 3: Відредагуйте файл .bashrc, щоб оновити змінні середовища для користувача.

Команда: sudo the .bashrc

Додайте наступне в кінці файлу:

# Встановити HIVE_HOME

Виконайте подану нижче команду для завершення роботи зі змінами в поточному терміналі.

Команда: джерело .bashrc

Крок 5 : Нам потрібно створити каталоги Hive в місці розташування HDFS, і в цьому каталозі "склад" це буде місце для зберігання інформації, пов'язаної з метаданими таблиці вуликів, та даних, пов'язаних з Hive.

Команда :

hdfs dfs -mkdir -p / користувач / вулик / склад
hdfs dfs -mkdir / tmp

Крок 6 : Щоб встановити дозвіл на читання і запис для виконання таблиці вуликів, виконайте команду нижче.

Команда:

Команда нижче, надання дозволу на запис групі користувачів:

hdfs dfs -chmod g + w / користувач / вулик / склад
hdfs dfs -chmod g + w / tmp

Налаштування вулика: Для налаштування з Hadoop дуже важливо вказати точку встановлення вулика. Нам потрібно відредагувати hive-env.sh, файл, який розміщений у каталозі $ HIVE_HOME / conf. Наступні команди переспрямовують у папку Hive conf та копіюють файл шаблону:

Крок 7 : Встановіть шлях Hadoop в hive-env.sh

Відредагуйте файл hive-env.sh, додавши наступний рядок:

Зараз цим процесом ми майже закінчились, і установки вуликів успішно завершені, важливо налаштувати Metastore із зовнішнім сервером баз даних і за замовчуванням Apache Hive Framework використовує базу даних Derby. За допомогою команди нижче, ініціалізуючи базу даних дербі.

Команда: bin / schematool -initSchema -dbType дербі

Крок 8 : Запуск вулика .

Команда: вулик (відкрийте вулик у терміналі в межах другого терміналу вулика.)

Робота з вуликом: Тепер ми побачимо деякі операції у вулику, щоб побачити, скільки таблиць у нас використовується у базі даних за замовчуванням, дивіться нижче скріншоти, на скріншотах нижче не показано жодних таблиць, тобто у нас немає таблиць у базі даних за замовчуванням .

Для створення таблиці у вулику дуже важливо звернутися до потрібної бази даних, інакше будь-яка таблиця буде створена під базою даних за замовчуванням.

Важливі команди в вулику

1: показати бази даних (він покаже всі створені до цього часу бази даних).

2: створити базу даних, якщо не існує mydb (ця команда створить одну базу даних з ім'ям " mydb", якщо " mydb" не існує, а якщо " mydb вже існує, вона також не помилиться ")

3: використовувати базу даних кожного разу, коли нам потрібно використовувати якусь команду DDl для конкретної бази даних, ми повинні використовувати команду "використовувати базу даних", у нашому випадку ми вже створили команду "mydb", щоб була використана команда mydb.

Важлива команда Hive DDL

СТВОРИТИ, КРАЙТИ, ТРУНКТ, ШОУ, ОПИС .

Створити : - Створіть заяву, що використовується для створення бази даних або створення таблиці у вулику.

Приклад: вулик> створити базу даних компанії; (створення бази даних)

Вулик> користуватися компанією;

Hive> створити співробітника таблиці (id int, ім'я String, String зарплати); (це створить співробітника таблиці в базі даних компанії, оскільки ми вже виконали команду Використовувати базу даних.)

Опис надає інформацію про схему таблиці.

Вулик> опишіть працівника; (це детально дасть схему даних таблиці працівників)

TRUNCATE видалить дані таблиці.

Вулик> працівник столового столу;

Ми також можемо встановити вулик на вікно, але для кращої практики я вважаю за краще використовувати Ubuntu, це дасть кращий огляд виробничого середовища, і ваші дані будуть збільшуватися, в майбутньому це буде легко керувати.