Кар'єра в Hadoop - вступ
Hadoop не є простою основою у світі великих даних. Він має широку екосистему з парасолькою суміжних технологій. З цієї ж причини кар’єра в Hadoop є багатообіцяючою. Якщо ви добре розумієте основи Hadoop, це стане основою для великої кар'єри в Хадоопі.
Освіта до кар'єри в Хадоопі
Як і багато нових технологій передачі даних, Hadoop не вимагає конкретної освітньої бази як такої. Приблизно половина розробників Hadoop - з таких, що не є інформатикою, як статистика або фізика. Тож зрозуміло, що передумови не перешкоджають входженню у світ Хадооп за умови, що ви готові вивчити основи. Є хороші обкладинки онлайн-курсів Hadoop - найкращий приклад - eduCBA - master-apache-Hadoop
Крім того, якщо ви хочете проникнути глибше в певну область управління кластерами Hadoop або моделювання даних у матеріалах Hive на кожну конкретну тему, доступні як онлайн-курси та підручники. Більшу частину часу кластери Hadoop встановлюватимуться у хмарного постачальника, наприклад AWS або Azure. Тож ознайомитись із будь-яким постачальником хмари на ваш вибір допоможе дуже багато. Служба Hadoop від AWS називається EMR.
Популярна спеціалізація включає:
- Іскра - Масштабована система обробки даних в пам'яті
- HBase - відсутня база даних SQL поверх HDFS
- Промінь - потокова обробка даних першого підходу
- Свиня - сценарій трансформації даних (ETL)
- Вулик - зберігання даних
- Mahout, Spark MLlib - масштабоване машинне навчання на Hadoop
- Apache Drill - SQL-движок на Hadoop
- Flume, Sqoop - послуги з передачі даних
- Solr & Lucene - Пошук та індексація
Кар’єрний шлях у Хадоопі
Відповідно до результатів опитування стека переповнення 2017 року, Hadoop лідирує у найпопулярніших та найулюбленіших рамках у просторі великих даних (Survey Link). Це можливо лише тому, що люди з різних перспектив ІТ знайшли Hadoop потенційний шлях до кар’єри та хочуть перейти.
Незалежно від вашої поточної ролі в ІТ-сфері, кар'єра в світі Hadoop легко адаптується. Деякі популярні приклади -
- Розробник програмного забезпечення (програміст) -> Розробник даних Hadoop, який займається різними SDK абстракції Hadoop і отримує значення з даних.
- Аналітик даних -> Отже, ви досвідчені в SQL.Huge можливість у Hadoop працювати над такими движками SQL, як Hive або Impala
- Бізнес-аналітик -> Організації, які намагаються стати вигіднішими за допомогою масово зібраних даних, і роль бізнес-аналітика має в цьому вирішальну роль.
- ETL Developer -> Якщо ви працюєте як традиційний розробник ETL, можете легко перейти на Hadoop ETL, використовуючи такі інструменти, як Spark.
- Тестери -> У світі Hadoop величезний попит на тестерів. Розуміючи основи Hadoop та профілювання даних, будь-який тестувальник може перейти до цієї ролі.
- Професії BI / DW -> Легко перейти на архітектуру даних Hadoop до моделювання даних.
- Старші ІТ-професіонали -> З глибоким розумінням області та існуючих проблем у світі даних, старший професіонал може стати консультантами, отримавши знання про те, як Hadoop намагається вирішити ці проблеми.
- Існують такі ролі, як Data Engineers або Big Data Engineering, який відповідає за впровадження рішення, головним чином, у постачальників Cloud. Отримавши знання про компоненти даних хмари, це буде дуже перспективною.
Вакансії
Екосистема Hadoop пропонує різноманітні шляхи кар’єри
- MapReduce Developer - це в основному роль розробника Java, яка також розуміє, як системи Hadoop працюють всередині. Існує така абстракція, як вулик або свиня, і все ж завдання MapReduce необхідні для високоефективних систем. Розробники MapReduce - це той, хто розуміє систему входу та виходу та платить дуже високо.
- Адміністратори Hadoop - це люди, відповідальні за збереження здорового та працездатного кластера Hadoop. Це може включати типові завдання адміністратора, такі як регулярні перевірки стану системи, але більшість завдань, необхідних для розуміння архітектури системи Hadoop.
- Devops - Розгортання нових компонентів системи та інших змін, пов'язаних з розвитком кластеру Hadoop. Відповідальність за цю роль сильно різниться і залежить від культури організації.
- Розробник даних - обробка даних на вершині Hadoop. Ця одна з найпопулярніших ролей в екосистемі Hadoop. Для цих ролей найкраще підходять люди з фонового режиму SQL або аналітики. В основному працюють над абстракцією Hadoop на високому рівні, як вулик чи свиня.
- Адміністратор безпеки даних - Дані - це найцінніший актив і його забезпечення є найважливішим. Адміністратори безпеки забезпечують стандартні галузеві політики та найкращі практики захисту даних, розуміючи обмеження системи
- Візуалізатор даних - керуйте інструментами візуалізації нового покоління, що дозволяють динамічно розтинати та агрегатувати дані за допомогою кешування даних у пам'яті
- ETL Developer - Перетворення даних для поліпшення якості даних або відповідно до бізнес-логіки за допомогою інструментів екосистеми Hadoop. Процес ETL може бути потоковим або пакетним.
- Системний архітектор - Проектуйте високоефективні системи з урахуванням доступності даних та довговічності економічно. В значній мірі залежить від постачальника обладнання.
- Архітектор даних - Окрім традиційного логічного / фізичного проектування даних, багато речей, як кодування стовпців, денормалізація, дизайн розділів тощо, будуть відповідальними за архітектора даних.
Рекомендовані курси
- Онлайн навчання XML та Java
- Node.JS Курси
- Курс навчання Silverlight
- Програма Ember.JS
Зарплата
Середня зарплата розробника програмного забезпечення в США становить 90 956 доларів на рік, тоді як середня зарплата розробника Hadoop набагато вища - 118 234 доларів на рік (Як це дійсно.com - дійсно.com)
Заробітна плата розробника Hadoop у провідних компаніях США (Ref: zaista.com)
Apple | 147 573 доларів на рік |
Wipro | 110 553 доларів на рік |
HERO.jobs | $ 158, 715 на рік |
MBCAA | $ 133 422 на рік |
Ventures Unlimited Inc | 130 000 доларів на рік |
Nityo Infotech Services Pvt. ТОВ | $ 128, 633 на рік |
ПІВНІЧНА ЗІРКА | 126, 370 доларів на рік |
Технологія PRI | 121 396 доларів на рік |
NITYO INFOTECH | 116 909 доларів на рік |
HortonWorks, Inc | $ 110 710 на рік |
Прогноз кар'єри
Екосистема Hadoop сильно розходиться для задоволення змін у потребах бізнесу. Оскільки генеровані дані зростають експоненціально і все більше і більше організацій стають керованими даними, актуальність системи Hadoop лише зростатиме.
Деякі з помітних тенденцій:
- Перехід від пакетної обробки до потокового першого підходу до обробки даних за допомогою Spark and Beam
- Більш реальна модель машинного навчання в режимі реального часу застосовується до даних у режимі реального часу за допомогою Spark ML
- Роз'єднано двигуни SQL від сховища даних, як Presto поверх S3 для спеціального аналізу на вершині озера даних.
- Стовпчасті бази даних MPP на зразок AWS Redshift для швидкого доступу до даних
Оскільки основоположний аспект обробки даних Big Data лежить на системах розподілу, що відрізняються відмовою і горизонтально масштабованими системами, що добре реалізується Hadoop, Hadoop продовжить залишатися провідною екосистемою для обробки даних.
Рекомендована стаття
Це був путівник по кар’єрі в Хадоопі. Тут ми обговорили вступ, освіту, кар’єрний шлях у Хадоопі, зарплати та перспективи кар'єри в Хадоопі. Ви також можете переглянути наступну статтю, щоб дізнатися більше -
- Azure Paas vs Iaas та їх корисні переваги
- З'ясуйте відмінності між Java та Node JS
- Кращі експертні поради з кар’єри в мейнфреймі
- Кар'єра в SQL
- Корисна кар'єра в якості інженера-програмного забезпечення
- Hadoop Administrator | Навички та шлях до кар’єри