Как быстро стать экспертом по Hadoop и Apache Spark!

Вступление

Я составил простую и короткую учебную программу для изучения Hadoop. Эта учебная программа предназначена для начинающих, которые хотят быстро и эффективно изучить Hadoop. С помощью этой учебной программы вы заложите хорошую основу в концепциях больших данных, а также получите реальный опыт программирования.

Часть приведенного ниже контента бесплатна, а за часть придется платить (ни один из них я не получаю $ $ за продвижение, так что это ни в коем случае не самореклама). Я лично прошел все эти курсы и на протяжении всей своей карьеры находил информацию бесценной.

Что касается уроков Udemy, они часто поступают в продажу, поэтому, прежде чем тратить 100 долларов, просто подождите! Или вы можете найти промокод онлайн. В любом случае вы можете получить любой курс Udemy за ~ 10 долларов, если сделаете все правильно.

Надеюсь, это поможет некоторым людям и счастливого обучения! Делитесь своими мыслями и дополнениями в комментариях!

Зачем изучать Hadoop?

Вы можете спросить, зачем изучать Hadoop? Разве бум Hadoop не закончился так, как 5 лет назад? - Да, это правда, но это не значит, что Hadoop полностью исчез. Крупные компании, такие как Uber, по-прежнему используют Hadoop с 2019 года, и в целом HDFS (а также системы хранения, связанные с Hadoop, такие как Hive), по-прежнему являются отличными системами хранения, используемыми во всей отрасли.

Кроме того, если вас интересует Apache Spark, я считаю, что хорошо (и в некотором смысле важно) понимать Hadoop. Apache Spark по-прежнему хвастается на своем веб-сайте, что он в 100 раз быстрее, чем встроенный в Hadoop фреймворк обработки MapReduce. Spark был создан для улучшения некоторых ограничений Hadoop, поэтому без понимания Hadoop понимание Spark может быть немного ограничивающим, поскольку вам не хватает большого контекста.



Основы Hadoop:

Основы больших данных: Университет больших данных

Отличный курс для знакомства с большими данными.

«Этот курс представляет целостный подход к большим данным, использующий как нисходящий, так и восходящий подход к таким вопросам, как: что такое большие данные? Как мы справляемся с большими данными? Почему это нам интересно? Что такое платформа больших данных? »

Основы Hadoop I: Университет больших данных

Еще один отличный курс для знакомства с Hadoop, но он дает немного больше деталей, чем предыдущий курс.

«Обучает основам Apache Hadoop и концепции больших данных. Этот курс Hadoop совершенно бесплатный, равно как и предоставленные материалы и программное обеспечение ».

Стартовый комплект Hadoop: Udemy

Продолжайте знакомиться с концепциями Hadoop с помощью этого БЕСПЛАТНОГО и быстрого курса.

«Изучение Hadoop стало простым и увлекательным занятием. Изучите HDFS, MapReduce и познакомьтесь с Pig and Hive с БЕСПЛАТНЫМ доступом к кластеру ».

Введение в Hadoop и MapReduce от Cloudera: Udacity

Отличный курс для создания более прочной основы Hadoop, а также для того, чтобы услышать мнение самих создателей!

‘‘ Проект Apache ™ Hadoop® разрабатывает программное обеспечение с открытым исходным кодом для надежных, масштабируемых распределенных вычислений. Изучите фундаментальные принципы, лежащие в основе этого, и то, как вы можете использовать его возможности, чтобы разобраться в ваших больших данных ».

Hadoop для чайников: Amazon

Пусть вас не обманывает название, это серьезная книга, в которой очень мало лишнего. Отличное чтение, чтобы расширить ваше понимание фреймворка! Прочитав эту книгу и пройдя предыдущие курсы, вы должны начать чувствовать себя довольно опасно.

«Hadoop для чайников помогает читателям понять ценность больших данных, обосновать экономическое обоснование использования Hadoop, ориентироваться в экосистеме Hadoop, а также создавать приложения и кластеры Hadoop и управлять ими».

Обработка Hadoop:

Укрощение больших данных с помощью MapReduce и Hadoop - руки вперед!: Udemy

Школы больше нет, и пора набраться опыта. Это отличный курс с удивительными примерами, которым вы легко можете следовать! Этот курс поможет вам в кратчайшие сроки написать свою первую работу Map-Reduce на AWS.

«Изучите MapReduce быстро, создав более 10 реальных примеров, используя Python, MRJob и Amazon Elastic MapReduce Service».

Укрощение больших данных с помощью Apache Spark и Python - практическая работа!: Udemy

Отличный курс для начала работы со Spark! Технически вы могли бы взять это последним, но я думаю, что это неплохо сделать заранее. Иногда вам просто нужно погрузиться в процесс. Когда вы закончите, у вас, вероятно, возникнут вопросы, и следующие курсы помогут.

«Ознакомьтесь с более чем 15 практическими примерами анализа больших наборов данных с помощью Apache Spark, на вашем компьютере или в Hadoop!»

Искра:

Scala и Spark для больших данных и машинного обучения: Udemy

Apache Spark - это платформа для обработки больших данных. Этот курс позволит вам быстро программировать Apache Spark на его родном языке Scala!

«Изучите новейшие технологии больших данных - Spark и Scala, включая Spark 2.0 DataFrames!»

Spark и Python для больших данных с PySpark: Udemy

Продолжите свое путешествие по Spark, изучив PySpark! Мне нравится этот фреймворк, и он невероятно полезен в промышленности. Это еще одно отличное руководство по программированию для Apache Spark, но с упором на PySpark.

«Узнайте, как использовать Spark с Python, включая Spark Streaming, Machine Learning, Spark 2.0 DataFrames и многое другое!»

Конец

Надеюсь, вы найдете это полезным, и спасибо за чтение! :-)

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel