В книге представлены три основные распределительные системы. Подробно рассказывается как начать ними работать, чем они отличаются. Показано на примерах, что работает лучше и почему. Много примеров с кодом и объяснением.
Volume 344 pages
2024 year
Обработка больших данных
About the book
Книга является пособием для изучения технологий больших данных, охватывая основные и продвинутые аспекты работы с данными в распределенных системах. Начав с основ, она объясняет значение БД, их эволюцию и экосистему Hadoop, включая компоненты и инструменты: HDFS, MapReduce, Hive, Pig, HBase, Sqoop и Flume.
Автор раскрывает архитектуру и принципы работы Apache Hadoop, а также примеры использования MapReduce и работу с данными в HDFS, Apache Spark, описывая его основные компоненты, такие как RDD, DataFrames, Spark SQL, Spark Streaming, MLLib и GraphX, и предоставляет практические примеры установки и настройки.
Раздел, посвященный Apache Kafka, рассматривает основы архитектуры, проектирование и настройка кластеров, а также интеграция с другими системами.
Практические примеры и проекты предлагают возможность применить полученные знания, анализируя данные, разрабатывая потоковые приложения и интегрируя технологии Hadoop, Spark и Kafka в единую систему.
Отличное пособие, давно хотел разобраться в этих системах, но не попадались подобные книги. Остался доволен содержанием и подробными описаниями.
Информация в книге хорошо построена, объясняются основные конструкции с нуля. Все понятно. Приводятся примеры на которых видно как работают алгоритмы. Книгой доволен!
Скачал книгу, с форматированием проблем не возникло. Коды все читаемые и работающие, пока недостатков не заметил. Информация в книге для меня весьма полезная, учитывая что по данным вопросам ее не так много.
Книга интересная, что не менее важно полезная для тек кто начинает работать или уже работает с большими данными. Жаль что многие программы стали не доступными в этой теме и руководство многих компаний пытаются заменить это все Exel.
Leave a review
Reviews
7