ورود به حساب

نام کاربری گذرواژه

گذرواژه را فراموش کردید؟ کلیک کنید

حساب کاربری ندارید؟ ساخت حساب

ساخت حساب کاربری

نام نام کاربری ایمیل شماره موبایل گذرواژه

برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید


09117307688
09117179751

در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید

دسترسی نامحدود

برای کاربرانی که ثبت نام کرده اند

ضمانت بازگشت وجه

درصورت عدم همخوانی توضیحات با کتاب

پشتیبانی

از ساعت 7 صبح تا 10 شب

دانلود کتاب Distributed Data Systems with Azure Databricks: Create, deploy, and manage enterprise data pipelines

دانلود کتاب سیستم های داده توزیع شده با Azure Databricks: خطوط لوله داده های سازمانی را ایجاد، استقرار و مدیریت کنید

Distributed Data Systems with Azure Databricks: Create, deploy, and manage enterprise data pipelines

مشخصات کتاب

Distributed Data Systems with Azure Databricks: Create, deploy, and manage enterprise data pipelines

ویرایش:  
نویسندگان:   
سری:  
ISBN (شابک) : 183864721X, 9781838647216 
ناشر: Packt Publishing 
سال نشر: 2021 
تعداد صفحات: 414 
زبان: English 
فرمت فایل : EPUB (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) 
حجم فایل: 16 Mb 

قیمت کتاب (تومان) : 61,000



ثبت امتیاز به این کتاب

میانگین امتیاز به این کتاب :
       تعداد امتیاز دهندگان : 10


در صورت تبدیل فایل کتاب Distributed Data Systems with Azure Databricks: Create, deploy, and manage enterprise data pipelines به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.

توجه داشته باشید کتاب سیستم های داده توزیع شده با Azure Databricks: خطوط لوله داده های سازمانی را ایجاد، استقرار و مدیریت کنید نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.


توضیحاتی در مورد کتاب سیستم های داده توزیع شده با Azure Databricks: خطوط لوله داده های سازمانی را ایجاد، استقرار و مدیریت کنید



ساخت و استقرار سریع خطوط لوله داده عظیم و بهبود بهره وری با استفاده از Azure Databricks

ویژگی های کلیدی

  • با آموزش های توزیع شده آشنا شوید و استقرار مدل های یادگیری ماشین و یادگیری عمیق
  • بیاموزید که چگونه ETL ها با Azure Data Factory و Delta Lake ادغام می شوند
  • کاوش در مدل های یادگیری عمیق و یادگیری ماشین در یک زیرساخت محاسباتی توزیع شده

شرح کتاب

Microsoft Azure Databricks به شما کمک می کند تا از قدرت محاسبات توزیع شده استفاده کنید و از آن برای ایجاد خطوط لوله داده قوی، همراه با آموزش و استقرار مدل های یادگیری ماشین و یادگیری عمیق استفاده کنید. ویژگی های پیشرفته Databricks توسعه دهندگان را قادر می سازد تا داده ها را پردازش، تبدیل و کاوش کنند. سیستم های داده توزیع شده با Azure Databricks به شما کمک می کند تا دانش خود را در مورد Databricks برای ایجاد خطوط لوله داده های بزرگ به کار بگیرید.

این کتاب یک رویکرد عملی برای پیاده‌سازی Azure Databricks و متدولوژی‌های مرتبط با آن ارائه می‌کند که شما را در کمترین زمان سازنده می‌کند. با توضیحات مفصل مفاهیم اساسی، مثال‌های عملی و سوالات خودارزیابی، قبل از انجام آموزش مدل توزیع شده و استنتاج با استفاده از TensorFlow و Spark MLlib، با یک مقدمه سریع بر عملکردهای اصلی Databricks شروع می‌کنید. با پیشروی، MLflow Model Serving را در Azure Databricks کاوش خواهید کرد و خطوط لوله آموزشی توزیع شده را با استفاده از HorovodRunner در Databricks پیاده سازی خواهید کرد.

در نهایت، نحوه تبدیل، استفاده و به دست آوردن بینش از مقادیر انبوه داده برای آموزش مدل‌های پیش‌بینی و ایجاد خطوط لوله داده کاملاً کارآمد را خواهید یافت. در پایان این کتاب MS Azure، درک کاملی از نحوه کار با Databricks برای ایجاد و مدیریت کل خط لوله کلان داده به دست خواهید آورد.

آنچه خواهید آموخت

  • ایجاد ETL برای داده های بزرگ در Azure Databricks
  • آموزش، مدیریت و استقرار مدل های یادگیری ماشین و یادگیری عمیق
  • ادغام Databricks با Azure Data Factory برای استخراج، تبدیل، بارگذاری ایجاد خط لوله (ETL)
  • نحوه استفاده از Horovod را برای یادگیری عمیق توزیع شده کشف کنید
  • چگونگی استفاده از Delta Engine برای پرس و جو و پردازش داده ها از دریاچه دلتا را بیابید
  • درک نحوه استفاده از Data Factory در ترکیب با Databricks
  • استفاده از جریان ساخت یافته در محیطی شبیه تولید

این کتاب برای چه کسی است

این این کتاب برای مهندسین نرم افزار، مهندسین یادگیری ماشین، دانشمندان داده و مهندسان داده است که تازه با Azure Databricks آشنا شده اند و می خواهند خطوط لوله داده با کیفیت بالا را بدون نگرانی در مورد زیرساخت بسازند. برای یادگیری موثرتر مفاهیم مطرح شده در این کتاب، دانستن مبانی Azure Databricks لازم است. درک پایه ای از مفاهیم یادگیری ماشین و دانش برنامه نویسی پایتون در سطح مبتدی نیز توصیه می شود.

فهرست محتوا

  1. مقدمه ای بر مفاهیم اصلی Azure Databricks
  2. ایجاد فضای کاری Azure Databricks
  3. ایجاد یک ETL با Databricks
  4. Delta Lake با Databricks
  5. معرفی Delta Engine
  6. Structured Streaming</ li>
  7. ادغام Azure Databricks با کتابخانه های محبوب Python
  8. Databricks Runtime for Machine Learning
  9. Databricks Runtime for Deep Learning
  10. تنظیم، استقرار و کنترل مدل با استفاده از DataBricks AutoML
  11. MLFlow در Azure Databricks
  12. Distributed Deep Learning با Horovod

توضیحاتی درمورد کتاب به خارجی

Quickly build and deploy massive data pipelines and improve productivity using Azure Databricks

Key Features

  • Get to grips with the distributed training and deployment of machine learning and deep learning models
  • Learn how ETLs are integrated with Azure Data Factory and Delta Lake
  • Explore deep learning and machine learning models in a distributed computing infrastructure

Book Description

Microsoft Azure Databricks helps you to harness the power of distributed computing and apply it to create robust data pipelines, along with training and deploying machine learning and deep learning models. Databricks' advanced features enable developers to process, transform, and explore data. Distributed Data Systems with Azure Databricks will help you to put your knowledge of Databricks to work to create big data pipelines.

The book provides a hands-on approach to implementing Azure Databricks and its associated methodologies that will make you productive in no time. Complete with detailed explanations of essential concepts, practical examples, and self-assessment questions, you'll begin with a quick introduction to Databricks core functionalities, before performing distributed model training and inference using TensorFlow and Spark MLlib. As you advance, you'll explore MLflow Model Serving on Azure Databricks and implement distributed training pipelines using HorovodRunner in Databricks.

Finally, you'll discover how to transform, use, and obtain insights from massive amounts of data to train predictive models and create entire fully working data pipelines. By the end of this MS Azure book, you'll have gained a solid understanding of how to work with Databricks to create and manage an entire big data pipeline.

What you will learn

  • Create ETLs for big data in Azure Databricks
  • Train, manage, and deploy machine learning and deep learning models
  • Integrate Databricks with Azure Data Factory for extract, transform, load (ETL) pipeline creation
  • Discover how to use Horovod for distributed deep learning
  • Find out how to use Delta Engine to query and process data from Delta Lake
  • Understand how to use Data Factory in combination with Databricks
  • Use Structured Streaming in a production-like environment

Who this book is for

This book is for software engineers, machine learning engineers, data scientists, and data engineers who are new to Azure Databricks and want to build high-quality data pipelines without worrying about infrastructure. Knowledge of Azure Databricks basics is required to learn the concepts covered in this book more effectively. A basic understanding of machine learning concepts and beginner-level Python programming knowledge is also recommended.

Table of Contents

  1. Introduction to Azure Databricks core concepts
  2. Creating an Azure Databricks workspace
  3. Creating an ETL with Databricks
  4. Delta Lake with Databricks
  5. Introducing Delta Engine
  6. Structured Streaming
  7. Azure Databricks integration with Popular Python Libraries
  8. Databricks Runtime for Machine Learning
  9. Databricks Runtime for Deep Learning
  10. Model tuning, deployment and control Using DataBricks AutoML
  11. MLFlow on Azure Databricks
  12. Distributed Deep Learning with Horovod


فهرست مطالب

Cover
Title Page
Copyright and Credits
Contributors
Table of Contents
Preface
Section 1: Introducing Databricks
Chapter 1: Introduction to Azure Databricks
	Technical requirements
	Introducing Apache Spark
	Introducing Azure Databricks
		Examining the architecture of Databricks
	Discovering core concepts and terminology
	Interacting with the Azure Databricks workspace
		Workspace assets
		Workspace object operations
	Using Azure Databricks notebooks
		Creating and managing notebooks
		Notebooks and clusters
	Exploring data management
		Databases and tables
		Viewing databases and tables
		Importing data
		Creating a table
		Table details
	Exploring computation management
		Displaying clusters
		Starting a cluster
		Terminating a cluster
		Deleting a cluster
		Cluster information
		Cluster logs
	Exploring authentication and authorization
		Clustering access control
		Folder permissions
		Notebook permissions
		MLflow Model permissions
	Summary
Chapter 2: Creating an Azure Databricks Workspace
	Technical requirements
	Using the Azure portal UI
		Accessing the Workspace UI
		Configuring an Azure Databricks cluster
		Creating a new notebook
	Examining Azure Databricks authentication
		Access control
	Working with VNets in Azure Databricks
		Virtual network requirements
		Deploying to your own VNet
	Azure Resource Manager templates
		Creating an Azure Databricks workspace with an ARM template
		Reviewing deployed resources
		Cleaning up resources
	Setting up the Azure Databricks CLI
		Authentication through an access token
		Authentication using an Azure AD token
		Validating the installation
		Workspace CLI
		Using the CLI to explore the workplace
		Clusters CLI
		Jobs CLI
		Groups API
		The Databricks CLI from Azure Cloud Shell
	Summary
Section 2: Data Pipelines with Databricks
Chapter 3: Creating ETL Operations with Azure Databricks
	Technical requirements
	Using ADLS Gen2
		Setting up a basic ADLS Gen2 data lake
		Uploading data to ADLS Gen2
		Accessing ADLS Gen2 from Azure Databricks
		Loading data from ADLS Gen2
	Using S3 with Azure Databricks
		Connecting to S3
		Loading data into a Spark DataFrame
	Using Azure Blob storage with Azure Databricks
		Setting up Azure Blob storage
		Uploading files and access keys
		Setting up the connection to Azure Blob storage
	Transforming and cleaning data
		Spark data frames
		Querying using SQL
		Writing back table data to Azure Data Lake
	Orchestrating jobs with Azure Databricks
		ADF
		Creating an ADF resource
		Creating an ETL in ADF
	Scheduling jobs with Azure Databricks
		Scheduling a notebook as a job
		Job logs
	Summary
Chapter 5: Introducing Delta Engine
	Technical requirements
	Optimizing file management with Delta Engine
		Merging small files using bin-packing
		Skipping data
		Using ZORDER clustering
		Managing data recency
		Understanding checkpoints
		Automatically optimizing files with Delta Engine
		Using caching to improve performance
		Delta and Apache Spark caching
		Caching a subset of the data
		Configuring the Delta cache
	Optimizing queries using DFP
		Using DFP
	Using Bloom filters
		Understanding Bloom filters
		Bloom filters in Azure Databricks
		Creating a Bloom filter index
	Optimizing join performance
		Range join optimization
		Enabling range join optimization
		Skew join optimization
		Relationships and columns
	Summary
Chapter 6: Introducing Structured Streaming
	Technical requirements
	Structured Streaming model
	Using the Structured Streaming API
		Mapping, filtering, and running aggregations
		Windowed aggregations on event time
		Merging streaming and static data
		Interactive queries
	Using different sources available in Azure Databricks when dealing with continuous streams of data
		Using a Delta table as a stream source
		Azure Event Hubs
		Auto Loader
		Apache Kafka
		Avro data
		Data sinks
		Recovering from query failures
		Optimizing streaming queries
	Triggering streaming query executions
		Different kinds of triggers
		Trigger examples
	Visualizing data on streaming data frames
	Example on Structured Streaming
	Summary
Section 3: Machine and Deep Learning with Databricks
Chapter 7: Using Python Libraries in Azure Databricks
	Technical requirements
	Installing libraries in Azure Databricks
		Workspace libraries
		Cluster libraries
		Notebook-scoped Python libraries
	PySpark API
		Main functionalities of PySpark
		Operating with PySpark DataFrames
	pandas Dataframe API (Koalas)
		Using the Koalas API
		Using SQL in Koalas
		Working with PySpark
	Visualizing data
		Bokeh
		Matplotlib
		Plotly
	Summary
Chapter 8: Databricks Runtime for Machine Learning
	Loading data
		Reading data from DBFS
		Reading CSV files
	Feature engineering
		Tokenizer
		Binarizer
		Polynomial expansion
		StringIndexer
		One-hot encoding
		VectorIndexer
		Normalizer
		StandardScaler
		Bucketizer
		Element-wise product
	Time-series data sources
		Joining time-series data
		Using the Koalas API
	Handling missing values
	Extracting features from text
		TF-IDF
		Word2vec
	Training machine learning models on tabular data
		Engineering the variables
		Building the ML model
		Registering the model in the MLflow Model Registry
		Model serving
	Summary
Chapter 9: Databricks Runtime for Deep Learning
	Technical requirements
	Loading data for deep learning
		Using TFRecords for distributed learning
		Structuring TFRecords files
	Managing data using TFRecords
	Automating schema inference
		Using TFRecordDataset to load data
	Using Petastorm for distributed learning
		Introducing Petastorm
		Generating a dataset
	Reading a dataset
		Using Petastorm to prepare data for deep learning
	Data preprocessing and featurization
		Featurization using a pre-trained model for transfer learning
		Featurization using pandas UDFs
		Applying featurization to the DataFrame of images
	Summary
Chapter 10: Model Tracking and Tuning in Azure Databricks
	Technical requirements
	Tuning hyperparameters with AutoML
	Automating model tracking with MLflow
		Managing MLflow runs
		Automating MLflow tracking with MLlib
	Hyperparameter tuning with Hyperopt
		Hyperopt concepts
		Defining a search space
		Applying best practices in Hyperopt
	Optimizing model selection with scikit-learn, Hyperopt, and MLflow
	Summary
Chapter 11: Managing and Serving Models with MLflow and MLeap
	Technical requirements
	Managing machine learning models
		Using MLflow notebook experiments
		Registering a model using the MLflow API
		Transitioning a model stage
	Model Registry example
	Exporting and loading pipelines with MLeap
	Serving models with MLflow
		Scoring a model
	Summary
Chapter 12: Distributed Deep Learning in Azure Databricks
	Technical requirements
	Distributed training for deep learning
		The ring allreduce technique
	Using the Horovod distributed learning library in Azure Databricks
		Installing the horovod library
		Using the horovod library
		Training a model on a single node
		Distributing training with HorovodRunner
		Distributing hyperparameter tuning using Horovod and Hyperopt
	Using the Spark TensorFlow Distributor package
	Summary
Other Books You May Enjoy
Index




نظرات کاربران