ورود به حساب

نام کاربری گذرواژه

گذرواژه را فراموش کردید؟ کلیک کنید

حساب کاربری ندارید؟ ساخت حساب

ساخت حساب کاربری

نام نام کاربری ایمیل شماره موبایل گذرواژه

برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید


09117307688
09117179751

در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید

دسترسی نامحدود

برای کاربرانی که ثبت نام کرده اند

ضمانت بازگشت وجه

درصورت عدم همخوانی توضیحات با کتاب

پشتیبانی

از ساعت 7 صبح تا 10 شب

دانلود کتاب Scaling Machine Learning with Spark

دانلود کتاب مقیاس یادگیری ماشینی با اسپارک

Scaling Machine Learning with Spark

مشخصات کتاب

Scaling Machine Learning with Spark

ویرایش:  
نویسندگان:   
سری:  
ISBN (شابک) : 9781098106829, 9781098106751 
ناشر: O'Reilly Media, Inc. 
سال نشر: 2023 
تعداد صفحات:  
زبان: English 
فرمت فایل : EPUB (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) 
حجم فایل: 5 Mb 

قیمت کتاب (تومان) : 42,000



ثبت امتیاز به این کتاب

میانگین امتیاز به این کتاب :
       تعداد امتیاز دهندگان : 12


در صورت تبدیل فایل کتاب Scaling Machine Learning with Spark به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.

توجه داشته باشید کتاب مقیاس یادگیری ماشینی با اسپارک نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.


توضیحاتی در مورد کتاب مقیاس یادگیری ماشینی با اسپارک

در Apache Spark، موتور محبوب برای پردازش داده‌ها در مقیاس بزرگ، از جمله یادگیری ماشین و تجزیه و تحلیل، به سرعت برسید. اگر می خواهید مجموعه مهارت های خود را گسترش دهید یا حرفه خود را در یادگیری ماشینی مقیاس پذیر با MLlib، PyTorch توزیع شده و TensorFlow توسعه دهید، این راهنمای عملی برای شما مناسب است. با استفاده از Spark به عنوان پلتفرم اصلی پردازش داده خود، چندین فناوری منبع باز را خواهید دید که برای غنی سازی قابلیت های ML اسپارک طراحی و ساخته شده اند. Scaling Machine Learning با Spark، فناوری‌های مختلفی را برای ایجاد جریان‌های کاری ML توزیع شده سرتاسر بر اساس اکوسیستم Apache Spark با Spark MLlib، MLFlow، TensorFlow، PyTorch و Petastorm بررسی می‌کند. این کتاب به شما نشان می دهد که چه زمانی و چرا از هر فناوری استفاده کنید. اگر دانشمند داده‌ای هستید که با یادگیری ماشین کار می‌کنید، یاد خواهید گرفت که چگونه: بسازید گردش‌های کاری یادگیری ماشینی توزیع‌شده عملی، از جمله مهندسی ویژگی‌ها و قالب‌های داده، قابلیت‌های یادگیری عمیق را فراتر از Spark با پل زدن به TensorFlow و PyTorch توزیع شده گسترش دهید. آزمایش یادگیری ماشین خود را مدیریت کنید. چرخه حیات با MLFlow از Petastorm به عنوان لایه ذخیره سازی برای پل زدن داده ها از Spark به TensorFlow و PyTorch استفاده کنید از اصطلاحات یادگیری ماشین برای درک استراتژی های توزیع استفاده کنید.


توضیحاتی درمورد کتاب به خارجی

Get up to speed on Apache Spark, the popular engine for large-scale data processing, including machine learning and analytics. If you're looking to expand your skill set or advance your career in scalable machine learning with MLlib, distributed PyTorch, and distributed TensorFlow, this practical guide is for you. Using Spark as your main data processing platform, you'll discover several open source technologies designed and built for enriching Spark's ML capabilities. Scaling Machine Learning with Spark examines various technologies for building end-to-end distributed ML workflows based on the Apache Spark ecosystem with Spark MLlib, MLFlow, TensorFlow, PyTorch, and Petastorm. This book shows you when to use each technology and why. If you're a data scientist working with machine learning, you'll learn how to: Build practical distributed machine learning workflows, including feature engineering and data formats Extend deep learning functionalities beyond Spark by bridging into distributed TensorFlow and PyTorch Manage your machine learning experiment lifecycle with MLFlow Use Petastorm as a storage layer for bridging data from Spark into TensorFlow and PyTorch Use machine learning terminology to understand distribution strategies



فهرست مطالب

Cover
Copyright
Table of Contents
Preface
	Who Should Read This Book?
	Do You Need Distributed Machine Learning?
	Navigating This Book
	What Is Not Covered
	The Environment and Tools
		The Tools
		The Datasets
	Conventions Used in This Book
	Using Code Examples
	O’Reilly Online Learning
	How to Contact Us
	Acknowledgments
Chapter 1. Distributed Machine Learning Terminology and Concepts
	The Stages of the Machine Learning Workflow
	Tools and Technologies in the Machine Learning Pipeline
	Distributed Computing Models
		General-Purpose Models
		Dedicated Distributed Computing Models
	Introduction to Distributed Systems Architecture
		Centralized Versus Decentralized Systems
		Interaction Models
		Communication in a Distributed Setting
	Introduction to Ensemble Methods
		High Versus Low Bias
		Types of Ensemble Methods
		Distributed Training Topologies
	The Challenges of Distributed Machine Learning Systems
		Performance
		Resource Management
		Fault Tolerance
		Privacy
		Portability
	Setting Up Your Local Environment
		Chapters 2–6 Tutorials Environment
		Chapters 7–10 Tutorials Environment
	Summary
Chapter 2. Introduction to Spark and PySpark
	Apache Spark Architecture
	Intro to PySpark
	Apache Spark Basics
		Software Architecture
		PySpark and Functional Programming
		Executing PySpark Code
	pandas DataFrames Versus Spark DataFrames
	Scikit-Learn Versus MLlib
	Summary
Chapter 3. Managing the Machine Learning Experiment Lifecycle with MLflow
	Machine Learning Lifecycle Management Requirements
	What Is MLflow?
		Software Components of the MLflow Platform
		Users of the MLflow Platform
	MLflow Components
		MLflow Tracking
		MLflow Projects
		MLflow Models
		MLflow Model Registry
	Using MLflow at Scale
	Summary
Chapter 4. Data Ingestion, Preprocessing, and Descriptive Statistics
	Data Ingestion with Spark
		Working with Images
		Working with Tabular Data
	Preprocessing Data
		Preprocessing Versus Processing
		Why Preprocess the Data?
		Data Structures
		MLlib Data Types
		Preprocessing with MLlib Transformers
		Preprocessing Image Data
		Save the Data and Avoid the Small Files Problem
	Descriptive Statistics: Getting a Feel for the Data
		Calculating Statistics
		Descriptive Statistics with Spark Summarizer
		Data Skewness
		Correlation
	Summary
Chapter 5. Feature Engineering
	Features and Their Impact on Models
	MLlib Featurization Tools
		Extractors
		Selectors
		Example: Word2Vec
	The Image Featurization Process
		Understanding Image Manipulation
		Extracting Features with Spark APIs
	The Text Featurization Process
		Bag-of-Words
		TF-IDF
		N-Gram
		Additional Techniques
	Enriching the Dataset
	Summary
Chapter 6. Training Models with Spark MLlib
	Algorithms
	Supervised Machine Learning
		Classification
		Regression
	Unsupervised Machine Learning
		Frequent Pattern Mining
		Clustering
	Evaluating
		Supervised Evaluators
		Unsupervised Evaluators
	Hyperparameters and Tuning Experiments
		Building a Parameter Grid
		Splitting the Data into Training and Test Sets
		Cross-Validation: A Better Way to Test Your Models
	Machine Learning Pipelines
		Constructing a Pipeline
		How Does Splitting Work with the Pipeline API?
	Persistence
	Summary
Chapter 7. Bridging Spark and Deep Learning Frameworks
	The Two Clusters Approach
	Implementing a Dedicated Data Access Layer
		Features of a DAL
		Selecting a DAL
	What Is Petastorm?
		SparkDatasetConverter
		Petastorm as a Parquet Store
	Project Hydrogen
		Barrier Execution Mode
		Accelerator-Aware Scheduling
	A Brief Introduction to the Horovod Estimator API
	Summary
Chapter 8. TensorFlow Distributed Machine Learning Approach
	A Quick Overview of TensorFlow
		What Is a Neural Network?
		TensorFlow Cluster Process Roles and Responsibilities
	Loading Parquet Data into a TensorFlow Dataset
	An Inside Look at TensorFlow’s Distributed Machine Learning Strategies
		ParameterServerStrategy
		CentralStorageStrategy: One Machine, Multiple Processors
		MirroredStrategy: One Machine, Multiple Processors, Local Copy
		MultiWorkerMirroredStrategy: Multiple Machines, Synchronous
		TPUStrategy
		What Things Change When You Switch Strategies?
	Training APIs
		Keras API
		Custom Training Loop
		Estimator API
	Putting It All Together
	Troubleshooting
	Summary
Chapter 9. PyTorch Distributed Machine Learning Approach
	A Quick Overview of PyTorch Basics
		Computation Graph
		PyTorch Mechanics and Concepts
	PyTorch Distributed Strategies for Training Models
		Introduction to PyTorch’s Distributed Approach
		Distributed Data-Parallel Training
		RPC-Based Distributed Training
		Communication Topologies in PyTorch (c10d)
		What Can We Do with PyTorch’s Low-Level APIs?
	Loading Data with PyTorch and Petastorm
	Troubleshooting Guidance for Working with Petastorm and Distributed PyTorch
		The Enigma of Mismatched Data Types
		The Mystery of Straggling Workers
	How Does PyTorch Differ from TensorFlow?
	Summary
Chapter 10. Deployment Patterns for Machine Learning Models
	Deployment Patterns
		Pattern 1: Batch Prediction
		Pattern 2: Model-in-Service
		Pattern 3: Model-as-a-Service
		Determining Which Pattern to Use
		Production Software Requirements
	Monitoring Machine Learning Models in Production
		Data Drift
		Model Drift, Concept Drift
		Distributional Domain Shift (the Long Tail)
		What Metrics Should I Monitor in Production?
		How Do I Measure Changes Using My Monitoring System?
		What It Looks Like in Production
	The Production Feedback Loop
	Deploying with MLlib
		Production Machine Learning Pipelines with Structured Streaming
	Deploying with MLflow
		Defining an MLflow Wrapper
		Deploying the Model as a Microservice
		Loading the Model as a Spark UDF
	How to Develop Your System Iteratively
	Summary
Index
About the Author
Colophon




نظرات کاربران