دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش:
نویسندگان: Adi Polak
سری:
ISBN (شابک) : 9781098106829, 9781098106751
ناشر: O'Reilly Media, Inc.
سال نشر: 2023
تعداد صفحات:
زبان: English
فرمت فایل : EPUB (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 5 Mb
در صورت تبدیل فایل کتاب Scaling Machine Learning with Spark به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب مقیاس یادگیری ماشینی با اسپارک نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
در Apache Spark، موتور محبوب برای پردازش دادهها در مقیاس بزرگ، از جمله یادگیری ماشین و تجزیه و تحلیل، به سرعت برسید. اگر می خواهید مجموعه مهارت های خود را گسترش دهید یا حرفه خود را در یادگیری ماشینی مقیاس پذیر با MLlib، PyTorch توزیع شده و TensorFlow توسعه دهید، این راهنمای عملی برای شما مناسب است. با استفاده از Spark به عنوان پلتفرم اصلی پردازش داده خود، چندین فناوری منبع باز را خواهید دید که برای غنی سازی قابلیت های ML اسپارک طراحی و ساخته شده اند. Scaling Machine Learning با Spark، فناوریهای مختلفی را برای ایجاد جریانهای کاری ML توزیع شده سرتاسر بر اساس اکوسیستم Apache Spark با Spark MLlib، MLFlow، TensorFlow، PyTorch و Petastorm بررسی میکند. این کتاب به شما نشان می دهد که چه زمانی و چرا از هر فناوری استفاده کنید. اگر دانشمند دادهای هستید که با یادگیری ماشین کار میکنید، یاد خواهید گرفت که چگونه: بسازید گردشهای کاری یادگیری ماشینی توزیعشده عملی، از جمله مهندسی ویژگیها و قالبهای داده، قابلیتهای یادگیری عمیق را فراتر از Spark با پل زدن به TensorFlow و PyTorch توزیع شده گسترش دهید. آزمایش یادگیری ماشین خود را مدیریت کنید. چرخه حیات با MLFlow از Petastorm به عنوان لایه ذخیره سازی برای پل زدن داده ها از Spark به TensorFlow و PyTorch استفاده کنید از اصطلاحات یادگیری ماشین برای درک استراتژی های توزیع استفاده کنید.
Get up to speed on Apache Spark, the popular engine for large-scale data processing, including machine learning and analytics. If you're looking to expand your skill set or advance your career in scalable machine learning with MLlib, distributed PyTorch, and distributed TensorFlow, this practical guide is for you. Using Spark as your main data processing platform, you'll discover several open source technologies designed and built for enriching Spark's ML capabilities. Scaling Machine Learning with Spark examines various technologies for building end-to-end distributed ML workflows based on the Apache Spark ecosystem with Spark MLlib, MLFlow, TensorFlow, PyTorch, and Petastorm. This book shows you when to use each technology and why. If you're a data scientist working with machine learning, you'll learn how to: Build practical distributed machine learning workflows, including feature engineering and data formats Extend deep learning functionalities beyond Spark by bridging into distributed TensorFlow and PyTorch Manage your machine learning experiment lifecycle with MLFlow Use Petastorm as a storage layer for bridging data from Spark into TensorFlow and PyTorch Use machine learning terminology to understand distribution strategies
Cover Copyright Table of Contents Preface Who Should Read This Book? Do You Need Distributed Machine Learning? Navigating This Book What Is Not Covered The Environment and Tools The Tools The Datasets Conventions Used in This Book Using Code Examples O’Reilly Online Learning How to Contact Us Acknowledgments Chapter 1. Distributed Machine Learning Terminology and Concepts The Stages of the Machine Learning Workflow Tools and Technologies in the Machine Learning Pipeline Distributed Computing Models General-Purpose Models Dedicated Distributed Computing Models Introduction to Distributed Systems Architecture Centralized Versus Decentralized Systems Interaction Models Communication in a Distributed Setting Introduction to Ensemble Methods High Versus Low Bias Types of Ensemble Methods Distributed Training Topologies The Challenges of Distributed Machine Learning Systems Performance Resource Management Fault Tolerance Privacy Portability Setting Up Your Local Environment Chapters 2–6 Tutorials Environment Chapters 7–10 Tutorials Environment Summary Chapter 2. Introduction to Spark and PySpark Apache Spark Architecture Intro to PySpark Apache Spark Basics Software Architecture PySpark and Functional Programming Executing PySpark Code pandas DataFrames Versus Spark DataFrames Scikit-Learn Versus MLlib Summary Chapter 3. Managing the Machine Learning Experiment Lifecycle with MLflow Machine Learning Lifecycle Management Requirements What Is MLflow? Software Components of the MLflow Platform Users of the MLflow Platform MLflow Components MLflow Tracking MLflow Projects MLflow Models MLflow Model Registry Using MLflow at Scale Summary Chapter 4. Data Ingestion, Preprocessing, and Descriptive Statistics Data Ingestion with Spark Working with Images Working with Tabular Data Preprocessing Data Preprocessing Versus Processing Why Preprocess the Data? Data Structures MLlib Data Types Preprocessing with MLlib Transformers Preprocessing Image Data Save the Data and Avoid the Small Files Problem Descriptive Statistics: Getting a Feel for the Data Calculating Statistics Descriptive Statistics with Spark Summarizer Data Skewness Correlation Summary Chapter 5. Feature Engineering Features and Their Impact on Models MLlib Featurization Tools Extractors Selectors Example: Word2Vec The Image Featurization Process Understanding Image Manipulation Extracting Features with Spark APIs The Text Featurization Process Bag-of-Words TF-IDF N-Gram Additional Techniques Enriching the Dataset Summary Chapter 6. Training Models with Spark MLlib Algorithms Supervised Machine Learning Classification Regression Unsupervised Machine Learning Frequent Pattern Mining Clustering Evaluating Supervised Evaluators Unsupervised Evaluators Hyperparameters and Tuning Experiments Building a Parameter Grid Splitting the Data into Training and Test Sets Cross-Validation: A Better Way to Test Your Models Machine Learning Pipelines Constructing a Pipeline How Does Splitting Work with the Pipeline API? Persistence Summary Chapter 7. Bridging Spark and Deep Learning Frameworks The Two Clusters Approach Implementing a Dedicated Data Access Layer Features of a DAL Selecting a DAL What Is Petastorm? SparkDatasetConverter Petastorm as a Parquet Store Project Hydrogen Barrier Execution Mode Accelerator-Aware Scheduling A Brief Introduction to the Horovod Estimator API Summary Chapter 8. TensorFlow Distributed Machine Learning Approach A Quick Overview of TensorFlow What Is a Neural Network? TensorFlow Cluster Process Roles and Responsibilities Loading Parquet Data into a TensorFlow Dataset An Inside Look at TensorFlow’s Distributed Machine Learning Strategies ParameterServerStrategy CentralStorageStrategy: One Machine, Multiple Processors MirroredStrategy: One Machine, Multiple Processors, Local Copy MultiWorkerMirroredStrategy: Multiple Machines, Synchronous TPUStrategy What Things Change When You Switch Strategies? Training APIs Keras API Custom Training Loop Estimator API Putting It All Together Troubleshooting Summary Chapter 9. PyTorch Distributed Machine Learning Approach A Quick Overview of PyTorch Basics Computation Graph PyTorch Mechanics and Concepts PyTorch Distributed Strategies for Training Models Introduction to PyTorch’s Distributed Approach Distributed Data-Parallel Training RPC-Based Distributed Training Communication Topologies in PyTorch (c10d) What Can We Do with PyTorch’s Low-Level APIs? Loading Data with PyTorch and Petastorm Troubleshooting Guidance for Working with Petastorm and Distributed PyTorch The Enigma of Mismatched Data Types The Mystery of Straggling Workers How Does PyTorch Differ from TensorFlow? Summary Chapter 10. Deployment Patterns for Machine Learning Models Deployment Patterns Pattern 1: Batch Prediction Pattern 2: Model-in-Service Pattern 3: Model-as-a-Service Determining Which Pattern to Use Production Software Requirements Monitoring Machine Learning Models in Production Data Drift Model Drift, Concept Drift Distributional Domain Shift (the Long Tail) What Metrics Should I Monitor in Production? How Do I Measure Changes Using My Monitoring System? What It Looks Like in Production The Production Feedback Loop Deploying with MLlib Production Machine Learning Pipelines with Structured Streaming Deploying with MLflow Defining an MLflow Wrapper Deploying the Model as a Microservice Loading the Model as a Spark UDF How to Develop Your System Iteratively Summary Index About the Author Colophon