دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش: 1st ed.
نویسندگان: Robert Ilijason
سری:
ISBN (شابک) : 9781484257807, 9781484257814
ناشر: Apress
سال نشر: 2020
تعداد صفحات: 281
زبان: English
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 3 مگابایت
کلمات کلیدی مربوط به کتاب شروع اسپارک آپاچی با استفاده از آژور دیتابریک: رها کردن تجزیه و تحلیل خوشه های بزرگ در فضای ابری: تجارت و مدیریت، کلان داده/تحلیل، مایکروسافت و دات نت، منبع باز
در صورت تبدیل فایل کتاب Beginning Apache Spark Using Azure Databricks: Unleashing Large Cluster Analytics in the Cloud به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب شروع اسپارک آپاچی با استفاده از آژور دیتابریک: رها کردن تجزیه و تحلیل خوشه های بزرگ در فضای ابری نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
با استفاده از Apache Spark با Databricks در فضای ابری، حجم عظیمی از داده ها را در زمان رکورد تجزیه و تحلیل کنید. با استفاده از Apache Spark با Databricks در بالا، اصول و موارد دیگر را در اجرای تجزیه و تحلیل در کلاسترهای بزرگ در Azure و AWS بیاموزید. کشف کنید که چگونه میتوانید با صرف کسری از هزینه راهحلهای تحلیل کلاسیک، بیشترین ارزش را از دادههای خود به دست آورید و در عین حال نتایج مورد نیاز خود را به صورت تدریجی سریعتر به دست آورید.
این کتاب نحوه تلاقی این روشها را توضیح میدهد. وقتی صحبت از مجموعه دادههای عظیم به میان میآید، این فناوریهای محوری به شما قدرت بسیار زیادی میدهند، و ارزانتر. شما با یادگیری اینکه چگونه زیرساخت ابری این امکان را فراهم میکند که کد شما را در مقادیر زیادی از واحدهای پردازشی مقیاسبندی کنید، بدون نیاز به پیشپرداخت برای ماشینآلات، شروع میکنید. از آنجا خواهید آموخت که چگونه Apache Spark، یک چارچوب متن باز، می تواند تمام آن CPU ها را برای استفاده از تجزیه و تحلیل داده فعال کند. در نهایت، خواهید دید که چگونه سرویس هایی مانند Databricks قدرت آپاچی اسپارک را ارائه می کنند، بدون اینکه نیازی به اطلاعاتی در مورد پیکربندی سخت افزار یا نرم افزار داشته باشید. با از بین بردن نیاز به متخصصان و سخت افزار گران قیمت، منابع شما می تواند در عوض به یافتن ارزش تجاری در داده ها اختصاص یابد.
این کتاب شما را در برخی از موضوعات پیشرفته مانند تجزیه و تحلیل در ابر، دریاچه های داده، راهنمایی می کند. جذب داده، معماری، یادگیری ماشین و ابزارهایی از جمله Apache Spark، Apache Hadoop، Apache Hive، Python و SQL. تمرین های ارزشمند به تقویت آموخته هایتان کمک می کند.
آنچه خواهید آموخت
این کتاب برای چه کسی است
مهندسین داده، دانشمندان داده و معماران ابری که میخواهند یا نیاز به اجرای تجزیه و تحلیل پیشرفته در فضای ابری دارند. فرض بر این است که خواننده تجربه داده دارد، اما شاید کمترین میزان مواجهه با Apache Spark و Azure Databricks را داشته باشد. این کتاب همچنین برای افرادی که میخواهند در زمینه تجزیه و تحلیل شروع کنند، توصیه میشود، زیرا پایهای قوی را فراهم میکند.
Analyze vast amounts of data in record time using Apache Spark with Databricks in the Cloud. Learn the fundamentals, and more, of running analytics on large clusters in Azure and AWS, using Apache Spark with Databricks on top. Discover how to squeeze the most value out of your data at a mere fraction of what classical analytics solutions cost, while at the same time getting the results you need, incrementally faster.
This book explains how the confluence of these pivotal technologies gives you enormous power, and cheaply, when it comes to huge datasets. You will begin by learning how cloud infrastructure makes it possible to scale your code to large amounts of processing units, without having to pay for the machinery in advance. From there you will learn how Apache Spark, an open source framework, can enable all those CPUs for data analytics use. Finally, you will see how services such as Databricks provide the power of Apache Spark, without you having to know anything about configuring hardware or software. By removing the need for expensive experts and hardware, your resources can instead be allocated to actually finding business value in the data.
This book guides you through some advanced topics such as analytics in the cloud, data lakes, data ingestion, architecture, machine learning, and tools, including Apache Spark, Apache Hadoop, Apache Hive, Python, and SQL. Valuable exercises help reinforce what you have learned.
What You Will Learn
Who This Book Is For
Data engineers, data scientists, and cloud architects who want or need to run advanced analytics in the cloud. It is assumed that the reader has data experience, but perhaps minimal exposure to Apache Spark and Azure Databricks. The book is also recommended for people who want to get started in the analytics field, as it provides a strong foundation.
Table of Contents About the Author About the Technical Reviewer Introduction Chapter 1: Introduction to Large-Scale Data Analytics Analytics, the hype Analytics, the reality Large-scale analytics for fun and profit Data: Fueling analytics Free as in speech. And beer! Into the clouds Databricks: Analytics for the lazy ones How to analyze data Large-scale examples from the real world Telematics at Volvo Trucks Fraud detection at Visa Customer analytics at Target Targeted ads at Cambridge Analytica Summary Chapter 2: Spark and Databricks Apache Spark, the short overview Databricks: Managed Spark The far side of the Databricks moon Spark architecture Apache Spark processing Working with data Data processing Storing data Cool components on top of Core Summary Chapter 3: Getting Started with Databricks Cloud-only Community edition: No money? No problem Mostly good enough Getting started with the community edition Commercial editions: The ones you want Databricks on Amazon Web Services Azure Databricks Summary Chapter 4: Workspaces, Clusters, and Notebooks Getting around in the UI Clusters: Powering up the engines Data: Getting access to the fuel Notebooks: Where the work happens Summary Chapter 5: Getting Data into Databricks Databricks File System Navigating the file system The FileStore, a portal to your data Schemas, databases, and tables Hive Metastore The many types of source files Going binary Alternative transportation Importing from your computer Getting data from the Web Working with the shell Basic importing with Python Getting data with SQL Mounting a file system Mounting example Amazon S3 Mounting example Microsoft Blog Storage Getting rid of the mounts How to get data out of Databricks Summary Chapter 6: Querying Data Using SQL The Databricks flavor Getting started Picking up data Filtering data Joins and merges Ordering data Functions Windowing functions A view worth keeping Hierarchical data Creating data Manipulating data Delta Lake SQL UPDATE, DELETE, and MERGE Keeping Delta Lake in order Transaction logs Selecting metadata Gathering statistics Summary Chapter 7: The Power of Python Python: The language of choice A turbo-charged intro to Python Finding the data DataFrames: Where active data lives Getting some data Selecting data from DataFrames Chaining combo commands Working with multiple DataFrames Slamming data together Summary Chapter 8: ETL and Advanced Data Wrangling ETL: A recap An overview of the Spark UI Cleaning and transforming data Finding nulls Getting rid of nulls Filling nulls with values Removing duplicates Identifying and clearing out extreme values Taking care of columns Pivoting Explode When being lazy is good Caching data Data compression A short note about functions Lambda functions Storing and shuffling data Save modes Managed vs. unmanaged tables Handling partitions Summary Chapter 9: Connecting to and from Databricks Connecting to and from Databricks Getting ODBC and JDBC up and running Creating a token Preparing the cluster Let’s create a test table Setting up ODBC on Windows Setting up ODBC on OS X Connecting tools to Databricks Microsoft Excel on Windows Microsoft Power BI Desktop on Windows Tableau on OS X PyCharm (and more) via Databricks Connect Using RStudio Server Accessing external systems A quick recap of libraries Connecting to external systems Azure SQL Oracle MongoDB Summary Chapter 10: Running in Production General advice Assume the worst Write rerunnable code Document in the code Write clear, simple code Print relevant stuff Jobs Scheduling Running notebooks from notebooks Widgets Running jobs with parameters The command line interface Setting up the CLI Running CLI commands Creating and running jobs Accessing the Databricks File System Picking up notebooks Keeping secrets Secrets with privileges Revisiting cost Users, groups, and security options Users and groups Using SCIM provisioning Access Control Workspace Access Control Cluster, Pool, and Jobs Access Control Table Access Control Personal Access Tokens The rest Summary Chapter 11: Bits and Pieces MLlib Frequent Pattern Growth Creating some data Preparing the data Running the algorithm Parsing the results MLflow Running the code Checking the results Updating tables Create the original table Connect from Databricks Pulling the delta Verifying the formats Update the table A short note about Pandas Koalas, Pandas for Spark Playing around with Koalas The future of Koalas The art of presenting data Preparing data Using Matplotlib Building and showing the dashboard Adding a widget Adding a graph Schedule run REST API and Databricks What you can do What you can’t do Getting ready for APIs Example: Get cluster data Example: Set up and execute a job Example: Get the notebooks All the APIs and what they do Delta streaming Running a stream Checking and stopping the streams Running it faster Using checkpoints Index