دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش: [1 ed.]
نویسندگان: Antonio Badia
سری: Data-Centric Systems and Applications
ISBN (شابک) : 9783030575915, 3030575918
ناشر: Springer
سال نشر: 2020
تعداد صفحات: [290]
زبان: English
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 3 Mb
در صورت تبدیل فایل کتاب SQL for Data Science: Data Cleaning, Wrangling and Analytics with Relational Databases به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب SQL برای علم داده: تمیز کردن داده ها، بحث و تجزیه و تحلیل با پایگاه های داده رابطه ای نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
این کتاب درسی SQL را در زمینه علم داده توضیح میدهد و بخشهای مختلف SQL را برای کارهایی که معمولاً در طول تجزیه و تحلیل دادهها انجام میشوند، مورد نیاز است، معرفی میکند. با استفاده از چارچوب چرخه عمر داده، بر مراحلی تمرکز می کند که اغلب در کتاب های درسی سنتی تغییر کوتاهی داده می شود، مانند بارگذاری داده، تمیز کردن و پیش پردازش. کتاب به شرح زیر تنظیم شده است. فصل 1 چرخه عمر داده ها را شرح می دهد، یعنی دنباله ای از مراحل از اکتساب داده تا بایگانی، که داده ها هنگام تهیه و سپس تجزیه و تحلیل واقعی، همراه با فعالیت های مختلفی که در هر مرحله انجام می شود، طی می شوند. فصل 2 به درستی به پایگاه های داده می پردازد و توضیح می دهد که چگونه پایگاه های داده رابطه ای داده ها را سازماندهی می کنند. داده های غیر سنتی مانند XML و متن نیز پوشش داده شده است. فصل 3 پرسوجوهای SQL را معرفی میکند، اما برخلاف کتابهای درسی سنتی، پرسوجوها و بخشهای آنها حول وظایف تجزیه و تحلیل دادههای معمولی مانند کاوش داده، تمیز کردن و تبدیل توضیح داده میشوند. فصل 4 چند تکنیک اساسی برای تجزیه و تحلیل داده ها را معرفی می کند و نشان می دهد که چگونه می توان از SQL برای برخی از تجزیه و تحلیل های ساده بدون پیچیدگی زیاد استفاده کرد. فصل 5 ساختارهای SQL اضافی را معرفی می کند که در موقعیت های مختلف مهم هستند و بنابراین پوشش پرس و جوهای SQL را کامل می کند. در نهایت، فصل 6 به طور خلاصه نحوه استفاده از SQL از داخل R و از داخل برنامه های پایتون را توضیح می دهد. این زبان بر نحوه تعامل این زبانها با پایگاه داده تمرکز میکند و چگونه میتوان از آنچه در مورد SQL آموخته شده استفاده کرد تا در هنگام استفاده از R یا Python زندگی را آسانتر کند. همه فصلها شامل مثالها و تمرینهای زیادی در راه هستند، و خوانندگان تشویق میشوند تا دو سیستم پایگاه داده منبع باز (MySQL و Postgres) را که در سراسر کتاب استفاده میشوند، برای تمرین و کار روی تمرینها نصب کنند، زیرا صرف خواندن این کتاب بسیار کمتر از استفاده واقعی از آن مفید است. این کتاب برای هر کسی که به علم داده و/یا پایگاه داده علاقه مند است می باشد. این فقط به کمی تسلط کامپیوتری نیاز دارد، اما هیچ پیشینه خاصی در پایگاه داده یا تجزیه و تحلیل داده ها وجود ندارد. همه مفاهیم به طور مستقیم و با حداقل اصطلاحات تخصصی معرفی شده اند. پس از مطالعه این کتاب، خوانندگان باید بتوانند با سودآوری اطلاعات بیشتری در مورد داده کاوی، یادگیری ماشینی و مدیریت پایگاه داده از کتاب های درسی و دوره های پیشرفته تر بیاموزند.
This textbook explains SQL within the context of data science and introduces the different parts of SQL as they are needed for the tasks usually carried out during data analysis. Using the framework of the data life cycle, it focuses on the steps that are very often given the short shift in traditional textbooks, like data loading, cleaning and pre-processing. The book is organized as follows. Chapter 1 describes the data life cycle, i.e. the sequence of stages from data acquisition to archiving, that data goes through as it is prepared and then actually analyzed, together with the different activities that take place at each stage. Chapter 2 gets into databases proper, explaining how relational databases organize data. Non-traditional data, like XML and text, are also covered. Chapter 3 introduces SQL queries, but unlike traditional textbooks, queries and their parts are described around typical data analysis tasks like data exploration, cleaning and transformation. Chapter 4 introduces some basic techniques for data analysis and shows how SQL can be used for some simple analyses without too much complication. Chapter 5 introduces additional SQL constructs that are important in a variety of situations and thus completes the coverage of SQL queries. Lastly, chapter 6 briefly explains how to use SQL from within R and from within Python programs. It focuses on how these languages can interact with a database, and how what has been learned about SQL can be leveraged to make life easier when using R or Python. All chapters contain a lot of examples and exercises on the way, and readers are encouraged to install the two open-source database systems (MySQL and Postgres) that are used throughout the book in order to practice and work on the exercises, because simply reading the book is much less useful than actually using it. This book is for anyone interested in data science and/or databases. It just demands a bit of computer fluency, but no specific background on databases or data analysis. All concepts are introduced intuitively and with a minimum of specialized jargon. After going through this book, readers should be able to profitably learn more about data mining, machine learning, and database management from more advanced textbooks and courses.
Preface Contents 1 The Data Life Cycle 1.1 Stages and Operations in the Data Life Cycle 1.2 Types of Datasets 1.2.1 Structured Data 1.2.2 Semistructured Data 1.2.3 Unstructured Data 1.3 Types of Domains 1.3.1 Nominal/Categorical Data 1.3.2 Ordinal Data 1.3.3 Numerical Data 1.4 Metadata 1.5 The Role of Databases in the Cycle 2 Relational Data 2.1 Database Tables 2.1.1 Data Types 2.1.2 Inserting Data 2.1.3 Keys 2.1.4 Organizing Data into Tables 2.2 Database Schemas 2.2.1 Heterogeneous Data 2.2.2 Multi-valued Attributes 2.2.3 Complex Data 2.3 Other Types of Data 2.3.1 XML and JSON Data 2.3.2 Graph Data 2.3.3 Text 2.4 Getting Data In and Out of the Database 2.4.1 Importing and Loading Data 2.4.2 Updating Data 2.4.3 Exporting Data 3 Data Cleaning and Pre-processing 3.1 The Basic SQL Query 3.1.1 Joins 3.1.2 Functions 3.1.3 Grouping 3.1.4 Order 3.1.5 Complex Queries 3.2 Exploratory Data Analysis (EDA) 3.2.1 Univariate Analysis 3.2.2 Multivariate Analysis 3.2.3 Distribution Fitting 3.3 Data Cleaning 3.3.1 Attribute Transformation 3.3.1.1 Working with Numbers 3.3.1.2 Working with Strings 3.3.1.3 Working with Dates 3.3.2 Missing Data 3.3.3 Outlier Detection 3.3.4 Duplicate Detection and Removal 3.4 Data Pre-processing 3.4.1 Restructuring Data 3.5 Metadata and Implementing Workflows 3.5.1 Metadata 4 Introduction to Data Analysis 4.1 What Is Data Analysis? 4.2 Supervised Approaches 4.2.1 Classification: Naive Bayes 4.2.2 Linear Regression 4.2.3 Logistic Regression 4.3 Unsupervised Approaches 4.3.1 Distances and Clustering 4.3.1.1 K-Means Clustering 4.3.2 The kNN Algorithm 4.3.3 Association Rules 4.4 Dealing with JSON/XML 4.5 Text Analysis 4.6 Graph Analytics: Recursive Queries 4.7 Collaborative Filtering 5 More SQL 5.1 More on Joins 5.2 Complex Subqueries 5.3 Windows and Window Aggregates 5.4 Set Operations 5.5 Expressing Domain Knowledge 6 Databases and Other Tools 6.1 SQL and R 6.1.1 DBI 6.1.2 dbplyr 6.1.3 sqldf 6.1.4 Packages: Advanced Data Analysis 6.2 SQL and Python 6.2.1 Python and Databases: DB-API 6.2.2 Libraries and Further Analysis A Getting Started A.1 Downloading and Installing Postgres and MySQL A.2 Getting the Server Started A.3 User Management B Big Data B.1 What Is Big Data? B.2 Data Warehouses B.3 Cluster Databases B.4 The Cloud References Index