ورود به حساب

نام کاربری گذرواژه

گذرواژه را فراموش کردید؟ کلیک کنید

حساب کاربری ندارید؟ ساخت حساب

ساخت حساب کاربری

نام نام کاربری ایمیل شماره موبایل گذرواژه

برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید


09117307688
09117179751

در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید

دسترسی نامحدود

برای کاربرانی که ثبت نام کرده اند

ضمانت بازگشت وجه

درصورت عدم همخوانی توضیحات با کتاب

پشتیبانی

از ساعت 7 صبح تا 10 شب

دانلود کتاب Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

دانلود کتاب تمیز کردن داده ها برای علم داده موثر: انجام 80٪ کار دیگر با ابزارهای خط فرمان ، Python و R

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

مشخصات کتاب

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

ویرایش:  
نویسندگان:   
سری:  
ISBN (شابک) : 1801071292, 9781801071291 
ناشر: Packt Publishing - ebooks Account 
سال نشر: 2021 
تعداد صفحات: 0 
زبان: English 
فرمت فایل : EPUB (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) 
حجم فایل: 8 مگابایت 

قیمت کتاب (تومان) : 43,000



ثبت امتیاز به این کتاب

میانگین امتیاز به این کتاب :
       تعداد امتیاز دهندگان : 12


در صورت تبدیل فایل کتاب Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.

توجه داشته باشید کتاب تمیز کردن داده ها برای علم داده موثر: انجام 80٪ کار دیگر با ابزارهای خط فرمان ، Python و R نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.


توضیحاتی در مورد کتاب تمیز کردن داده ها برای علم داده موثر: انجام 80٪ کار دیگر با ابزارهای خط فرمان ، Python و R



راهنمای جامعی برای دانشمندان داده برای تسلط بر ابزارها و تکنیک‌های موثر پاک‌سازی داده‌ها

ویژگی‌های کلیدی

  • مسلط بر تکنیک‌های تمیز کردن داده‌ها در یک زبان روشی آگنوستیک
  • از مثال‌های عملی جذاب از حوزه‌های متعدد، مانند زیست‌شناسی، داده‌های آب‌وهوا، جمعیت‌شناسی، فیزیک، سری‌های زمانی و پردازش تصویر بیاموزید
  • کار با جزئیات، نظرات , نمونه کد به خوبی آزمایش شده در پایتون و R

توضیحات کتاب

این چیزی شبیه به حقیقت در علم داده، تجزیه و تحلیل داده، یا یادگیری ماشین است که بسیاری از تلاش لازم برای دستیابی به هدف واقعی شما در پاکسازی داده های شما نهفته است. این کتاب که به سبک دوستانه و طنزآمیز دیوید نوشته شده است، به طور مفصل مراحل ضروری انجام شده در هر خط لوله علم داده تولید یا تجزیه و تحلیل داده را مورد بحث قرار می دهد و شما را برای تجسم داده ها و نتایج مدل سازی آماده می کند.

کتاب به مراحل عملی می پردازد. استفاده از ابزارها و تکنیک های مورد نیاز برای بلع داده ها، تشخیص ناهنجاری، انتساب ارزش و مهندسی ویژگی. همچنین تمرین‌های طولانی‌مدتی را در پایان هر فصل برای تمرین مهارت‌های به‌دست‌آمده ارائه می‌دهد.

شما با مشاهده فرمت‌های داده‌ای مانند JSON، CSV، SQL RDBMSes، HDF5، پایگاه‌های داده NoSQL شروع خواهید کرد. ، فایل ها در قالب های تصویری و ساختارهای داده سریالی باینری. علاوه بر این، این کتاب مجموعه داده‌ها و فایل‌های داده‌ای نمونه‌های متعددی را ارائه می‌کند که برای دانلود و کاوش مستقل در دسترس هستند.

با حرکت از قالب‌ها، مقادیر گمشده را تلقی می‌کنید، داده‌های غیرقابل اعتماد و ناهنجاری‌های آماری را شناسایی می‌کنید، و مصنوعی تولید می‌کنید. ویژگی هایی که برای تجزیه و تحلیل داده ها و اهداف تجسم موفقیت آمیز ضروری هستند.

در پایان این کتاب، شما درک محکمی از فرآیند پاکسازی داده ها لازم برای انجام کارهای علم داده در دنیای واقعی و یادگیری ماشین کسب خواهید کرد. .

آنچه یاد خواهید گرفت

  • تشخیص داده های مشکل مربوط به نقاط داده جداگانه
  • تشخیص داده های مشکل در "شکل" سیستماتیک داده ها< /li>
  • برطرف کردن یکپارچگی داده ها و مشکلات بهداشتی
  • آماده سازی داده ها برای وظایف تحلیلی و یادگیری ماشینی
  • مقادیر را به داده های گمشده یا غیرقابل اعتماد وارد کنید
  • تولید مصنوعی ویژگی‌هایی که بیشتر با علم داده، تجزیه و تحلیل داده‌ها، یا اهداف تجسم سازگار هستند.

این کتاب برای چه کسی است

این کتاب برای بهره‌مندی از توسعه‌دهندگان نرم‌افزار، دانشمندان داده طراحی شده است. ، دانشمندان مشتاق داده و دانشجویانی که به تجزیه و تحلیل داده ها یا محاسبات علمی علاقه مند هستند.

آشنایی اولیه با آمار، مفاهیم کلی در یادگیری ماشین، دانش یک زبان برنامه نویسی (پایتون یا R)، و مقداری قرار گرفتن در معرض علم داده مفید است. یک واژه نامه، منابع، و نکات دوستانه باید به سرعت بخشیدن به همه خوانندگان کمک کند.

این متن همچنین برای دانشمندان داده متوسط ​​و پیشرفته که می‌خواهند دقت خود را در بهداشت داده‌ها بهبود بخشند و مایل به تجدید نظر هستند مفید خواهد بود. در مورد مسائل آماده سازی داده ها.


توضیحاتی درمورد کتاب به خارجی

A comprehensive guide for data scientists to master effective data cleaning tools and techniques

Key Features

  • Master data cleaning techniques in a language-agnostic manner
  • Learn from intriguing hands-on examples from numerous domains, such as biology, weather data, demographics, physics, time series, and image processing
  • Work with detailed, commented, well-tested code samples in Python and R

Book Description

It is something of a truism in data science, data analysis, or machine learning that most of the effort needed to achieve your actual purpose lies in cleaning your data. Written in David’s signature friendly and humorous style, this book discusses in detail the essential steps performed in every production data science or data analysis pipeline and prepares you for data visualization and modeling results.

The book dives into the practical application of tools and techniques needed for data ingestion, anomaly detection, value imputation, and feature engineering. It also offers long-form exercises at the end of each chapter to practice the skills acquired.

You will begin by looking at data ingestion of data formats such as JSON, CSV, SQL RDBMSes, HDF5, NoSQL databases, files in image formats, and binary serialized data structures. Further, the book provides numerous example data sets and data files, which are available for download and independent exploration.

Moving on from formats, you will impute missing values, detect unreliable data and statistical anomalies, and generate synthetic features that are necessary for successful data analysis and visualization goals.

By the end of this book, you will have acquired a firm understanding of the data cleaning process necessary to perform real-world data science and machine learning tasks.

What you will learn

  • Identify problem data pertaining to individual data points
  • Detect problem data in the systematic “shape” of the data
  • Remediate data integrity and hygiene problems
  • Prepare data for analytic and machine learning tasks
  • Impute values into missing or unreliable data
  • Generate synthetic features that are more amenable to data science, data analysis, or visualization goals.

Who This Book Is For

This book is designed to benefit software developers, data scientists, aspiring data scientists, and students who are interested in data analysis or scientific computing.

Basic familiarity with statistics, general concepts in machine learning, knowledge of a programming language (Python or R), and some exposure to data science are helpful. A glossary, references, and friendly asides should help bring all readers up to speed.

The text will also be helpful to intermediate and advanced data scientists who want to improve their rigor in data hygiene and wish for a refresher on data preparation issues.



فهرست مطالب

Cover
Copyright
Contributors
Table of Contents
Preface
Part I - Data Ingestion
Chapter 1: Tabular Formats
	Tidying Up
	CSV
		Sanity Checks
		The Good, the Bad, and the Textual Data
			The Bad
			The Good
	Spreadsheets Considered Harmful
	SQL RDBMS
		Massaging Data Types
		Repeating in R
		Where SQL Goes Wrong (and How to Notice It)
	Other Formats
		HDF5 and NetCDF-4
			Tools and Libraries
		SQLite
		Apache Parquet
	Data Frames
		Spark/Scala
		Pandas and Derived Wrappers
		Vaex
		Data Frames in R (Tidyverse)
		Data Frames in R (data.table)
		Bash for Fun
	Exercises
		Tidy Data from Excel
		Tidy Data from SQL
	Denouement
Chapter 2: Hierarchical Formats
	JSON
		What JSON Looks Like
		NaN Handling and Data Types
		JSON Lines
		GeoJSON
		Tidy Geography
		JSON Schema
	XML
		User Records
		Keyhole Markup Language
	Configuration Files
		INI and Flat Custom Formats
		TOML
		Yet Another Markup Language
	NoSQL Databases
		Document-Oriented Databases
			Missing Fields
			Denormalization and Its Discontents
		Key/Value Stores
	Exercises
		Exploring Filled Area
		Create a Relational Model
	Denouement
Chapter 3: Repurposing Data Sources
	Web Scraping
		HTML Tables
		Non-Tabular Data
		Command-Line Scraping
	Portable Document Format
	Image Formats
		Pixel Statistics
		Channel Manipulation
		Metadata
	Binary Serialized Data Structures
	Custom Text Formats
		A Structured Log
		Character Encodings
	Exercises
		Enhancing the NPY Parser
		Scraping Web Traffic
		Denouement
Part II - The Vicissitudes of Error
Chapter 4: Anomaly Detection
	Missing Data
		SQL
			Hierarchical Formats
			Sentinels
		Miscoded Data
		Fixed Bounds
		Outliers
			Z-Score
			Interquartile Range
		Multivariate Outliers
		Exercises
			A Famous Experiment
			Misspelled Words
		Denouement
Chapter 5: Data Quality
	Missing Data
	Biasing Trends
		Understanding Bias
		Detecting Bias
		Comparison to Baselines
		Benford’s Law
	Class Imbalance
	Normalization and Scaling
		Applying a Machine Learning Model
		Scaling Techniques
		Factor and Sample Weighting
	Cyclicity and Autocorrelation
		Domain Knowledge Trends
		Discovered Cycles
	Bespoke Validation
		Collation Validation
		Transcription Validation
	Exercises
		Data Characterization
		Oversampled Polls
	Denouement
Part III - Rectification and Creation
Chapter 6: Value Imputation
	Typical-Value Imputation
		Typical Tabular Data
		Locality Imputation
	Trend Imputation
		Types of Trends
		A Larger Coarse Time Series
			Understanding the Data
			Removing Unusable Data
			Imputing Consistency
			Interpolation
		Non-Temporal Trends
	Sampling
		Undersampling
		Oversampling
	Exercises
		Alternate Trend Imputation
		Balancing Multiple Features
	Denouement
Chapter 7: Feature Engineering
	Date/Time Fields
		Creating Datetimes
		Imposing Regularity
		Duplicated Timestamps
		Adding Timestamps
	String Fields
		Fuzzy Matching
		Explicit Categories
	String Vectors
		Decompositions
		Rotation and Whitening
		Dimensionality Reduction
		Visualization
	Quantization and Binarization
	One-Hot Encoding
	Polynomial Features
		Generating Synthetic Features
		Feature Selection
	Exercises
		Intermittent Occurrences
		Characterizing Levels
		Denouement
Part IV - Ancillary Matters
Closure
	What You Know
	What You Don’t Know (Yet)
Glossary
Other Books You May Enjoy
Index




نظرات کاربران