دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش: [1 ed.] نویسندگان: Khaled El Emam, Lucy Mosquera, Richard Hoptroff سری: ISBN (شابک) : 1492072745, 9781492072744 ناشر: O'Reilly Media سال نشر: 2020 تعداد صفحات: 166 زبان: English فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) حجم فایل: 11 Mb
در صورت تبدیل فایل کتاب Practical Synthetic Data Generation: Balancing Privacy and the Broad Availability of Data به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب تولید داده مصنوعی عملی: متعادل کردن حریم خصوصی و در دسترس بودن گسترده داده ها نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
ساخت و آزمایش مدل های یادگیری ماشینی نیازمند دسترسی به داده های بزرگ و متنوع است. اما کجا می توانید مجموعه داده های قابل استفاده را بدون مواجه شدن با مسائل حریم خصوصی پیدا کنید؟ این کتاب کاربردی تکنیکهایی را برای تولید دادههای مصنوعی - دادههای جعلی تولید شده از دادههای واقعی - معرفی میکند تا بتوانید تجزیه و تحلیل ثانویه را برای انجام تحقیق، درک رفتارهای مشتری، توسعه محصولات جدید یا ایجاد درآمد جدید انجام دهید. دانشمندان داده یاد خواهند گرفت که چگونه تولید داده های مصنوعی راهی برای در دسترس قرار دادن چنین داده هایی به طور گسترده برای اهداف ثانویه فراهم می کند و در عین حال به بسیاری از نگرانی های مربوط به حریم خصوصی رسیدگی می کند. تحلیلگران اصول و مراحل تولید داده های مصنوعی از مجموعه داده های واقعی را یاد خواهند گرفت. و رهبران کسب و کار خواهند دید که چگونه داده های مصنوعی می توانند به سرعت بخشیدن به زمان رسیدن به یک محصول یا راه حل کمک کنند. این کتاب شرح می دهد: • مراحل تولید داده های مصنوعی با استفاده از توزیع های نرمال چند متغیره • روشهایی برای برازش توزیع که معیارهای مختلف خوبی را پوشش میدهند • چگونه ساختار ساده داده های اصلی را تکرار کنیم • رویکردی برای مدلسازی ساختار داده برای در نظر گرفتن روابط پیچیده • رویکردها و معیارهای متعددی که می توانید برای ارزیابی سودمندی داده ها استفاده کنید • چگونه تجزیه و تحلیل انجام شده بر روی داده های واقعی را می توان با داده های مصنوعی تکرار کرد • مفاهیم حریم خصوصی داده های مصنوعی و روش های ارزیابی افشای هویت
Building and testing machine learning models requires access to large and diverse data. But where can you find usable datasets without running into privacy issues? This practical book introduces techniques for generating synthetic data—fake data generated from real data—so you can perform secondary analysis to do research, understand customer behaviors, develop new products, or generate new revenue. Data scientists will learn how synthetic data generation provides a way to make such data broadly available for secondary purposes while addressing many privacy concerns. Analysts will learn the principles and steps for generating synthetic data from real datasets. And business leaders will see how synthetic data can help accelerate time to a product or solution. This book describes: • Steps for generating synthetic data using multivariate normal distributions • Methods for distribution fitting covering different goodness-of-fit metrics • How to replicate the simple structure of original data • An approach for modeling data structure to consider complex relationships • Multiple approaches and metrics you can use to assess data utility • How analysis performed on real data can be replicated with synthetic data • Privacy implications of synthetic data and methods to assess identity disclosure
Cover Copyright Table of Contents Preface Conventions Used in This Book O’Reilly Online Learning How to Contact Us Acknowledgments Chapter 1. Introducing Synthetic Data Generation Defining Synthetic Data Synthesis from Real Data Synthesis Without Real Data Synthesis and Utility The Benefits of Synthetic Data Efficient Access to Data Enabling Better Analytics Synthetic Data as a Proxy Learning to Trust Synthetic Data Synthetic Data Case Studies Manufacturing and Distribution Healthcare Financial Services Transportation Summary Chapter 2. Implementing Data Synthesis When to Synthesize Identifiability Spectrum Trade-Offs in Selecting PETs to Enable Data Access Decision Criteria PETs Considered Decision Framework Examples of Applying the Decision Framework Data Synthesis Projects Data Synthesis Steps Data Preparation The Data Synthesis Pipeline Synthesis Program Management Summary Chapter 3. Getting Started: Distribution Fitting Framing Data How Data Is Distributed Fitting Distributions to Real Data Generating Synthetic Data from a Distribution Measuring How Well Synthetic Data Fits a Distribution The Overfitting Dilemma A Little Light Weeding Summary Chapter 4. Evaluating Synthetic Data Utility Synthetic Data Utility Framework: Replication of Analysis Synthetic Data Utility Framework: Utility Metrics Comparing Univariate Distributions Comparing Bivariate Statistics Comparing Multivariate Prediction Models Distinguishability Summary Chapter 5. Methods for Synthesizing Data Generating Synthetic Data from Theory Sampling from a Multivariate Normal Distribution Inducing Correlations with Specified Marginal Distributions Copulas with Known Marginal Distributions Generating Realistic Synthetic Data Fitting Real Data to Known Distributions Using Machine Learning to Fit the Distributions Hybrid Synthetic Data Machine Learning Methods Deep Learning Methods Synthesizing Sequences Summary Chapter 6. Identity Disclosure in Synthetic Data Types of Disclosure Identity Disclosure Learning Something New Attribute Disclosure Inferential Disclosure Meaningful Identity Disclosure Defining Information Gain Bringing It All Together Unique Matches How Privacy Law Impacts the Creation and Use of Synthetic Data Issues Under the GDPR Issues Under the CCPA Issues Under HIPAA Article 29 Working Party Opinion Summary Chapter 7. Practical Data Synthesis Managing Data Complexity For Every Pre-Processing Step There Is a Post-Processing Step Field Types The Need for Rules Not All Fields Have to Be Synthesized Synthesizing Dates Synthesizing Geography Lookup Fields and Tables Missing Data and Other Data Characteristics Partial Synthesis Organizing Data Synthesis Computing Capacity A Toolbox of Techniques Synthesizing Cohorts Versus Full Datasets Continuous Data Feeds Privacy Assurance as Certification Performing Validation Studies to Get Buy-In Motivated Intruder Tests Who Owns Synthetic Data? Conclusions Index About the Authors Colophon