دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش:
نویسندگان: Venkatesh Ganti. Anish Das Sarma
سری: Synthesis Lectures on Data Management
ISBN (شابک) : 9781608456789
ناشر: Morgan & Claypool
سال نشر: 2013
تعداد صفحات: 72
زبان: english
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 699 کیلوبایت
در صورت تبدیل فایل کتاب Data Cleaning. A Practical Perspective به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب پاکسازی داده ها یک دیدگاه عملی نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
انبارهای داده فعالیت های مختلف یک کسب و کار را ادغام می کنند و اغلب ستون فقرات تولید گزارش هایی را تشکیل می دهند که از تصمیمات تجاری مهم پشتیبانی می کنند. خطاها در داده ها به دلایل مختلفی رخ می دهند. برخی از این دلایل عبارتند از خطا در جمع آوری داده های ورودی و خطا در هنگام ادغام داده های جمع آوری شده به طور مستقل در پایگاه های داده مختلف. این خطاها در انبارهای داده اغلب منجر به گزارش های بالادستی اشتباه می شود و می تواند بر تصمیمات تجاری تأثیر منفی بگذارد. بنابراین، یکی از چالشهای حیاتی در حین نگهداری انبارهای داده بزرگ، اطمینان از بالا ماندن کیفیت دادهها در انبار داده است. فرآیند حفظ کیفیت داده بالا معمولاً به عنوان تمیز کردن داده ها شناخته می شود. در این کتاب ابتدا به اهداف پاکسازی داده ها می پردازیم. اغلب، اهداف پاکسازی داده ها به خوبی تعریف نشده است و می تواند به معنای راه حل های متفاوت در سناریوهای مختلف باشد. برای روشن شدن این اهداف، مجموعهای از وظایف تمیز کردن دادهها را که اغلب نیاز به رسیدگی دارند، خلاصه میکنیم. این انتزاع به ما امکان می دهد راه حل هایی را برای این وظایف رایج پاکسازی داده ها توسعه دهیم. سپس چند رویکرد رایج برای توسعه چنین راه حل هایی را مورد بحث قرار می دهیم. به طور خاص، ما بر روی یک رویکرد اپراتور محور برای توسعه یک پلت فرم تمیز کردن داده ها تمرکز می کنیم. رویکرد اپراتور محور شامل توسعه اپراتورهای قابل تنظیم است که می توانند به عنوان بلوک های سازنده برای توسعه راه حل های مشترک استفاده شوند. این شبیه به رویکرد جبر رابطه ای برای پردازش پرس و جو است. مجموعه اصلی عملگرها را می توان برای ساخت پرس و جوهای پیچیده کنار هم قرار داد. در نهایت، ما توسعه اسکریپتهای سفارشی را مورد بحث قرار میدهیم که از اپراتورهای اصلی پاکسازی دادهها همراه با اپراتورهای رابطهای برای پیادهسازی راهحلهای مؤثر برای وظایف پاکسازی دادهها استفاده میکنند.
Data warehouses consolidate various activities of a business and often form the backbone for generating reports that support important business decisions. Errors in data tend to creep in for a variety of reasons. Some of these reasons include errors during input data collection and errors while merging data collected independently across different databases. These errors in data warehouses often result in erroneous upstream reports, and could impact business decisions negatively. Therefore, one of the critical challenges while maintaining large data warehouses is that of ensuring the quality of data in the data warehouse remains high. The process of maintaining high data quality is commonly referred to as data cleaning. In this book, we first discuss the goals of data cleaning. Often, the goals of data cleaning are not well defined and could mean different solutions in different scenarios. Toward clarifying these goals, we abstract out a common set of data cleaning tasks that often need to be addressed. This abstraction allows us to develop solutions for these common data cleaning tasks. We then discuss a few popular approaches for developing such solutions. In particular, we focus on an operator-centric approach for developing a data cleaning platform. The operator-centric approach involves the development of customizable operators that could be used as building blocks for developing common solutions. This is similar to the approach of relational algebra for query processing. The basic set of operators can be put together to build complex queries. Finally, we discuss the development of custom scripts which leverage the basic data cleaning operators along with relational operators to implement effective solutions for data cleaning tasks.