ورود به حساب

نام کاربری گذرواژه

گذرواژه را فراموش کردید؟ کلیک کنید

حساب کاربری ندارید؟ ساخت حساب

ساخت حساب کاربری

نام نام کاربری ایمیل شماره موبایل گذرواژه

برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید


09117307688
09117179751

در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید

دسترسی نامحدود

برای کاربرانی که ثبت نام کرده اند

ضمانت بازگشت وجه

درصورت عدم همخوانی توضیحات با کتاب

پشتیبانی

از ساعت 7 صبح تا 10 شب

دانلود کتاب An Introduction to Duplicate Detection

دانلود کتاب مقدمه ای برای تشخیص تکراری

An Introduction to Duplicate Detection

مشخصات کتاب

An Introduction to Duplicate Detection

ویرایش:  
نویسندگان:   
سری: Synthesis Lectures on Data Management 
ISBN (شابک) : 1608452204, 9781608452200 
ناشر: Morgan & Claypool 
سال نشر: 2010 
تعداد صفحات: 87 
زبان: English 
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) 
حجم فایل: 993 کیلوبایت 

قیمت کتاب (تومان) : 52,000



ثبت امتیاز به این کتاب

میانگین امتیاز به این کتاب :
       تعداد امتیاز دهندگان : 12


در صورت تبدیل فایل کتاب An Introduction to Duplicate Detection به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.

توجه داشته باشید کتاب مقدمه ای برای تشخیص تکراری نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.


توضیحاتی در مورد کتاب مقدمه ای برای تشخیص تکراری

با افزایش روزافزون حجم داده ها، مشکلات کیفیت داده ها فراوان است. نمایش‌های متعدد و در عین حال متفاوت از یک اشیاء واقعی در داده‌ها، تکراری، یکی از جالب‌ترین مشکلات کیفیت داده‌ها هستند. اثرات چنین تکراری مضر است. برای مثال، مشتریان بانک می‌توانند هویت‌های تکراری دریافت کنند، سطوح موجودی به اشتباه نظارت می‌شود، کاتالوگ‌ها چندین بار به یک خانواده پست می‌شوند، و غیره. دوم، در اصل همه جفت رکوردها باید با هم مقایسه شوند، که برای حجم زیاد داده غیرممکن است. این سخنرانی دو مؤلفه اصلی را برای غلبه بر این مشکلات از نزدیک بررسی می کند: (1) اقدامات مشابه برای شناسایی خودکار موارد تکراری هنگام مقایسه دو رکورد استفاده می شود. اقدامات شباهت به خوبی انتخاب شده، اثربخشی تشخیص تکراری را بهبود می بخشد. (ii) الگوریتم‌ها برای انجام بر روی حجم بسیار زیادی از داده‌ها در جستجوی موارد تکراری توسعه یافته‌اند. الگوریتم های خوب طراحی شده، کارایی تشخیص تکراری را بهبود می بخشد. در نهایت، روش‌هایی را برای ارزیابی موفقیت تشخیص تکراری مورد بحث قرار می‌دهیم. فهرست مطالب: پاکسازی داده ها: مقدمه و انگیزه / تعریف مسئله / توابع شباهت / الگوریتم های تشخیص تکراری / ارزیابی موفقیت تشخیص / نتیجه گیری و چشم انداز / کتابشناسی


توضیحاتی درمورد کتاب به خارجی

With the ever increasing volume of data, data quality problems abound. Multiple, yet different representations of the same real-world objects in data, duplicates, are one of the most intriguing data quality problems. The effects of such duplicates are detrimental; for instance, bank customers can obtain duplicate identities, inventory levels are monitored incorrectly, catalogs are mailed multiple times to the same household, etc. Automatically detecting duplicates is difficult: First, duplicate representations are usually not identical but slightly differ in their values. Second, in principle all pairs of records should be compared, which is infeasible for large volumes of data. This lecture examines closely the two main components to overcome these difficulties: (i) Similarity measures are used to automatically identify duplicates when comparing two records. Well-chosen similarity measures improve the effectiveness of duplicate detection. (ii) Algorithms are developed to perform on very large volumes of data in search for duplicates. Well-designed algorithms improve the efficiency of duplicate detection. Finally, we discuss methods to evaluate the success of duplicate detection. Table of Contents: Data Cleansing: Introduction and Motivation / Problem Definition / Similarity Functions / Duplicate Detection Algorithms / Evaluating Detection Success / Conclusion and Outlook / Bibliography



فهرست مطالب

Data Cleansing: Introduction and Motivation......Page 11
Data Quality Dimensions......Page 13
Data Cleansing......Page 14
Causes for Duplicates......Page 15
Intra-Source Duplicates......Page 16
Inter-Source Duplicates......Page 17
Customer Relationship Management......Page 18
Scientific Databases......Page 19
Data Spaces and Linked Open Data......Page 20
Lecture Overview......Page 21
Formal Definition......Page 23
Complexity Analysis......Page 26
Data Model......Page 28
Challenges of Data with Complex Relationships......Page 30
Similarity Functions......Page 33
Jaccard Coefficient......Page 34
Cosine Similarity Using Token Frequency and Inverse Document Frequency......Page 36
Similarity Based on Tokenization Using q-grams......Page 39
Edit Distance Measures......Page 40
Jaro and Jaro-Winkler Distance......Page 42
Extended Jaccard Similarity......Page 44
Monge-Elkan Measure......Page 45
Soft TF/IDF......Page 46
Measures for Data with Complex Relationships......Page 47
Other Similarity Measures......Page 49
Equational Theory......Page 50
Duplicate Profiles......Page 52
Blocking......Page 53
Sorted-Neighborhood......Page 55
Comparison......Page 57
Hierarchical Relationships......Page 58
Relationships Forming a Graph......Page 59
Clustering Based on the Duplicate Pair Graph......Page 62
Clustering Adjusting to Data & Cluster Characteristics......Page 66
Precision and Recall......Page 71
Real-World Data Sets......Page 75
Synthetic Data Sets......Page 76
Towards a Duplicate Detection Benchmark......Page 77
Conclusion and Outlook......Page 79
Bibliography......Page 81
Authors' Biographies......Page 87




نظرات کاربران