دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
دسته بندی: سایبرنتیک: هوش مصنوعی ویرایش: نویسندگان: Csaba Szepesvári سری: Synthesis Lectures on Artificial Intelligence and Machine Learning ISBN (شابک) : 1608454924, 9781608454921 ناشر: Morgan & Claypool سال نشر: 2010 تعداد صفحات: 103 زبان: English فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) حجم فایل: 2 مگابایت
در صورت ایرانی بودن نویسنده امکان دانلود وجود ندارد و مبلغ عودت داده خواهد شد
کلمات کلیدی مربوط به کتاب الگوریتم های یادگیری تقویتی: انفورماتیک و مهندسی کامپیوتر، هوش مصنوعی
در صورت تبدیل فایل کتاب Algorithms for Reinforcement Learning به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب الگوریتم های یادگیری تقویتی نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
یادگیری تقویتی یک الگوی یادگیری است که مربوط به یادگیری کنترل یک سیستم به منظور به حداکثر رساندن معیار عملکرد عددی است که یک هدف بلند مدت را بیان می کند. آنچه یادگیری تقویتی را از یادگیری نظارت شده متمایز می کند این است که فقط بازخورد جزئی در مورد پیش بینی های یادگیرنده به یادگیرنده داده می شود. . علاوه بر این، پیشبینیها ممکن است از طریق تأثیرگذاری بر وضعیت آینده سیستم کنترلشده، اثرات بلندمدتی داشته باشند. بنابراین زمان نقش ویژه ای ایفا می کند. هدف در یادگیری تقویتی توسعه الگوریتم های یادگیری کارآمد و همچنین درک محاسن و محدودیت های الگوریتم ها است. یادگیری تقویتی به دلیل تعداد زیاد کاربردهای عملی که می توان از آن برای رسیدگی به آنها استفاده کرد، از مشکلات در هوش مصنوعی گرفته تا تحقیقات عملیات یا مهندسی کنترل، بسیار مورد توجه است. در این کتاب، ما بر روی آن دسته از الگوریتمهای یادگیری تقویتی تمرکز میکنیم که مبتنی بر نظریه قدرتمند برنامهنویسی پویا هستند. فهرستی نسبتاً جامع از مشکلات یادگیری ارائه میکنیم، ایدههای اصلی را توصیف میکنیم، تعداد زیادی از الگوریتمهای پیشرفته را یادداشت میکنیم و به دنبال آن بحث در مورد خواص و محدودیت های نظری آنها.
Reinforcement learning is a learning paradigm concerned with learning to control a system so as to maximize a numerical performance measure that expresses a long-term objective.What distinguishes reinforcement learning from supervised learning is that only partial feedback is given to the learner about the learner's predictions. Further, the predictions may have long term effects through influencing the future state of the controlled system. Thus, time plays a special role. The goal in reinforcement learning is to develop efficient learning algorithms, as well as to understand the algorithms' merits and limitations. Reinforcement learning is of great interest because of the large number of practical applications that it can be used to address, ranging from problems in artificial intelligence to operations research or control engineering. In this book, we focus on those algorithms of reinforcement learning that build on the powerful theory of dynamic programming.We give a fairly comprehensive catalog of learning problems, describe the core ideas, note a large number of state of the art algorithms, followed by the discussion of their theoretical properties and limitations.
Preface......Page 9
Acknowledgments......Page 13
Markov Decision Processes......Page 15
Value functions......Page 20
Dynamic programming algorithms for solving MDPs......Page 24
Tabular TD(0)......Page 25
Every-visit Monte-Carlo......Page 28
TD(): Unifying Monte-Carlo and TD(0)......Page 30
Algorithms for large state spaces......Page 32
TD() with function approximation......Page 36
Gradient temporal difference learning......Page 39
Least-squares methods......Page 41
The choice of the function space......Page 47
A catalog of learning problems......Page 51
Online learning in bandits......Page 52
Active learning in bandits......Page 54
Active learning in Markov Decision Processes......Page 55
Online learning in Markov Decision Processes......Page 56
Q-learning in finite MDPs......Page 61
Q-learning with function approximation......Page 63
Actor-critic methods......Page 66
Implementing a critic......Page 68
Implementing an actor......Page 70
Applications......Page 77
Software......Page 78
Contractions and Banach's fixed-point theorem......Page 79
Application to MDPs......Page 83
Bibliography......Page 87
Author's Biography......Page 103