دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
دسته بندی: سایبرنتیک: هوش مصنوعی ویرایش: 1 نویسندگان: Lucian Busoniu, Robert Babuska, Bart De Schutter, Damien Ernst سری: ISBN (شابک) : 1439821089, 9781439821091 ناشر: سال نشر: 2010 تعداد صفحات: 275 زبان: English فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) حجم فایل: 8 مگابایت
در صورت ایرانی بودن نویسنده امکان دانلود وجود ندارد و مبلغ عودت داده خواهد شد
کلمات کلیدی مربوط به کتاب یادگیری تقویتی و برنامه نویسی پویا با استفاده از تقریب عملکرد (مهندسی اتوماسیون و کنترل): انفورماتیک و مهندسی کامپیوتر، هوش مصنوعی
در صورت تبدیل فایل کتاب Reinforcement Learning and Dynamic Programming Using Function Approximators (Automation and Control Engineering) به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب یادگیری تقویتی و برنامه نویسی پویا با استفاده از تقریب عملکرد (مهندسی اتوماسیون و کنترل) نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
از لوازم خانگی گرفته تا کاربردها در رباتیک، سیستم های مهندسی شده که دینامیک پیچیده را شامل می شوند، تنها می توانند به اندازه الگوریتم هایی که آنها را کنترل می کنند مؤثر باشند. در حالی که برنامهنویسی پویا (DP) راهی برای حل بهینه مسائل تصمیمگیری و کنترل مربوط به سیستمهای دینامیکی پیچیده در اختیار محققان قرار داده است، ارزش عملی آن توسط الگوریتمهایی که فاقد ظرفیت مقیاسسازی تا مسائل واقعی هستند، محدود شده است. با این حال، در سالهای اخیر، پیشرفتهای چشمگیر در یادگیری تقویتی (RL)، همتای بدون مدل DP، درک ما را از آنچه ممکن است تغییر داد. این پیشرفتها منجر به ایجاد روشهای قابل اعتمادی شد که میتوان آنها را حتی زمانی که یک مدل ریاضی از سیستم در دسترس نیست، به کار برد، و به محققان این امکان را میدهد تا مسائل کنترل چالشبرانگیز را در مهندسی، و همچنین در رشتههای مختلف دیگر، از جمله اقتصاد، پزشکی، حل کنند. هوش مصنوعی یادگیری تقویتی و برنامهنویسی پویا با استفاده از تقریبکنندههای تابع، کاوشی جامع و بینظیر در زمینه RL و DP فراهم میکند. با تمرکز بر مسائل متغیر پیوسته، این متن اصلی به جزئیات تحولات اساسی میپردازد که در دهه گذشته این زمینه را بهطور اساسی تغییر دادهاند. در صفحات خود، کارشناسان پیشگام، مقدمه ای مختصر بر RL و DP کلاسیک ارائه می دهند، و به دنبال آن روش های پیشرفته و جدید در RL و DP با تقریب ارائه می شود. آنها با ترکیب توسعه الگوریتم با تضمین های نظری، کار خود را با مثال های گویا و مقایسه های روشنگر توضیح می دهند. سه فصل جداگانه به الگوریتم های نماینده از هر یک از کلاس های اصلی تکنیک ها اختصاص داده شده است: تکرار ارزش، تکرار خط مشی و جستجوی خط مشی. ویژگی ها و عملکرد این الگوریتم ها در مطالعات تجربی گسترده بر روی طیف وسیعی از کاربردهای کنترل برجسته شده است. توسعه اخیر برنامه های کاربردی شامل سیستم های پیچیده منجر به افزایش علاقه به روش های RL و DP و نیاز بعدی به یک منبع با کیفیت در این زمینه شده است. برای دانشجویان فارغ التحصیل و سایر افراد تازه وارد در این زمینه، این کتاب مقدمه ای کامل بر اصول و روش های نوظهور ارائه می دهد. و برای آن دسته از محققین و دست اندرکارانی که در زمینه های کنترل بهینه و تطبیقی، یادگیری ماشین، هوش مصنوعی و تحقیقات عملیاتی کار می کنند، این منبع ترکیبی از الگوریتم های عملی، تجزیه و تحلیل نظری و نمونه های جامعی را ارائه می دهد که آنها قادر به تطبیق و اعمال آن خواهند بود. به کار خودشون برای مطالب بیشتر، از جمله کد رایانه ای مورد استفاده در مطالعات و اطلاعات مربوط به پیشرفت های جدید، به وب سایت نویسندگان به آدرس www.dcsc.tudelft.nl/rlbook/ مراجعه کنید.
From household appliances to applications in robotics, engineered systems involving complex dynamics can only be as effective as the algorithms that control them. While Dynamic Programming (DP) has provided researchers with a way to optimally solve decision and control problems involving complex dynamic systems, its practical value was limited by algorithms that lacked the capacity to scale up to realistic problems. However, in recent years, dramatic developments in Reinforcement Learning (RL), the model-free counterpart of DP, changed our understanding of what is possible. Those developments led to the creation of reliable methods that can be applied even when a mathematical model of the system is unavailable, allowing researchers to solve challenging control problems in engineering, as well as in a variety of other disciplines, including economics, medicine, and artificial intelligence. Reinforcement Learning and Dynamic Programming Using Function Approximators provides a comprehensive and unparalleled exploration of the field of RL and DP. With a focus on continuous-variable problems, this seminal text details essential developments that have substantially altered the field over the past decade. In its pages, pioneering experts provide a concise introduction to classical RL and DP, followed by an extensive presentation of the state-of-the-art and novel methods in RL and DP with approximation. Combining algorithm development with theoretical guarantees, they elaborate on their work with illustrative examples and insightful comparisons. Three individual chapters are dedicated to representative algorithms from each of the major classes of techniques: value iteration, policy iteration, and policy search. The features and performance of these algorithms are highlighted in extensive experimental studies on a range of control applications. The recent development of applications involving complex systems has led to a surge of interest in RL and DP methods and the subsequent need for a quality resource on the subject. For graduate students and others new to the field, this book offers a thorough introduction to both the basics and emerging methods. And for those researchers and practitioners working in the fields of optimal and adaptive control, machine learning, artificial intelligence, and operations research, this resource offers a combination of practical algorithms, theoretical analysis, and comprehensive examples that they will be able to adapt and apply to their own work. Access the authors' website at www.dcsc.tudelft.nl/rlbook/ for additional material, including computer code used in the studies and information concerning new developments.
Contents......Page 9
1. Introduction......Page 12
1.1 The dynamic programming and reinforcement learning problem......Page 13
1.2 Approximation in dynamic programming and reinforcement learning......Page 16
1.3 About this book......Page 19
2.1 Introduction......Page 21
2.2.1 Deterministic setting......Page 24
2.2.2 Stochastic setting......Page 29
2.3.1 Model-based value iteration......Page 33
2.3.2 Model-free value iteration and the need for exploration......Page 38
2.4 Policy iteration......Page 40
2.4.1 Model-based policy iteration......Page 41
2.4.2 Model-free policy iteration......Page 47
2.5 Policy search......Page 48
2.6 Summary and discussion......Page 51
3.1 Introduction......Page 53
3.2 The need for approximation in large and continuous spaces......Page 57
3.3.1 Parametric approximation......Page 59
3.3.2 Nonparametric approximation......Page 61
3.3.3 Comparison of parametric and nonparametric approximation......Page 63
3.4 Approximate value iteration......Page 64
3.4.1 Model-based value iteration with parametric approximation......Page 65
3.4.2 Model-free value iteration with parametric approximation......Page 68
3.4.3 Value iteration with nonparametric approximation......Page 72
3.4.4 Convergence and the role of nonexpansive approximation......Page 73
3.4.5 Example: Approximate Q-iteration for a DC motor......Page 76
3.5 Approximate policy iteration......Page 81
3.5.1 Value iteration-like algorithms for approximate policy evaluation......Page 83
3.5.2 Model-free policy evaluation with linearly parameterized approximation......Page 84
3.5.4 Model-based approximate policy evaluation with rollouts......Page 94
3.5.5 Policy improvement and approximate policy iteration......Page 95
3.5.6 Theoretical guarantees......Page 98
3.5.7 Example: Least-squares policy iteration for a DC motor......Page 100
3.6 Finding value function approximators automatically......Page 105
3.6.1 Basis function optimization......Page 106
3.6.2 Basis function construction......Page 108
3.6.3 Remarks......Page 110
3.7 Approximate policy search......Page 111
3.7.1 Policy gradient and actor-critic algorithms......Page 112
3.7.2 Gradient-free policy search......Page 117
3.7.3 Example: Gradient-free policy search for a DC motor......Page 119
3.8 Comparison of approximate value iteration, policy iteration, and policy search......Page 123
3.9 Summary and discussion......Page 124
4.1 Introduction......Page 127
4.2.1 Approximation and projection mappings of fuzzy Q-iteration......Page 129
4.2.2 Synchronous and asynchronous fuzzy Q-iteration......Page 133
4.3.1 Convergence......Page 137
4.3.2 Consistency......Page 145
4.3.3 Computational complexity......Page 150
4.4.1 A general approach to membership function optimization......Page 151
4.4.2 Cross-entropy optimization......Page 153
4.4.3 Fuzzy Q-iteration with cross-entropy optimization of the membership functions......Page 154
4.5 Experimental study......Page 155
4.5.1 DC motor: Convergence and consistency study......Page 156
4.5.2 Two-link manipulator: Effects of action interpolation, and comparison with fitted Q-iteration......Page 162
4.5.3 Inverted pendulum: Real-time control......Page 167
4.5.4 Car on the hill: Effects of membership function optimization......Page 170
4.6 Summary and discussion......Page 174
5.1 Introduction......Page 176
5.2 A recapitulation of least-squares policy iteration......Page 177
5.3 Online least-squares policy iteration......Page 179
5.4 Online LSPI with prior knowledge......Page 182
5.4.1 Online LSPI with policy approximation......Page 183
5.4.2 Online LSPI with monotonic policies......Page 184
5.5 LSPI with continuous-action, polynomial approximation......Page 186
5.6.1 Online LSPI for the inverted pendulum......Page 189
5.6.2 Online LSPI for the two-link manipulator......Page 201
5.6.3 Online LSPI with prior knowledge for the DC motor......Page 204
5.6.4 LSPI with continuous-action approximation for the inverted pendulum......Page 207
5.7 Summary and discussion......Page 210
6.1 Introduction......Page 214
6.2 Cross-entropy optimization......Page 216
6.3.1 General approach......Page 218
6.3.2 Cross-entropy policy search with radial basis functions......Page 222
6.4.1 Discrete-time double integrator......Page 225
6.4.2 Bicycle balancing......Page 232
6.4.3 Structured treatment interruptions for HIV infection control......Page 238
6.5 Summary and discussion......Page 242
A.1 Structure of the approximator......Page 244
A.2 Building and using a tree......Page 245
B.1 Rare-event simulation using the cross-entropy method......Page 248
B.2 Cross-entropy optimization......Page 251
Symbols and abbreviations......Page 254
Bibliography......Page 258
List of algorithms......Page 275