دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش: [2 ed.] نویسندگان: Hyeong Soo Chang, Jiaqiao Hu, Michael C. Fu, Steven I. Marcus (auth.) سری: Communications and Control Engineering ISBN (شابک) : 9781447150213, 9781447150220 ناشر: Springer-Verlag London سال نشر: 2013 تعداد صفحات: 229 [240] زبان: English فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) حجم فایل: 3 Mb
در صورت تبدیل فایل کتاب Simulation-Based Algorithms for Markov Decision Processes به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب الگوریتم های شبیه سازی شده برای فرایندهای تصمیم گیری مارکوف نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
مدلهای فرآیند تصمیم مارکوف (MDP) به طور گسترده برای مدلسازی
مشکلات تصمیمگیری متوالی که در مهندسی، اقتصاد، علوم کامپیوتر
و علوم اجتماعی به وجود میآیند استفاده میشوند. بسیاری از
مسائل دنیای واقعی که توسط MDPها مدلسازی شدهاند، دارای
فضاهای حالت و/یا عمل بزرگی هستند که به نفرین ابعاد گشوده
میشوند و بنابراین راهحل عملی مدلهای حاصل را غیرقابل حل
میکنند. در موارد دیگر، سیستم مورد نظر آنقدر پیچیده است که
اجازه نمی دهد مشخصات صریح برخی از پارامترهای مدل MDP را مشخص
کند، اما نمونه های شبیه سازی به آسانی در دسترس هستند (به
عنوان مثال، برای انتقال های تصادفی و هزینه ها). برای این
تنظیمات، الگوریتمهای نمونهگیری و مبتنی بر جمعیت مختلف برای
غلبه بر مشکلات محاسبه یک راهحل بهینه از نظر یک خط مشی و/یا
تابع مقدار توسعه داده شدهاند. رویکردهای خاص عبارتند از نمونه
گیری تطبیقی، تکرار خط مشی تکاملی، جستجوی خط مشی تصادفی
تکاملی، و جستجوی تطبیقی مرجع مدل.
این نسخه جدید به طور قابل ملاحظهای بزرگشده، آخرین پیشرفتها
در الگوریتمهای جدید و نظریههای زیربنایی آنها را منعکس
میکند و گزارشی بهروز از موضوعاتی را ارائه میدهد که از زمان
انتشار اولین نسخه پدیدار شدهاند. شامل موارد زیر است:
مواد ابتکاری در MDP ها، هم در تنظیمات محدود و هم با ویژگی های
انتقال نامشخص.
روش تئوری بازی برای حل MDP;
تئوری ها برای توسعه الگوریتم های مبتنی بر رول-out; و
جزئیات بازپخت تصادفی تقریبی، یک الگوریتم مبتنی بر شبیهسازی
آنلاین مبتنی بر جمعیت.
رویکرد مستقل این کتاب نه تنها برای محققان MDP، مدلسازی
تصادفی، و کنترل و شبیهسازی جذاب خواهد بود، بلکه منبع
ارزشمندی برای آموزش و مرجع برای دانشجویان تحقیقات کنترل و
عملیات خواهد بود.
Markov decision process (MDP) models are widely used for
modeling sequential decision-making problems that arise in
engineering, economics, computer science, and the social
sciences. Many real-world problems modeled by MDPs have huge
state and/or action spaces, giving an opening to the curse of
dimensionality and so making practical solution of the
resulting models intractable. In other cases, the system of
interest is too complex to allow explicit specification of
some of the MDP model parameters, but simulation samples are
readily available (e.g., for random transitions and costs).
For these settings, various sampling and population-based
algorithms have been developed to overcome the difficulties
of computing an optimal solution in terms of a policy and/or
value function. Specific approaches include adaptive
sampling, evolutionary policy iteration, evolutionary random
policy search, and model reference adaptive search.
This substantially enlarged new edition reflects the latest
developments in novel algorithms and their underpinning
theories, and presents an updated account of the topics that
have emerged since the publication of the first edition.
Includes:
innovative material on MDPs, both in constrained settings and
with uncertain transition properties;
game-theoretic method for solving MDPs;
theories for developing roll-out based algorithms; and
details of approximation stochastic annealing, a
population-based on-line simulation-based algorithm.
The self-contained approach of this book will appeal not only
to researchers in MDPs, stochastic modeling, and control, and
simulation but will be a valuable source of tuition and
reference for students of control and operations research.
Simulation-Based Algorithms for Markov Decision Processes Preface to the 2nd Edition Contents Selected Notation and Abbreviations Chapter 1: Markov Decision Processes 1.1 Optimality Equations 1.2 Policy Iteration and Value Iteration 1.3 Rolling-Horizon Control 1.4 Survey of Previous Work on Computational Methods 1.5 Simulation 1.6 Preview of Coming Attractions 1.7 Notes Chapter 2: Multi-stage Adaptive Sampling Algorithms 2.1 Upper Confidence Bound Sampling 2.1.1 Regret Analysis in Multi-armed Bandits 2.1.2 Algorithm Description 2.1.3 Alternative Estimators 2.1.4 Convergence Analysis 2.1.5 Numerical Example 2.2 Pursuit Learning Automata Sampling 2.2.1 Algorithm Description 2.2.2 Convergence Analysis 2.2.3 Application to POMDPs 2.2.4 Numerical Example 2.3 Notes Chapter 3: Population-Based Evolutionary Approaches 3.1 Evolutionary Policy Iteration 3.1.1 Policy Switching 3.1.2 Policy Mutation and Population Generation 3.1.3 Stopping Rule 3.1.4 Convergence Analysis 3.1.5 Parallelization 3.2 Evolutionary Random Policy Search 3.2.1 Policy Improvement with Reward Swapping 3.2.2 Exploration 3.2.3 Convergence Analysis 3.3 Numerical Examples 3.3.1 A One-Dimensional Queueing Example 3.3.1.1 Discrete Action Space 3.3.1.2 Continuous Action Space 3.3.2 A Two-Dimensional Queueing Example 3.4 Extension to Simulation-Based Setting 3.5 Notes Chapter 4: Model Reference Adaptive Search 4.1 The Model Reference Adaptive Search Method 4.1.1 The MRAS0 Algorithm (Idealized Version) 4.1.1.1 Natural Exponential Family 4.1.2 The MRAS1 Algorithm (Adaptive Monte Carlo Version) 4.1.3 The MRAS2 Algorithm (Stochastic Optimization) 4.2 Convergence Analysis of MRAS 4.2.1 MRAS0 Convergence 4.2.2 MRAS1 Convergence 4.2.3 MRAS2 Convergence 4.3 Application of MRAS to MDPs via Direct Policy Learning 4.3.1 Finite-Horizon MDPs 4.3.2 Infinite-Horizon MDPs 4.3.3 MDPs with Large State Spaces 4.3.4 Numerical Examples 4.3.4.1 An Inventory Control Example 4.3.4.2 A Controlled Queueing Example 4.3.4.3 An Inventory Control Problem with Continuous Demand 4.4 Application of MRAS to Infinite-Horizon MDPs in Population-Based Evolutionary Approaches 4.4.1 Algorithm Description 4.4.2 Numerical Examples 4.5 Application of MRAS to Finite-Horizon MDPs Using Adaptive Sampling 4.6 A Stochastic Approximation Framework 4.6.1 Model-Based Annealing Random Search 4.6.1.1 Global Convergence of MARS1 4.6.1.2 Asymptotic Normality of MARS1 4.6.2 Application of MARS to Finite-Horizon MDPs 4.6.2.1 Convergence Analysis 4.6.2.2 A Numerical Example 4.7 Notes Chapter 5: On-Line Control Methods via Simulation 5.1 Simulated Annealing Multiplicative Weights Algorithm 5.1.1 Basic Algorithm Description 5.1.2 Convergence Analysis 5.1.3 Convergence of the Sampling Version of the Algorithm 5.1.4 Numerical Example 5.1.5 Simulated Policy Switching 5.2 Rollout 5.2.1 Parallel Rollout 5.3 Hindsight Optimization 5.3.1 Numerical Example 5.4 Approximate Stochastic Annealing 5.4.1 Convergence Analysis 5.4.2 Numerical Example 5.5 Notes References Index