مشخصات کتاب
Learning Representation and Control in Markov Decision Processes: New Frontiers
دسته بندی: سایبرنتیک: هوش مصنوعی
ویرایش:
نویسندگان: Mahadevan S.
سری:
ناشر:
سال نشر:
تعداد صفحات: 163
زبان: English
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 1 مگابایت
قیمت کتاب (تومان) : 49,000
در صورت ایرانی بودن نویسنده امکان دانلود وجود ندارد و مبلغ عودت داده خواهد شد
کلمات کلیدی مربوط به کتاب بازنمایی و کنترل یادگیری در فرآیندهای تصمیم گیری مارکوف: مرزهای جدید: انفورماتیک و مهندسی کامپیوتر، هوش مصنوعی
میانگین امتیاز به این کتاب :
تعداد امتیاز دهندگان : 21
در صورت تبدیل فایل کتاب Learning Representation and Control in Markov Decision Processes: New Frontiers به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب بازنمایی و کنترل یادگیری در فرآیندهای تصمیم گیری مارکوف: مرزهای جدید نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
توضیحاتی در مورد کتاب بازنمایی و کنترل یادگیری در فرآیندهای تصمیم گیری مارکوف: مرزهای جدید
مبانی و روندها در یادگیری ماشینی издательства NOWPress, 2008,
-163 pp.
این مقاله یک چارچوب
یادگیری ماشین جدید را برای حل مسائل تصمیم گیری متوالی به نام
فرآیندهای تصمیم مارکوف توصیف می کند. (MDPs) با محاسبه تکراری
نمایشهای کمبعد و سیاستهای تقریباً بهینه. یک چارچوب ریاضی
یکپارچه برای بازنمایی یادگیری و کنترل بهینه در MDP ها بر اساس
کلاسی از عملگرهای منفرد به نام Laplacians ارائه شده است که
نمایش های ماتریسی آن دارای عناصر غیرمثبت خارج از مورب و مجموع
ردیف صفر است. راهحلهای دقیق MDPهای تخفیفیافته و با پاداش
متوسط بر حسب یک معکوس طیفی تعمیمیافته لاپلاسین به نام معکوس
درازین بیان میشوند. یک الگوریتم عمومی به نام تکرار سیاست
بازنمایی (RPI) ارائه شده است که نمایشهای کمبعد و سیاستهای
تقریباً بهینه را محاسبه میکند. دو رویکرد برای کاهش ابعاد MDPها
بر اساس منظمسازی هندسی و حساس به پاداش توصیف شدهاند، که به
موجب آن بازنماییهای کمبعدی با قطر یا اتساع عملگرهای لاپلاسی
تشکیل میشوند. انواع مدل مبتنی بر و بدون مدل از الگوریتم RPI
ارائه شده است. آنها همچنین به صورت تجربی بر روی MDP های گسسته و
پیوسته مقایسه می شوند. برخی از مسیرها برای کارهای آینده در
نهایت تشریح شده است.
مقدمه
مشکلات تصمیم متوالی
اپراتورها و MDPهای لاپلاسی
تقریبا فرآیندهای تصمیم گیری مارکوف< br/>اصول کاهش ابعاد
در MDP ها
ساخت پایه: روش های مورب
ساخت پایه: روش های اتساع
تکرار سیاست نمایش مبتنی بر مدل
ساخت پایه در MDP های پیوسته
مدل -تکرار سیاست نمایندگی رایگان
کار مرتبط و چالش های آینده
توضیحاتی درمورد کتاب به خارجی
Из серии Foundations and Trends in Machine Learning
издательства NOWPress, 2008, -163 pp.
This paper describes a novel machine
learning framework for solving sequential decision problems
called Markov decision processes (MDPs) by iteratively
computing low-dimensional representations and approximately
optimal policies. A unified mathematical framework for learning
representation and optimal control in MDPs is presented based
on a class of singular operators called Laplacians, whose
matrix representations have nonpositive off-diagonal elements
and zero row sums. Exact solutions of discounted and
average-reward MDPs are expressed in terms of a generalized
spectral inverse of the Laplacian called the Drazin inverse. A
generic algorithm called representation policy iteration (RPI)
is presented which interleaves computing low-dimensional
representations and approximately optimal policies. Two
approaches for dimensionality reduction of MDPs are described
based on geometric and reward-sensitive regularization, whereby
low-dimensional representations are formed by diagonalization
or dilation of Laplacian operators. Model-based and model-free
variants of the RPI algorithm are presented; they are also
compared experimentally on discrete and continuous MDPs. Some
directions for future work are finally outlined.
Introduction
Sequential Decision Problems
Laplacian Operators and MDPs
Approximating Markov Decision Processes
Dimensionality Reduction Principles in MDPs
Basis Construction: Diagonalization Methods
Basis Construction: Dilation Methods
Model-Based Representation Policy Iteration
Basis Construction in Continuous MDPs
Model-Free Representation Policy Iteration
Related Work and Future Challenges
نظرات کاربران