ورود به حساب

نام کاربری گذرواژه

گذرواژه را فراموش کردید؟ کلیک کنید

حساب کاربری ندارید؟ ساخت حساب

ساخت حساب کاربری

نام نام کاربری ایمیل شماره موبایل گذرواژه

برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید


09117307688
09117179751

در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید

دسترسی نامحدود

برای کاربرانی که ثبت نام کرده اند

ضمانت بازگشت وجه

درصورت عدم همخوانی توضیحات با کتاب

پشتیبانی

از ساعت 7 صبح تا 10 شب

دانلود کتاب Multi-Armed Bandits: Theory and Applications to Online Learning in Networks

دانلود کتاب راهزنان چند مسلح: نظریه و کاربردها برای یادگیری آنلاین در شبکه ها

Multi-Armed Bandits: Theory and Applications to Online Learning in Networks

مشخصات کتاب

Multi-Armed Bandits: Theory and Applications to Online Learning in Networks

ویرایش:  
نویسندگان:   
سری: Synthesis Lectures on Communication Networks 
ISBN (شابک) : 1627056386, 9781627056380 
ناشر: Morgan & Claypool 
سال نشر: 2019 
تعداد صفحات: 167 
زبان: English 
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) 
حجم فایل: 1 مگابایت 

قیمت کتاب (تومان) : 64,000



ثبت امتیاز به این کتاب

میانگین امتیاز به این کتاب :
       تعداد امتیاز دهندگان : 6


در صورت تبدیل فایل کتاب Multi-Armed Bandits: Theory and Applications to Online Learning in Networks به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.

توجه داشته باشید کتاب راهزنان چند مسلح: نظریه و کاربردها برای یادگیری آنلاین در شبکه ها نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.


توضیحاتی در مورد کتاب راهزنان چند مسلح: نظریه و کاربردها برای یادگیری آنلاین در شبکه ها



مشکلات راهزن چند مسلح مربوط به تصمیم گیری متوالی و یادگیری بهینه در محیط های ناشناخته است.

از اولین مشکل راهزن که توسط تامپسون در سال 1933 برای کاربرد آزمایشات بالینی مطرح شد. ، مشکلات راهزنان مورد توجه دائمی جوامع تحقیقاتی متعدد قرار گرفته اند و طیف گسترده ای از کاربردها را در دامنه های مختلف پیدا کرده اند. این کتاب نتایج کلاسیک و توسعه اخیر را در مورد مشکلات راهزنان بیزی و مکرر پوشش می دهد. ما در فصل 1 با مروری اجمالی در مورد تاریخچه مشکلات راهزنان شروع می کنیم، که دو مکتب بیزی و مکرر را در تقابل قرار می دهند و نتایج اساسی و کاربردهای کلیدی را برجسته می کنند. فصل‌های 2 و 4 به ترتیب مدل‌های متعارف بیزی و راهزن مکرر را پوشش می‌دهند. در فصل‌های 3 و 5، انواع اصلی مدل‌های راهزن متعارف را مورد بحث قرار می‌دهیم که به جهت‌های جدید منتهی می‌شوند، تکنیک‌های جدیدی را وارد می‌کنند و کاربردهای این مشکل کلاسیک را گسترش می‌دهند. در فصل 6، چندین مثال کاربردی در شبکه‌های ارتباطی و سیستم‌های اجتماعی-اقتصادی ارائه می‌کنیم، با هدف روشن کردن ارتباطات بین فرمول‌های بیزی و مکرر مشکلات راهزن و اینکه چگونه می‌توان از نتایج ساختاری مربوط به یکی برای دستیابی به راه‌حل‌هایی تحت دیگری استفاده کرد. .


توضیحاتی درمورد کتاب به خارجی

Multi-armed bandit problems pertain to optimal sequential decision making and learning in unknown environments.

Since the first bandit problem posed by Thompson in 1933 for the application of clinical trials, bandit problems have enjoyed lasting attention from multiple research communities and have found a wide range of applications across diverse domains. This book covers classic results and recent development on both Bayesian and frequentist bandit problems. We start in Chapter 1 with a brief overview on the history of bandit problems, contrasting the two schools—Bayesian and frequentis —of approaches and highlighting foundational results and key applications. Chapters 2 and 4 cover, respectively, the canonical Bayesian and frequentist bandit models. In Chapters 3 and 5, we discuss major variants of the canonical bandit models that lead to new directions, bring in new techniques, and broaden the applications of this classical problem. In Chapter 6, we present several representative application examples in communication networks and social-economic systems, aiming to illuminate the connections between the Bayesian and the frequentist formulations of bandit problems and how structural results pertaining to one may be leveraged to obtain solutions under the other.



فهرست مطالب

Preface
Acknowledgments
Introduction
	Multi-Armed Bandit Problems
	An Essential Conflict: Exploration vs. Exploitation
	Two Formulations: Bayesian and Frequentist
		The Bayesian Framework
		The Frequentist Framework
	Notation
Bayesian Bandit Model and Gittins Index
	Markov Decision Processes
		Policy and the Value of a Policy
		Optimality Equation and Dynamic Programming
	The Bayesian Bandit Model
	Gittins Index
		Gittins Index and Forward Induction
		Interpretations of Gittins Index
		The Index Process, Lower Envelop, and Monotonicity of the Stopping Sets
	Optimality of the Gittins Index Policy
	Computing Gittins Index
		Offline Computation
		Online Computation
	Semi-Markov Bandit Processes
Variants of the Bayesian Bandit Model
	Necessary Assumptions for the Index Theorem
		Modeling Assumptions on the Action Space
		Modeling Assumptions on the System Dynamics
		Modeling Assumptions on the Reward Structure
		Modeling Assumptions on the Performance Measure
	Variations in the Action Space
		Multitasking: The Bandit Superprocess Model
		Bandits with Precedence Constraints
		Open Bandit Processes
	Variations in the System Dynamics
		The Restless Bandit Model
		Indexability and Whittle Index
		Optimality of Whittle Index Policy
		Computational Approaches to Restless Bandits
	Variations in the Reward Structure
		Bandits with Rewards under Passivity
		Bandits with Switching Cost and Switching Delay
	Variations in Performance Measure
		Stochastic Shortest Path Bandit
		Average-Reward and Sensitive-Discount Criteria
		Finite-Horizon Criterion: Bandits with Deadlines
Frequentist Bandit Model
	Basic Formulations and Regret Measures
		Uniform Dominance vs. Minimax
		Problem-Specific Regret and Worst-Case Regret
		Reward Distribution Families and Admissible Policy Classes
	Lower Bounds on Regret
		The Problem-Specific Regret
		The Minimax Regret
	Online Learning Algorithms
		Asymptotically Optimal Policies
		Order-Optimal Policies
	Connections between Bayesian and Frequentist Bandit Models
		Frequentist Approaches to Bayesian Bandits
		Bayesian Approaches to Frequentist Bandits
Variants of the Frequentist Bandit Model
	Variations in the Reward Model
		Rested Markov Reward Processes
		Restless Markov Reward Processes
		Nonstationary Reward Processes
		Nonstochastic Reward Processes: Adversarial Bandits
	Variations in the Action Space
		Large-Scale Bandits with Structured Action Space
		Constrained Action Space
	Variations in the Observation Model
		Full-Information Feedback: The Expert Setting
		Graph-Structured Feedback: Bandits with Side Observations
		Constrained and Controlled Feedback: Label-Efficient Bandits
		Comparative Feedback: Dueling Bandits
	Variations in the Performance Measure
		Risk-Averse Bandits
		Pure-Exploration Bandits: Active Inference
	Learning in Context: Bandits with Side Information
	Learning under Competition: Bandits with Multiple Players
		Centralized Learning
		Distributed Learning
Application Examples
	Communication and Computer Networks
		Dynamic Multichannel Access
		Adaptive Routing under Unknown Link States
		Heavy Hitter and Hierarchical Heavy Hitter Detection
	Social-Economic Networks
		Dynamic Pricing and the Pursuit of Complete Learning
		Web Search, Ads Display, and Recommendation Systems: Learning to Rank
Bibliography
Author\'s Biography
Blank Page




نظرات کاربران