دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش:
نویسندگان: Miguel Morales
سری:
ISBN (شابک) : 9781617295454
ناشر: Manning Publications
سال نشر: 2020
تعداد صفحات:
زبان: English
فرمت فایل : EPUB (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 21 Mb
در صورت تبدیل فایل کتاب Grokking Deep Reinforcement Learning به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب آموزش تقویت عمیق Grokking نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
آموزش تقویت عمیق Grokking از تمرین های جذاب برای آموزش نحوه ساخت سیستم های یادگیری عمیق استفاده می کند. این کتاب کدهای حاشیه نویسی پایتون را با توضیحات بصری ترکیب می کند تا تکنیک های DRL را بررسی کند. خواهید دید که الگوریتم ها چگونه کار می کنند و یاد می گیرید که عوامل DRL خود را با استفاده از بازخورد ارزیابی توسعه دهید. خلاصه همه ما از طریق آزمون و خطا یاد می گیریم. ما از چیزهایی که باعث رنج و شکست ما می شود اجتناب می کنیم. ما چیزهایی را که به ما پاداش و موفقیت میدهند، در آغوش میگیریم و روی آنها بنا میکنیم. این الگوی رایج پایه و اساس یادگیری تقویتی عمیق است: ساختن سیستم های یادگیری ماشینی که بر اساس پاسخ های محیط کاوش و یاد می گیرند. Grokking Deep Reinforcement Learning این رویکرد یادگیری ماشینی قدرتمند را با استفاده از مثالها، تصاویر، تمرینها و آموزش شفاف معرفی میکند. هنگامی که در این کاوش شگفت انگیز در زمینه مبانی یادگیری تقویتی، تکنیک های یادگیری عمیق موثر و کاربردهای عملی در این زمینه نوظهور جستجو می کنید، آموزش با سرعت عالی و سبک نوشتاری هوشمندانه و جذاب را دوست خواهید داشت. خرید کتاب چاپی شامل یک کتاب الکترونیکی رایگان در قالبهای PDF، Kindle و ePub از انتشارات منینگ است. درباره فناوری که از طریق تعامل با محیط خود می آموزیم و پاداش ها یا تنبیه هایی که تجربه می کنیم رفتار آینده ما را هدایت می کند. یادگیری تقویتی عمیق همان فرآیند طبیعی را به هوش مصنوعی میآورد و نتایج را برای کشف کارآمدترین راهها تجزیه و تحلیل میکند. عوامل DRL میتوانند کمپینهای بازاریابی را بهبود بخشند، عملکرد سهام را پیشبینی کنند و استادان بزرگ را در بازی Go و شطرنج شکست دهند. درباره کتاب Grokking Deep Reinforcement Learning از تمرینهای جذاب برای آموزش نحوه ساخت سیستمهای یادگیری عمیق استفاده میکند. این کتاب کدهای حاشیه نویسی پایتون را با توضیحات بصری ترکیب می کند تا تکنیک های DRL را بررسی کند. خواهید دید که الگوریتم ها چگونه کار می کنند و یاد می گیرید که عوامل DRL خود را با استفاده از بازخورد ارزیابی توسعه دهید. آنچه در داخل است مقدمهای بر یادگیری تقویتی عوامل DRL با رفتارهای انسانمانند استفاده از DRL در موقعیتهای پیچیده درباره خواننده برای توسعهدهندگان با تجربه یادگیری عمیق پایه. درباره نویسنده میگل مورالس روی یادگیری تقویتی در لاکهید مارتین کار می کند و مدرس دوره آموزشی تقویتی و تصمیم گیری موسسه فناوری جورجیا است. فهرست مطالب 1 مقدمه ای بر یادگیری تقویتی عمیق 2 مبانی ریاضی یادگیری تقویتی 3 ایجاد تعادل بین اهداف آنی و بلند مدت 4 تعادل در جمع آوری و استفاده از اطلاعات 5 ارزیابی رفتار عاملان 6 بهبود رفتار عاملان 7 دستیابی به اهداف موثرتر و کارآمدتر 8 مقدمه به یادگیری تقویتی عمیق مبتنی بر ارزش 9 روشهای مبتنی بر ارزش پایدارتر 10 روشهای مبتنی بر ارزش نمونه کارآمد 11 روشهای گرادیان خطمشی و روشهای انتقادی کنشگر 12 روشهای انتقادی بازیگر پیشرفته 13 به سمت هوش عمومی مصنوعی
Grokking Deep Reinforcement Learning uses engaging exercises to teach you how to build deep learning systems. This book combines annotated Python code with intuitive explanations to explore DRL techniques. You’ll see how algorithms function and learn to develop your own DRL agents using evaluative feedback. Summary We all learn through trial and error. We avoid the things that cause us to experience pain and failure. We embrace and build on the things that give us reward and success. This common pattern is the foundation of deep reinforcement learning: building machine learning systems that explore and learn based on the responses of the environment. Grokking Deep Reinforcement Learning introduces this powerful machine learning approach, using examples, illustrations, exercises, and crystal-clear teaching. You\'ll love the perfectly paced teaching and the clever, engaging writing style as you dig into this awesome exploration of reinforcement learning fundamentals, effective deep learning techniques, and practical applications in this emerging field. Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publications. About the technology We learn by interacting with our environment, and the rewards or punishments we experience guide our future behavior. Deep reinforcement learning brings that same natural process to artificial intelligence, analyzing results to uncover the most efficient ways forward. DRL agents can improve marketing campaigns, predict stock performance, and beat grand masters in Go and chess. About the book Grokking Deep Reinforcement Learning uses engaging exercises to teach you how to build deep learning systems. This book combines annotated Python code with intuitive explanations to explore DRL techniques. You’ll see how algorithms function and learn to develop your own DRL agents using evaluative feedback. What\'s inside An introduction to reinforcement learning DRL agents with human-like behaviors Applying DRL to complex situations About the reader For developers with basic deep learning experience. About the author Miguel Morales works on reinforcement learning at Lockheed Martin and is an instructor for the Georgia Institute of Technology’s Reinforcement Learning and Decision Making course. Table of Contents 1 Introduction to deep reinforcement learning 2 Mathematical foundations of reinforcement learning 3 Balancing immediate and long-term goals 4 Balancing the gathering and use of information 5 Evaluating agents’ behaviors 6 Improving agents’ behaviors 7 Achieving goals more effectively and efficiently 8 Introduction to value-based deep reinforcement learning 9 More stable value-based methods 10 Sample-efficient value-based methods 11 Policy-gradient and actor-critic methods 12 Advanced actor-critic methods 13 Toward artificial general intelligence
Краткое содержание Оглавление Предисловие Вступление Благодарности О книге Для кого эта книга Структура издания О коде От издательства Об авторе Глава 1. Введение в глубокое обучение с подкреплением Что такое глубокое обучение с подкреплением Глубокое обучение с подкреплением - это подход к искусственному интеллекту на основе машинного обучения Области искусственного интеллекта Основные направления машинного обучения Глубокое обучение - это мощный инструментарий Глубокое обучение с подкреплением предназначено для создания компьютерных программ Синергия между схожими направлениями Агенты глубокого обучения с подкреплением могут выполнять задачи, требующие наличия интеллекта Граница между агентом и средой Состояния и наблюдения Цикл обучения с подкреплением Агенты глубокого обучения с подкреплением улучшают свое поведение методом проб и ошибок Кортежи опыта Агенты глубокого обучения с подкреплением учатся на последовательной обратной связи Сложность временной задачи присваивания коэффициентов доверия Агенты глубокого обучения с подкреплением учатся на оценочной обратной связи Сложность поиска компромисса между исследованием и эксплуатацией Агенты глубокого обучения с подкреплением учатся на выборочной обратной связи Сложность обучения на основе выборочной обратной связи Агенты глубокого обучения с подкреплением используют мощную аппроксимацию нелинейных функций Простая нейросеть с прямой связью Прошлое, настоящее и будущее глубокого обучения с подкреплением Новейшая история искусственного интеллекта и глубокого обучения с подкреплением Зимы искусственного интеллекта Модель финансирования ИИ на протяжении многих лет Текущее положение дел в сфере искусственного интеллекта Прогресс глубокого обучения с подкреплением Структура TD-Gammon Структура сети Atari DQN Игра го: огромный коэффициент ветвления Перспективы Производственные революции Сингулярность может возникнуть через несколько десятилетий Целесообразность глубокого обучения с подкреплением Преимущества и недостатки Агенты глубокого обучения с подкреплением познают окружающий мир. Можете ли вы позволить себе ошибки? Сильные стороны глубокого обучения с подкреплением Слабые стороны глубокого обучения с подкреплением Агентам глубокого обучения с подкреплением нужно много образцов взаимодействия! Определение четких обоюдных ожиданий Чего ожидать от этой книги Сравнение разных алгоритмических подходов к глубокому обучению с подкреплением Как извлечь из книги максимум пользы Среда разработки для глубокого обучения с подкреплением Подведем итоги Глава 2. Математические основы обучения с подкреплением Элементы обучения с подкреплением Цикл обучения с подкреплением и взаимодействия Примеры задач, агентов и сред Агент: тот, кто принимает решения Три этапа, через которые проходит любой агент обучения с подкреплением Среда: все остальное Среда «бандитская прогулка» (БП) Диаграмма «бандитской прогулки» Скользкая бандитская прогулка (СБП) Диаграмма «скользкой бандитской прогулки» Процесс, через который проходит среда в результате действий агента Цикл взаимодействия «агент - среда» MDP: двигатель среды Среда «замерзшее озеро» (ЗО) Состояния среды Пространство состояний: множество множеств Состояния в ЗО содержат одну переменную, обозначающую идентификатор ячейки, в которой находится агент на любом заданном временном шаге Состояния в среде «замерзшее озеро» Действия: механизм влияния на среду У среды «замерзшее озеро» есть четыре простых действия-движения Функция перехода: последствия действий агента Функция перехода в среде «замерзшее озеро» Сигнал вознаграждения: кнут и пряник Сигнал награды для состояний с ненулевыми переходами вознаграждения Горизонт: оптимальное решение со временем меняется Дисконтирование: неопределенное будущее менее значимо Зависимость ценности награды от коэффициента дисконтирования и времени Дополнения к MDP Собираем все воедино Подведем итоги Глава 3. Баланс краткосрочных и долгосрочных целей Цель агента, принимающего решения Среда «скользкая прогулка пять» Дисконтированная выгода в среде «скользкая прогулка пять» Надежный план в среде СПП Надежный план в среде ЗО Потенциальный изъян в нашем плане В стохастических средах одних лишь планов недостаточно Оптимальная политика в среде СПП Политики: предписания действий для каждого состояния Случайно сгенерированная политика Как сравнивать стратегии? Функция оценки состояния: чего ожидать? Насколько выигрышным будет нахождение в состоянии 14 при использовании политики «сразу к цели»? Функция ценности действий: чего ожидать при выборе определенного действия? Функция преимущества действий: насколько лучше будет выбрать это действие? Функции ценности состояний, действий и преимущества действий Оптимальность Планирование оптимальных последовательностей действий Оценка политик Начальные вычисления при оценке политики Вспомним случайно сгенерированную политику Оценка случайно сгенерированной политики для среды ЗО Функция ценности состояний для случайно сгенерированной политики Результаты развития политики Оптимизация политик: использование оценок Как Q-функция может помочь с оптимизацией политик? Функция ценности состояний для политики «осторожно» Можно ли улучшить политику «осторожно+» Состязательная политика для среды ЗО Итерация политик: улучшение на основе улучшенного поведения Оптимизация состязательной политики 1/2 Оптимизация состязательной политики 2/2 У среды ЗО есть больше одной оптимальной политики Итерация ценностей: улучшение поведения на ранних этапах Оценка политики «всегда влево» в среде СПП Жадная политика жадности «всегда влево» в среде СПП Подведем итоги Глава 4. Баланс между сбором и использованием информации Проблема интерпретации оценочной обратной связи Вы познакомитесь с более эффективными способами поиска баланса между исследованием и эксплуатацией Задача «многорукого бандита» Потеря: цена исследования Подходы к поиску решений в средах MAB Среда «скользкая бандитская походка» Диаграмма «скользкой бандитской походки» Жадная стратегия: всегда эксплуатировать Чистая эксплуатация в СБП Случайная стратегия: всегда исследуем Чистое исследование в СБП Эпсилон-жадная стратегия: почти всегда жадная, но иногда случайная Эпсилон-жадная стратегия в СБП Затухающая эпсилон-жадная стратегия: сначала максимизируются исследования, затем эксплуатация Оптимистичная инициализация: начинаем с веры в то, что все замечательно Оптимистичная инициализация в СБП Среды вида «двурукий бандит Бернулли» Стратегическое исследование Softmax: случайный выбор действий пропорционально их ценности UCB: не просто оптимизм, а реалистичный оптимизм Выборка Томпсона: баланс риска и вознаграждения Сравнение двух функций ценности действий, представленных в виде распределений Гаусса Подведем итоги Глава 5. Оценка поведения агента Учимся прогнозировать ценность политик MDP среды «случайная прогулка» Первый визит в Монте-Карло: повышение ценности после каждого эпизода Метод Монте-Карло Каждый визит в Монте-Карло: другой подход к посещению состояний Временное разностное обучение: улучшение прогнозов после каждого шага Метод TD Прогноз на основе нескольких шагов N-шаговое TD-обучение: улучшение прогнозов после нескольких шагов TD(λ) прямого обзора: улучшение прогнозов для всех посещенных состояний Обобщенный бэггинг TD(λ): улучшение прогнозов для всех посещенных состояний после каждого шага Следы приемлемости для среды с четырьмя состояниями во время восьмишагового эпизода Грид-среда Рассела и Норвига Оптимальная политика в среде СРН Подведем итоги Глава 6. Улучшение поведения агентов Анатомия агентов обучения с подкреплением Агенты собирают образцы опыта Агенты что-то оценивают Агенты улучшают политики Обобщенная итерация политик Оптимизация политик поведения MDP среды «скользкая прогулка семь» Управление Монте-Карло: оптимизация политик после каждого эпизода Нам нужно прогнозировать функции ценности состояний Нам нужно исследовать SARSA: улучшение политик после каждого шага Сравнение методов планирования и управления Разделение поведения и обучения Q-обучение: действуем оптимально, даже если не хотим Двойное Q-обучение: максимальная ожидаемая ценность для прогнозирования максимума Подведем итоги Глава 7. Более действенные и эффективные способы достижения целей Улучшение политик с помощью достоверных целей MDP среды «скользкая прогулка семь» SARSA(λ): улучшение политик после каждого шага на основе многошаговых прогнозов Накопительные признаки в среде СПС Заменяющие признаки в среде СПС Q(λ) Уоткинса: снова отделяем поведение от обучения Агенты, которые взаимодействуют, обучаются и планируют Dyna-Q: формирование моделей выборки Структура модельно-ориентированного обучения с подкреплением Выборка траектории: планирование ближайшего будущего Среда «замерзшее озеро» Среда «замерзшее озеро 8 × 8» Подведем итоги Глава 8. Введение в ценностно-ориентированное глубокое обучение с подкреплением Виды алгоритмических подходов из этой книги Тип обратной связи, который используют агенты глубокого обучения с подкреплением Агенты глубокого обучения с подкреплением работают с последовательной обратной связью Последовательная обратная связь Если не последовательная, то какая? Задача категоризации Двурукий бандит Оценочная обратная связь Если не оценочная, то какая? Контролируемая категоризация «Бандиты» работают с оценочной обратной связью Агенты глубокого обучения с подкреплением работают с выборочной обратной связью Выборочная обратная связь Если не выборочная, то какая? Последовательная, оценочная и исчерпывающая обратная связь Введение в аппроксимацию функций для обучения с подкреплением У задач обучения с подкреплением могут быть многомерные пространства состояний и действий Многомерные пространства состояний У задач обучения с подкреплением могут быть непрерывные пространства состояний и действий Непрерывные пространства состояний Это среда «перевернутый маятник» Преимущества аппроксимации функций Функция ценности состояний Функция ценности действий Функция ценности состояний с аппроксимацией и без NFQ: первая попытка реализовать ценностно-ориентированное глубокое обучение с подкреплением Первый этап принятия решений: выбор функции ценности для аппроксимации Второй этап принятия решений: выбор архитектуры нейросетей Архитектура «состояние — действие на входе, значения на выходе» Архитектура «состояние на входе, значения на выходе» Третий этап принятия решений: выбор функции для оптимизации Четвертый этап принятия решений: выбор целей для оценки политики Цели MC, TD, n-шаговые и λ Какова ценность этого состояния? Пятый этап принятия решений: выбор стратегии исследования Шестой этап принятия решений: выбор функции потерь Циклическая зависимость функции ценности действий Седьмой этап принятия решений: выбор метода оптимизации Пакетный градиентный спуск Мини-пакетный градиентный спуск Стохастический градиентный спуск Зигзагообразный мини-пакетный градиентный спуск Сравнение мини-пакетного градиентного спуска и инерции NFQ Что может пойти не так Нестационарная цель Данные коррелируют с временем Подведем итоги Глава 9. Более стабильные ценностно-ориентированные методы DQN: делаем RL похожим на контролируемое обучение Проблемы ценностно ориентированного глубокого обучения с подкреплением Нестационарность целей Использование целевых сетей Оптимизация Q-функции без целевой сети Аппроксимация Q-функции с целевой сетью Аппроксимация Q-функции с целевой сетью Воспроизведение опыта DQN с буфером воспроизведения Использование разных стратегий исследования Двойной DDQN: борьба с завышением прогнозов функций ценности действий Проблема завышения прогнозов, вторая попытка Разделение выбора и оценки действий Решение Более практичное решение Выбор действия, его оценка Менее прихотливая функция потерь Что еще можно улучшить Архитектура «состояние на входе, значения на выходе» Подведем итоги Глава 10. Ценностно-ориентированные методы с эффективным использованием выборок Дуэльная DDQN: архитектура нейросети, рассчитанная на обучение с подкреплением Обучение с подкреплением отличается от контролируемого Особенности методов ценностно ориентированного глубокого обучения с подкреплением Эффективное использование выборок Выгода от использования преимуществ Связь между функциями ценности Архитектура, рассчитанная на обучение с подкреплением Архитектура дуэльной сети Реализация дуэльной сети Реконструкция функции ценности действий Непрерывное обновление целевой сети Полное обновление целевой сети Преимущества дуэльной сети Пространство состояний, посещенных полностью обученными агентами в среде «перевернутый маятник» PER: приоритетное воспроизведение полезного опыта Более разумный способ воспроизведения опыта Какой опыт можно считать важным Жадная приоритизация на основе погрешности TD Стохастическая выборка приоритетного опыта Пропорциональная приоритизация Приоритизация на основе ранжирования Отклонение при назначении приоритетов Подведем итоги Глава 11. Методы градиента политик и «актер-критик» Методы: стратегические, ценностно ориентированные и «актер-критик» REINFORCE: обучение политик на основе результатов Введение в методы градиента политик Преимущества методов градиента политик Проблему могло бы решить формирование стохастических политик Формирование политик может быть упрощенной и универсальной задачей Прямое обучение политик Сокращение дисперсии градиента политик Используем только награды, полученные в результате действий VPG: формирование функции ценности Дальнейшее сокращение дисперсии градиента политик Формирование функции ценности Две нейронные сети: одна для политики, другая для функции ценности Поощрение исследования A3C: параллельное обновление политики Использование рабочих узлов Асинхронное обновление модели Использование n-шаговых прогнозов Неблокирующие обновления модели GAE: надежное прогнозирование преимущества Обобщенное прогнозирование преимущества A2C: синхронное обновление политик Модель разделения весов Разделение весов между выходными политиками и значениями Упорядочение процесса обновления политики Синхронное обновление модели Подведем итоги Глава 12. Продвинутые методы «актер-критик» DDPG: аппроксимация детерминированной политики Приемы в DDPG из DQN Формирование детерминированной политики Исследование с помощью детерминированных политик TD3: лучшие оптимизации для DDPG Двойное обучение в DDPG Сглаживание целей для обновления политики Откладывание обновлений SAC: максимизация ожидаемой выгоды и энтропии Добавление энтропии в уравнение Беллмана Формирование функции ценности действий Формирование политики Автоматическая настройка коэффициента энтропии PPO: ограничение этапа оптимизации Использование той же архитектуры «актер-критик», что и в A2C Группировка выборок Ограничение обновлений политики Ограничение обновлений функции ценности Подведем итоги Глава 13. Путь к сильному искусственному интеллекту Важные темы, которые были рассмотрены, и те, которые остались без внимания Сравнение разных алгоритмических подходов к глубокому обучению с подкреплением Функция перехода среды «замерзшее озеро» Методы планирования Оценка политики «всегда влево» в среде SWF «Бандитские» методы В главе 4 вы узнали о более эффективных способах поиска баланса между исследованием и эксплуатацией Десятирукие гауссовские бандиты Табличное обучение с подкреплением DRL — часть более широкой области обучения с подкреплением Ценностно ориентированное глубокое обучение с подкреплением Глубокое обучение с подкреплением, основанное на стратегических подходах и методах «актер-критик» Продвинутые методы «актер-критик» Алгоритмы DRL, рассмотренные в книге Примечательные алгоритмы модельно-ориентированного обучения с подкреплением Методы оптимизации без производных Методы без производных - это крайность Углубленные аспекты AGI Еще раз, что такое AGI? Производственные революции Продвинутые стратегии исследования Обратное обучение с подкреплением Перенос обучения Перенос знаний из симуляции в реальность широко востребован Многозадачное обучение Многозадачное обучение состоит из обучения нескольким связанным задачам и тестирования новой Обучение по плану Метаобучение Иерархическое обучение с подкреплением Многоагентное обучение с подкреплением Объяснимый ИИ, безопасность, справедливость и этические стандарты Что дальше? Как использовать DRL для выполнения нестандартных задач Дальнейшие шаги Заявите о себе прямо сейчас! Подведем итоги