Библиотека knigago >> Компьютеры: Языки и системы программирования >> Python >> Алгоритмы обучения с подкреплением на Python


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 1310, книга: Шпеер
автор: Magenta

Фанфик "Шпеер" - захватывающий фанфик, основанный на персонаже Альберта Шпеера из вселенной Marvel. История следует за Шпеером, архитектором нацизма, который был завербован Красным Черепом после Второй мировой войны и стал одним из его главных лейтенантов. Когда Череп планирует поработить мир, Шпеер оказывается перед дилеммой: оставаться лояльным своему лидеру или предать его и спасти человечество. По мере того как разворачивается захватывающий сюжет, Шпеер должен столкнуться со...

СЛУЧАЙНАЯ КНИГА

Дорога к Храму. Дилогия. Светлана Нергина
- Дорога к Храму. Дилогия

Жанр: Фэнтези: прочее

Год издания: 2008

Серия: В одном томе

Адреа Лонца - Алгоритмы обучения с подкреплением на Python

Описание и разработка алгоритмов искусственного интеллекта Алгоритмы обучения с подкреплением на Python
Книга - Алгоритмы обучения с подкреплением на Python.  Адреа Лонца  - прочитать полностью в библиотеке КнигаГо
Название:
Алгоритмы обучения с подкреплением на Python
Адреа Лонца

Жанр:

Искусственный интеллект, Python

Изадано в серии:

неизвестно

Издательство:

ДМК Пресс

Год издания:

ISBN:

978-5-97060-855-5

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Алгоритмы обучения с подкреплением на Python"

Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов. В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и метаалгоритмом ESBAS. Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие – владение языком Python на рабочем уровне.

Читаем онлайн "Алгоритмы обучения с подкреплением на Python". [Страница - 3]

.............................................................................................105
Результаты.......................................................................................................112
Вариации на тему DQN.......................................................................................113
Double DQN .....................................................................................................114
Dueling DQN ....................................................................................................117
n-шаговый DQN ..............................................................................................118
Резюме .................................................................................................................120
Вопросы ...............................................................................................................120
Для дальнейшего чтения....................................................................................121

Глава 6. Стохастическая оптимизация и градиенты
стратегии..........................................................................................................122
Методы градиента стратегии.............................................................................122
Градиент стратегии ........................................................................................123
Теорема о градиенте стратегии .....................................................................124
Вычисление градиента ...................................................................................125
Стратегия ........................................................................................................126
Алгоритм ГС с единой стратегией .................................................................127
Устройство алгоритма REINFORCE ....................................................................127
Реализация REINFORCE..................................................................................129
Посадка космического корабля с помощью алгоритма REINFORCE ..........132
REINFORCE с базой .............................................................................................134
Реализация REINFORCE с базой.....................................................................136
Обучение алгоритма исполнитель–критик ......................................................137
Как критик помогает обучаться исполнителю .............................................137
n-шаговая модель AC ......................................................................................138
Реализация AC.................................................................................................139
Посадка космического корабля с помощью алгоритма AC .........................141
Дополнительные улучшения AC и полезные советы ...................................142
Резюме .................................................................................................................143
Вопросы ...............................................................................................................143
Для дальнейшего чтения....................................................................................143

Содержание  9

Глава 7. Реализация TRPO и PPO ............................................................144
Roboschool ...........................................................................................................144
Управление непрерывной системой .............................................................145
Метод естественного градиента стратегии ......................................................148
Интуитивное описание NPG ..........................................................................149
Немного математики .....................................................................................150
Осложнения в методе естественного градиента ..........................................152
Оптимизация стратегии в доверительной области .........................................152
Алгоритм TRPO ...............................................................................................153
Реализация алгоритма TRPO .........................................................................156
Применение TRPO ..........................................................................................160
Проксимальная оптимизация стратегии ..........................................................163
Краткое описание ...........................................................................................163
Алгоритм PPO .................................................................................................163
Реализация PPO ..............................................................................................164
Применение PPO ............................................................................................166
Резюме .................................................................................................................168
Вопросы ...............................................................................................................168
Для дальнейшего чтения....................................................................................169

Глава 8. Применения алгоритмов DDPG и TD3 ................................170
Сочетание оптимизации градиента стратегии с Q-обучением ......................170
Детерминированный градиент стратегии ....................................................171
Алгоритм DDPG ..................................................................................................174
Реализация DDPG ...........................................................................................176
Применение DDPG к среде BipedalWalker-v2 ................................................180
Алгоритм TD3 .....................................................................................................182
Проблема смещения оценки в сторону завышения.....................................182
Уменьшение дисперсии .................................................................................184
Применение TD3 к среде BipedalWalker-v2 ...................................................186
Резюме .................................................................................................................187
Вопросы ...............................................................................................................188
Для дальнейшего --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.

Книги схожие с «Алгоритмы обучения с подкреплением на Python» по жанру, серии, автору или названию: