Адреа Лонца - Алгоритмы обучения с подкреплением на Python

Описание и разработка алгоритмов искусственного интеллекта

	Название:	Алгоритмы обучения с подкреплением на Python
	Автор:	Адреа Лонца
	Жанр:	Искусственный интеллект, Python
	Изадано в серии:	неизвестно
	Издательство:	ДМК Пресс
	Год издания:	2020
	ISBN:	978-5-97060-855-5
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Алгоритмы обучения с подкреплением на Python"

Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов. В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и метаалгоритмом ESBAS. Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие – владение языком Python на рабочем уровне.

Читаем онлайн "Алгоритмы обучения с подкреплением на Python". [Страница - 3]

.............................................................................................105
Результаты.......................................................................................................112
Вариации на тему DQN.......................................................................................113
Double DQN .....................................................................................................114
Dueling DQN ....................................................................................................117
n-шаговый DQN ..............................................................................................118
Резюме .................................................................................................................120
Вопросы ...............................................................................................................120
Для дальнейшего чтения....................................................................................121

Глава 6. Стохастическая оптимизация и градиенты
стратегии..........................................................................................................122
Методы градиента стратегии.............................................................................122
Градиент стратегии ........................................................................................123
Теорема о градиенте стратегии .....................................................................124
Вычисление градиента ...................................................................................125
Стратегия ........................................................................................................126
Алгоритм ГС с единой стратегией .................................................................127
Устройство алгоритма REINFORCE ....................................................................127
Реализация REINFORCE..................................................................................129
Посадка космического корабля с помощью алгоритма REINFORCE ..........132
REINFORCE с базой .............................................................................................134
Реализация REINFORCE с базой.....................................................................136
Обучение алгоритма исполнитель–критик ......................................................137
Как критик помогает обучаться исполнителю .............................................137
n-шаговая модель AC ......................................................................................138
Реализация AC.................................................................................................139
Посадка космического корабля с помощью алгоритма AC .........................141
Дополнительные улучшения AC и полезные советы ...................................142
Резюме .................................................................................................................143
Вопросы ...............................................................................................................143
Для дальнейшего чтения....................................................................................143

Содержание  9

Глава 7. Реализация TRPO и PPO ............................................................144
Roboschool ...........................................................................................................144
Управление непрерывной системой .............................................................145
Метод естественного градиента стратегии ......................................................148
Интуитивное описание NPG ..........................................................................149
Немного математики .....................................................................................150
Осложнения в методе естественного градиента ..........................................152
Оптимизация стратегии в доверительной области .........................................152
Алгоритм TRPO ...............................................................................................153
Реализация алгоритма TRPO .........................................................................156
Применение TRPO ..........................................................................................160
Проксимальная оптимизация стратегии ..........................................................163
Краткое описание ...........................................................................................163
Алгоритм PPO .................................................................................................163
Реализация PPO ..............................................................................................164
Применение PPO ............................................................................................166
Резюме .................................................................................................................168
Вопросы ...............................................................................................................168
Для дальнейшего чтения....................................................................................169

Глава 8. Применения алгоритмов DDPG и TD3 ................................170
Сочетание оптимизации градиента стратегии с Q-обучением ......................170
Детерминированный градиент стратегии ....................................................171
Алгоритм DDPG ..................................................................................................174
Реализация DDPG ...........................................................................................176
Применение DDPG к среде BipedalWalker-v2 ................................................180
Алгоритм TD3 .....................................................................................................182
Проблема смещения оценки в сторону завышения.....................................182
Уменьшение дисперсии .................................................................................184
Применение TD3 к среде BipedalWalker-v2 ...................................................186
Резюме .................................................................................................................187
Вопросы ...............................................................................................................188
Для дальнейшего --">

Оставить комментарий:

Книги схожие с «Алгоритмы обучения с подкреплением на Python» по жанру, серии, автору или названию:

Основы искусственного интеллекта в примерах на Python. Самоучитель. Анатолий Постолит

Анатолий Постолит - Основы искусственного интеллекта в примерах на Python. Самоучитель

Жанр: Python

Год издания: 2021

Серия: Самоучитель

GPT-3: программирование на Python в примерах. Аймен Эль Амри

Аймен Эль Амри - GPT-3: программирование на Python в примерах

Жанр: Учебники и самоучители по компьютеру

Глубокое обучение: легкая разработка проектов на Python. Сет Вейдман

Сет Вейдман - Глубокое обучение: легкая разработка проектов на Python

Жанр: Python

Год издания: 2021

Серия: Бестселлеры o’reilly

Глубокое обучение с подкреплением. Теория и практика на языке Python. Лаура Грессер

Лаура Грессер, Ван Лун Кенг - Глубокое обучение с подкреплением. Теория и практика на языке Python

Жанр: Python

Год издания: 2022

Серия: Библиотека программиста

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Почему стоит выбрать пересадку волос в Турции: 5 причин для раздумий