Библиотека knigago >> Компьютеры: Языки и системы программирования >> Python >> Алгоритмы обучения с подкреплением на Python


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 2114, книга: Нелегальная разведка
автор: Владимир Сергеевич Антонов

Книга "Нелегальная разведка" Владимира Антонова - это захватывающий и проницательный взгляд в мир секретных агентов, работающих под прикрытием. Антонов, сам бывший офицер разведки, раскрывает интригующие подробности реальных операций и вызовов, с которыми сталкиваются нелегальные разведчики. Книга охватывает широкий спектр тем, от вербовки до обучения и оперативной деятельности. Антонов предоставляет увлекательные примеры из собственного опыта, предлагая уникальное понимание...

Адреа Лонца - Алгоритмы обучения с подкреплением на Python

Описание и разработка алгоритмов искусственного интеллекта Алгоритмы обучения с подкреплением на Python
Книга - Алгоритмы обучения с подкреплением на Python.  Адреа Лонца  - прочитать полностью в библиотеке КнигаГо
Название:
Алгоритмы обучения с подкреплением на Python
Адреа Лонца

Жанр:

Искусственный интеллект, Python

Изадано в серии:

неизвестно

Издательство:

ДМК Пресс

Год издания:

ISBN:

978-5-97060-855-5

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Алгоритмы обучения с подкреплением на Python"

Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов. В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и метаалгоритмом ESBAS. Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие – владение языком Python на рабочем уровне.

Читаем онлайн "Алгоритмы обучения с подкреплением на Python". [Страница - 4]

чтения....................................................................................188

Часть III. ЗА ПРЕДЕЛАМИ БЕЗМОДЕЛЬНЫХ
АЛГОРИТМОВ .............................................................................................189
Глава 9. ОП на основе модели.................................................................190
Методы на основе модели..................................................................................190
Общая картина обучения на основе модели ................................................191
Достоинства и недостатки .............................................................................195
Сочетание безмодельного и основанного на модели обучения .....................196
Полезная комбинация ....................................................................................196
Построение модели из изображений ............................................................198
Применение алгоритма ME-TRPO к задаче об обратном маятнике ...............199

10  Содержание
Принцип работы ME-TRPO ............................................................................200
Реализация ME-TRPO .....................................................................................200
Эксперименты в среде RoboSchool ................................................................204
Резюме .................................................................................................................206
Вопросы ...............................................................................................................207
Для дальнейшего чтения....................................................................................207

Глава 10. Подражательное обучение и алгоритм DAgger ...........208
Технические требования ....................................................................................208
Установка Flappy Bird .....................................................................................209
Подход на основе подражания ..........................................................................209
Пример: помощник водителя ........................................................................210
Сравнение подражательного обучения и обучения с подкреплением.......211
Роль эксперта в подражательном обучении .................................................211
Структура IL ....................................................................................................212
Игра Flappy Bird ..................................................................................................214
Порядок взаимодействия с окружающей средой .........................................215
Алгоритм агрегирования набора данных .........................................................216
Алгоритм DAgger ............................................................................................217
Реализация DAgger .........................................................................................217
Анализ результатов игры в Flappy Bird .........................................................221
Обратное обучение с подкреплением ...............................................................222
Резюме .................................................................................................................223
Вопросы ...............................................................................................................223
Для дальнейшего чтения....................................................................................224

Глава 11. Оптимизация методом черного ящика ...........................225
За рамками ОП ....................................................................................................225
Краткий обзор ОП...........................................................................................226
Альтернатива ..................................................................................................226
Основы эволюционных алгоритмов .................................................................227
Генетические алгоритмы ...............................................................................230
Эволюционные стратегии ..............................................................................230
Масштабируемые эволюционные стратегии....................................................232
Основной принцип .........................................................................................233
Масштабируемая реализация ........................................................................234
Применение масштабируемой ЭС к среде LunarLander ..................................239
Резюме .................................................................................................................241
Вопросы ...............................................................................................................241
Для дальнейшего чтения....................................................................................242

Глава 12. Разработка алгоритма ESBAS ..............................................243
Исследование и использование .........................................................................244
Задача о многоруком бандите .......................................................................245
Подходы к исследованию ...................................................................................246
e-жадная стратегия ........................................................................................246

 11
Алгоритм UCB .................................................................................................247
Сложность исследования ...............................................................................248
Алгоритм ESBAS..................................................................................................249
Что такое выбор алгоритма ...........................................................................249
ESBAS изнутри ................................................................................................250
Реализация ......................................................................................................252
Тестирование в среде Acrobot ........................................................................255
Резюме --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.