Адреа Лонца - Алгоритмы обучения с подкреплением на Python

Описание и разработка алгоритмов искусственного интеллекта

	Название:	Алгоритмы обучения с подкреплением на Python
	Автор:	Адреа Лонца
	Жанр:	Искусственный интеллект, Python
	Изадано в серии:	неизвестно
	Издательство:	ДМК Пресс
	Год издания:	2020
	ISBN:	978-5-97060-855-5
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Алгоритмы обучения с подкреплением на Python"

Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов. В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и метаалгоритмом ESBAS. Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие – владение языком Python на рабочем уровне.

Читаем онлайн "Алгоритмы обучения с подкреплением на Python". [Страница - 4]

чтения....................................................................................188

Часть III. ЗА ПРЕДЕЛАМИ БЕЗМОДЕЛЬНЫХ
АЛГОРИТМОВ .............................................................................................189
Глава 9. ОП на основе модели.................................................................190
Методы на основе модели..................................................................................190
Общая картина обучения на основе модели ................................................191
Достоинства и недостатки .............................................................................195
Сочетание безмодельного и основанного на модели обучения .....................196
Полезная комбинация ....................................................................................196
Построение модели из изображений ............................................................198
Применение алгоритма ME-TRPO к задаче об обратном маятнике ...............199

10  Содержание
Принцип работы ME-TRPO ............................................................................200
Реализация ME-TRPO .....................................................................................200
Эксперименты в среде RoboSchool ................................................................204
Резюме .................................................................................................................206
Вопросы ...............................................................................................................207
Для дальнейшего чтения....................................................................................207

Глава 10. Подражательное обучение и алгоритм DAgger ...........208
Технические требования ....................................................................................208
Установка Flappy Bird .....................................................................................209
Подход на основе подражания ..........................................................................209
Пример: помощник водителя ........................................................................210
Сравнение подражательного обучения и обучения с подкреплением.......211
Роль эксперта в подражательном обучении .................................................211
Структура IL ....................................................................................................212
Игра Flappy Bird ..................................................................................................214
Порядок взаимодействия с окружающей средой .........................................215
Алгоритм агрегирования набора данных .........................................................216
Алгоритм DAgger ............................................................................................217
Реализация DAgger .........................................................................................217
Анализ результатов игры в Flappy Bird .........................................................221
Обратное обучение с подкреплением ...............................................................222
Резюме .................................................................................................................223
Вопросы ...............................................................................................................223
Для дальнейшего чтения....................................................................................224

Глава 11. Оптимизация методом черного ящика ...........................225
За рамками ОП ....................................................................................................225
Краткий обзор ОП...........................................................................................226
Альтернатива ..................................................................................................226
Основы эволюционных алгоритмов .................................................................227
Генетические алгоритмы ...............................................................................230
Эволюционные стратегии ..............................................................................230
Масштабируемые эволюционные стратегии....................................................232
Основной принцип .........................................................................................233
Масштабируемая реализация ........................................................................234
Применение масштабируемой ЭС к среде LunarLander ..................................239
Резюме .................................................................................................................241
Вопросы ...............................................................................................................241
Для дальнейшего чтения....................................................................................242

Глава 12. Разработка алгоритма ESBAS ..............................................243
Исследование и использование .........................................................................244
Задача о многоруком бандите .......................................................................245
Подходы к исследованию ...................................................................................246
e-жадная стратегия ........................................................................................246

 11
Алгоритм UCB .................................................................................................247
Сложность исследования ...............................................................................248
Алгоритм ESBAS..................................................................................................249
Что такое выбор алгоритма ...........................................................................249
ESBAS изнутри ................................................................................................250
Реализация ......................................................................................................252
Тестирование в среде Acrobot ........................................................................255
Резюме --">

Оставить комментарий:

Книги схожие с «Алгоритмы обучения с подкреплением на Python» по жанру, серии, автору или названию:

Алгоритмы искусственного интеллекта на языке Prolog. 3-е издание. Иван Братко

Иван Братко - Алгоритмы искусственного интеллекта на языке Prolog. 3-е издание

Жанр: Алгоритмы и структуры данных

Год издания: 2004

Генетические алгоритмы на Python. Эйял Вирсански

Эйял Вирсански - Генетические алгоритмы на Python

Жанр: Алгоритмы и структуры данных

Год издания: 2020

Обучение с подкреплением для реальных задач. Фил Уиндер

Фил Уиндер - Обучение с подкреплением для реальных задач

Жанр: Искусственный интеллект

Год издания: 2023

Серия: Бестселлеры o’reilly

Глубокое обучение с подкреплением. Теория и практика на языке Python. Лаура Грессер

Лаура Грессер, Ван Лун Кенг - Глубокое обучение с подкреплением. Теория и практика на языке Python

Жанр: Python

Год издания: 2022

Серия: Библиотека программиста

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Печать книг в подарок: искусство сохранить моменты