Адреа Лонца - Алгоритмы обучения с подкреплением на Python
Описание и разработка алгоритмов искусственного интеллектаНазвание: | Алгоритмы обучения с подкреплением на Python | |
Автор: | Адреа Лонца | |
Жанр: | Искусственный интеллект, Python | |
Изадано в серии: | неизвестно | |
Издательство: | ДМК Пресс | |
Год издания: | 2020 | |
ISBN: | 978-5-97060-855-5 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Алгоритмы обучения с подкреплением на Python"
Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов. В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и метаалгоритмом ESBAS. Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие – владение языком Python на рабочем уровне.
Читаем онлайн "Алгоритмы обучения с подкреплением на Python". [Страница - 4]
Часть III. ЗА ПРЕДЕЛАМИ БЕЗМОДЕЛЬНЫХ
АЛГОРИТМОВ .............................................................................................189
Глава 9. ОП на основе модели.................................................................190
Методы на основе модели..................................................................................190
Общая картина обучения на основе модели ................................................191
Достоинства и недостатки .............................................................................195
Сочетание безмодельного и основанного на модели обучения .....................196
Полезная комбинация ....................................................................................196
Построение модели из изображений ............................................................198
Применение алгоритма ME-TRPO к задаче об обратном маятнике ...............199
10 Содержание
Принцип работы ME-TRPO ............................................................................200
Реализация ME-TRPO .....................................................................................200
Эксперименты в среде RoboSchool ................................................................204
Резюме .................................................................................................................206
Вопросы ...............................................................................................................207
Для дальнейшего чтения....................................................................................207
Глава 10. Подражательное обучение и алгоритм DAgger ...........208
Технические требования ....................................................................................208
Установка Flappy Bird .....................................................................................209
Подход на основе подражания ..........................................................................209
Пример: помощник водителя ........................................................................210
Сравнение подражательного обучения и обучения с подкреплением.......211
Роль эксперта в подражательном обучении .................................................211
Структура IL ....................................................................................................212
Игра Flappy Bird ..................................................................................................214
Порядок взаимодействия с окружающей средой .........................................215
Алгоритм агрегирования набора данных .........................................................216
Алгоритм DAgger ............................................................................................217
Реализация DAgger .........................................................................................217
Анализ результатов игры в Flappy Bird .........................................................221
Обратное обучение с подкреплением ...............................................................222
Резюме .................................................................................................................223
Вопросы ...............................................................................................................223
Для дальнейшего чтения....................................................................................224
Глава 11. Оптимизация методом черного ящика ...........................225
За рамками ОП ....................................................................................................225
Краткий обзор ОП...........................................................................................226
Альтернатива ..................................................................................................226
Основы эволюционных алгоритмов .................................................................227
Генетические алгоритмы ...............................................................................230
Эволюционные стратегии ..............................................................................230
Масштабируемые эволюционные стратегии....................................................232
Основной принцип .........................................................................................233
Масштабируемая реализация ........................................................................234
Применение масштабируемой ЭС к среде LunarLander ..................................239
Резюме .................................................................................................................241
Вопросы ...............................................................................................................241
Для дальнейшего чтения....................................................................................242
Глава 12. Разработка алгоритма ESBAS ..............................................243
Исследование и использование .........................................................................244
Задача о многоруком бандите .......................................................................245
Подходы к исследованию ...................................................................................246
e-жадная стратегия ........................................................................................246
11
Алгоритм UCB .................................................................................................247
Сложность исследования ...............................................................................248
Алгоритм ESBAS..................................................................................................249
Что такое выбор алгоритма ...........................................................................249
ESBAS изнутри ................................................................................................250
Реализация ......................................................................................................252
Тестирование в среде Acrobot ........................................................................255
Резюме --">
Книги схожие с «Алгоритмы обучения с подкреплением на Python» по жанру, серии, автору или названию:
Иван Братко - Алгоритмы искусственного интеллекта на языке Prolog. 3-е издание Жанр: Алгоритмы и структуры данных Год издания: 2004 |
Эйял Вирсански - Генетические алгоритмы на Python Жанр: Алгоритмы и структуры данных Год издания: 2020 |
Фил Уиндер - Обучение с подкреплением для реальных задач Жанр: Искусственный интеллект Год издания: 2023 Серия: Бестселлеры o’reilly |
Лаура Грессер, Ван Лун Кенг - Глубокое обучение с подкреплением. Теория и практика на языке Python Жанр: Python Год издания: 2022 Серия: Библиотека программиста |