Артём Владимирович Груздев - Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества

	Название:	Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
	Автор:	Артём Владимирович Груздев
	Жанр:	Python
	Изадано в серии:	неизвестно
	Издательство:	ДМК Пресс
	Год издания:	2023
	ISBN:	978-5-93700-177-1
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества"

В двухтомнике представлены материалы по применению классических мето- дов машинного обучения в различных промышленных задачах. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab). Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.

Читаем онлайн "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества". [Страница - 3]

Docker........................................................................743
2.3. Создание контейнера Docker с помощью Dockerfile..............................744

3. Библиотека H2O...........................................................................749
3.1. Установка пакета h2o для Python.............................................................749
3.2. Запуск кластера H2O.................................................................................749
3.3. Преобразование данных во фреймы H2O...............................................750
3.4. Знакомство с содержимым фрейма.........................................................751
3.5. Определение имени зависимой переменной и списка
имен признаков...............................................................................................753
3.6. Построение модели машинного обучения..............................................753
3.7. Вывод модели............................................................................................754
3.8. Получение прогнозов...............................................................................758
3.9. Построение ROC-кривой и вычисление AUC-ROC..................................759
3.10. Поиск оптимальных значений гиперпараметров по сетке.................760
3.11. Извлечение наилучшей модели по итогам поиска по сетке................762
3.12. Класс H2OAutoML....................................................................................762
3.13. Применение класса H2OAutoML в библиотеке scikit-learn..................771

4. Библиотека Dask..........................................................................783
4.1. Общее знакомство....................................................................................783
4.2. Машинное обучение с помощью библиотеки dask-ml...........................792
4.3. Построение конвейера в Dask..................................................................800

5. Google Colab..................................................................................804
5.1. Общее знакомство....................................................................................804
5.2. Регистрация и создание папки проекта..................................................804
5.3. Подготовка блокнота Colab......................................................................809

Введение
Настоящая книга является коллекцией избранных материалов из первого модуля Подписки – обновляемых в режиме реального времени материалов по
применению классических методов машинного обучения в различных промышленных задачах, которые автор делает вместе с коллегами и учениками.
Автор благодарит Дмитрия Ларько за помощь в подготовке раздела по конструированию признаков в третьей части книги, Уилла Керсена за предоставленные материалы к первому разделу пятой части книги.
Во втором томе мы разберем собственно процесс предварительной подготовки данных, обсудим некоторые метрики качества, рассмотрим ряд полезных библиотек и фреймворков.

Часть 3

План предварительной
подготовки данных
1. Введение
До этого момента мы знакомились с инструментами – основными питоновскими библиотеками, классами и функциями, необходимыми для предварительной подготовки данных и построения моделей машинного обучения. Мы брали
относительно простые примеры, выполняли предварительную подготовку данных и строили модели машинного обучения без глубокого понимания, зачем
нужна та или иная операция предварительной подготовки и что происходит
«под капотом» этой операции. В реальной практике мы так действовать не можем, нам нужен четкий план действий и глубокое понимание каждого этапа.
План предварительной подготовки данных, как правило, будет состоять из
двух этапов. Первый этап – операции, которые можно выполнить до разбие
ния на обучающую и тестовую выборки / до цикла перекрестной проверки.
Второй этап – операции, которые можно выполнить только после разбиения
на обучающую и тестовую выборки / внутри цикла перекрестной проверки.
Если используются операции, использующие статистики, например укрупнение редких категорий по порогу, импутация пропусков статистиками, стандартизация, биннинг и конструирование признаков на основе статистик (frequency
encoding, likelihood encoding), они должны быть осуществлены после разбиения
на обучающую и тестовую выборки или внутри цикла перекрестной проверки.
Если мы используем случайное разбиение на обучающую и тестовую выборки и выполняем перечисленные операции до разбиения, получается, что
для вычисления среднего и стандартного отклонения по каждому признаку
для стандартизации, правил биннинга, частот и вероятностей положительного класса зависимой переменной в категориях признака использовались все
наблюдения набора, часть из которых потом у нас войдет в тестовую выборку
(по сути, выборку новых данных).
Если мы используем перекрестную проверку и выполняем перечисленные операции до перекрестной проверки, получается, что в каждом проходе перекрестной проверки для вычисления среднего и --">

Оставить комментарий:

Книги схожие с «Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества» по жанру, серии, автору или названию:

Уэс Маккинли - Python и анализ данных

Жанр: Программирование: прочее

Год издания: 2015

Python и машинное обучение. Себастьян Рашка

Себастьян Рашка, Вахид Мирджалили - Python и машинное обучение

Жанр: Python

Год издания: 2020

Глубокое обучение: легкая разработка проектов на Python. Сет Вейдман

Сет Вейдман - Глубокое обучение: легкая разработка проектов на Python

Жанр: Python

Год издания: 2021

Серия: Бестселлеры o’reilly

Глен Кук - Приключения Гаррета. том.2

Жанр: Фэнтези: прочее

Год издания: 2015

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Детектор лжи в Москве