Библиотека knigago >> Компьютеры: Языки и системы программирования >> Python >> Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 150, книга: Танец без музыки
автор: Питер Чейни

Замечательная книга с неожиданными поворотами и непредсказуемой концовкой! Главный герой - гениальный мужчина, который благодаря своей интуиции и логике смог раскрыть дело. Если вы любитель детективов - вам понравится это произведение.

Артём Владимирович Груздев - Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества

Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Книга - Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества.  Артём Владимирович Груздев  - прочитать полностью в библиотеке КнигаГо
Название:
Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Артём Владимирович Груздев

Жанр:

Python

Изадано в серии:

неизвестно

Издательство:

ДМК Пресс

Год издания:

ISBN:

978-5-93700-177-1

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества"

В двухтомнике представлены материалы по применению классических мето- дов машинного обучения в различных промышленных задачах. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab). Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.

Читаем онлайн "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества". [Страница - 3]

Docker........................................................................743
2.3. Создание контейнера Docker с помощью Dockerfile..............................744

3. Библиотека H2O...........................................................................749
3.1. Установка пакета h2o для Python.............................................................749
3.2. Запуск кластера H2O.................................................................................749
3.3. Преобразование данных во фреймы H2O...............................................750
3.4. Знакомство с содержимым фрейма.........................................................751
3.5. Определение имени зависимой переменной и списка
имен признаков...............................................................................................753
3.6. Построение модели машинного обучения..............................................753
3.7. Вывод модели............................................................................................754
3.8. Получение прогнозов...............................................................................758
3.9. Построение ROC-кривой и вычисление AUC-ROC..................................759
3.10. Поиск оптимальных значений гиперпараметров по сетке.................760
3.11. Извлечение наилучшей модели по итогам поиска по сетке................762
3.12. Класс H2OAutoML....................................................................................762
3.13. Применение класса H2OAutoML в библиотеке scikit-learn..................771

4. Библиотека Dask..........................................................................783
4.1. Общее знакомство....................................................................................783
4.2. Машинное обучение с помощью библиотеки dask-ml...........................792
4.3. Построение конвейера в Dask..................................................................800

5. Google Colab..................................................................................804
5.1. Общее знакомство....................................................................................804
5.2. Регистрация и создание папки проекта..................................................804
5.3. Подготовка блокнота Colab......................................................................809

Введение
Настоящая книга является коллекцией избранных материалов из первого модуля Подписки – обновляемых в режиме реального времени материалов по
применению классических методов машинного обучения в различных промышленных задачах, которые автор делает вместе с коллегами и учениками.
Автор благодарит Дмитрия Ларько за помощь в подготовке раздела по конструированию признаков в третьей части книги, Уилла Керсена за предоставленные материалы к первому разделу пятой части книги.
Во втором томе мы разберем собственно процесс предварительной подготовки данных, обсудим некоторые метрики качества, рассмотрим ряд полезных библиотек и фреймворков.

Часть 3

План предварительной
подготовки данных
1. Введение
До этого момента мы знакомились с инструментами – основными питоновскими библиотеками, классами и функциями, необходимыми для предварительной подготовки данных и построения моделей машинного обучения. Мы брали
относительно простые примеры, выполняли предварительную подготовку данных и строили модели машинного обучения без глубокого понимания, зачем
нужна та или иная операция предварительной подготовки и что происходит
«под капотом» этой операции. В реальной практике мы так действовать не можем, нам нужен четкий план действий и глубокое понимание каждого этапа.
План предварительной подготовки данных, как правило, будет состоять из
двух этапов. Первый этап – операции, которые можно выполнить до разбие­
ния на обучающую и тестовую выборки / до цикла перекрестной проверки.
Второй этап – операции, которые можно выполнить только после разбиения
на обучающую и тестовую выборки / внутри цикла перекрестной проверки.
Если используются операции, использующие статистики, например укрупнение редких категорий по порогу, импутация пропусков статистиками, стандартизация, биннинг и конструирование признаков на основе статистик (frequency
encoding, likelihood encoding), они должны быть осуществлены после разбиения
на обучающую и тестовую выборки или внутри цикла перекрестной проверки.
Если мы используем случайное разбиение на обучающую и тестовую выборки и выполняем перечисленные операции до разбиения, получается, что
для вычисления среднего и стандартного отклонения по каждому признаку
для стандартизации, правил биннинга, частот и вероятностей положительного класса зависимой переменной в категориях признака использовались все
наблюдения набора, часть из которых потом у нас войдет в тестовую выборку
(по сути, выборку новых данных).
Если мы используем перекрестную проверку и выполняем перечисленные операции до перекрестной проверки, получается, что в каждом проходе перекрестной проверки для вычисления среднего и --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.

Книги схожие с «Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества» по жанру, серии, автору или названию: