Артём Владимирович Груздев - Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Название: | Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества | |
Автор: | Артём Владимирович Груздев | |
Жанр: | Python | |
Изадано в серии: | неизвестно | |
Издательство: | ДМК Пресс | |
Год издания: | 2023 | |
ISBN: | 978-5-93700-177-1 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества"
В двухтомнике представлены материалы по применению классических мето- дов машинного обучения в различных промышленных задачах. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab). Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
Читаем онлайн "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества". [Страница - 3]
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (218) »
2.3. Создание контейнера Docker с помощью Dockerfile..............................744
3. Библиотека H2O...........................................................................749
3.1. Установка пакета h2o для Python.............................................................749
3.2. Запуск кластера H2O.................................................................................749
3.3. Преобразование данных во фреймы H2O...............................................750
3.4. Знакомство с содержимым фрейма.........................................................751
3.5. Определение имени зависимой переменной и списка
имен признаков...............................................................................................753
3.6. Построение модели машинного обучения..............................................753
3.7. Вывод модели............................................................................................754
3.8. Получение прогнозов...............................................................................758
3.9. Построение ROC-кривой и вычисление AUC-ROC..................................759
3.10. Поиск оптимальных значений гиперпараметров по сетке.................760
3.11. Извлечение наилучшей модели по итогам поиска по сетке................762
3.12. Класс H2OAutoML....................................................................................762
3.13. Применение класса H2OAutoML в библиотеке scikit-learn..................771
4. Библиотека Dask..........................................................................783
4.1. Общее знакомство....................................................................................783
4.2. Машинное обучение с помощью библиотеки dask-ml...........................792
4.3. Построение конвейера в Dask..................................................................800
5. Google Colab..................................................................................804
5.1. Общее знакомство....................................................................................804
5.2. Регистрация и создание папки проекта..................................................804
5.3. Подготовка блокнота Colab......................................................................809
Введение
Настоящая книга является коллекцией избранных материалов из первого модуля Подписки – обновляемых в режиме реального времени материалов по
применению классических методов машинного обучения в различных промышленных задачах, которые автор делает вместе с коллегами и учениками.
Автор благодарит Дмитрия Ларько за помощь в подготовке раздела по конструированию признаков в третьей части книги, Уилла Керсена за предоставленные материалы к первому разделу пятой части книги.
Во втором томе мы разберем собственно процесс предварительной подготовки данных, обсудим некоторые метрики качества, рассмотрим ряд полезных библиотек и фреймворков.
Часть 3
План предварительной
подготовки данных
1. Введение
До этого момента мы знакомились с инструментами – основными питоновскими библиотеками, классами и функциями, необходимыми для предварительной подготовки данных и построения моделей машинного обучения. Мы брали
относительно простые примеры, выполняли предварительную подготовку данных и строили модели машинного обучения без глубокого понимания, зачем
нужна та или иная операция предварительной подготовки и что происходит
«под капотом» этой операции. В реальной практике мы так действовать не можем, нам нужен четкий план действий и глубокое понимание каждого этапа.
План предварительной подготовки данных, как правило, будет состоять из
двух этапов. Первый этап – операции, которые можно выполнить до разбие
ния на обучающую и тестовую выборки / до цикла перекрестной проверки.
Второй этап – операции, которые можно выполнить только после разбиения
на обучающую и тестовую выборки / внутри цикла перекрестной проверки.
Если используются операции, использующие статистики, например укрупнение редких категорий по порогу, импутация пропусков статистиками, стандартизация, биннинг и конструирование признаков на основе статистик (frequency
encoding, likelihood encoding), они должны быть осуществлены после разбиения
на обучающую и тестовую выборки или внутри цикла перекрестной проверки.
Если мы используем случайное разбиение на обучающую и тестовую выборки и выполняем перечисленные операции до разбиения, получается, что
для вычисления среднего и стандартного отклонения по каждому признаку
для стандартизации, правил биннинга, частот и вероятностей положительного класса зависимой переменной в категориях признака использовались все
наблюдения набора, часть из которых потом у нас войдет в тестовую выборку
(по сути, выборку новых данных).
Если мы используем перекрестную проверку и выполняем перечисленные операции до перекрестной проверки, получается, что в каждом проходе перекрестной проверки для вычисления среднего и --">
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (218) »
Книги схожие с «Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества» по жанру, серии, автору или названию:
Уэс Маккинли - Python и анализ данных Жанр: Программирование: прочее Год издания: 2015 |
Себастьян Рашка, Вахид Мирджалили - Python и машинное обучение Жанр: Python Год издания: 2020 |
Сет Вейдман - Глубокое обучение: легкая разработка проектов на Python Жанр: Python Год издания: 2021 Серия: Бестселлеры o’reilly |
Глен Кук - Приключения Гаррета. том.2 Жанр: Фэнтези: прочее Год издания: 2015 |