Артём Владимирович Груздев - Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Название: | Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества | |
Автор: | Артём Владимирович Груздев | |
Жанр: | Python | |
Изадано в серии: | неизвестно | |
Издательство: | ДМК Пресс | |
Год издания: | 2023 | |
ISBN: | 978-5-93700-177-1 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества"
В двухтомнике представлены материалы по применению классических мето- дов машинного обучения в различных промышленных задачах. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab). Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
Читаем онлайн "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества". [Страница - 2]
- 1
- 2
- 3
- 4
- . . .
- последняя (218) »
асимметрии.....................................................................128
15.7. Преобразование Бокса–Кокса................................................................129
16. Конструирование признаков...................................................135
16.1. Статическое конструирование признаков исходя
из предметной области...................................................................................135
16.2. Статическое конструирование признаков исходя из алгоритма........170
16.3. Динамическое конструирование признаков исходя
из особенностей алгоритма............................................................................290
16.4. Конструирование признаков для временных рядов............................297
17. Отбор признаков........................................................................433
17.1. Методы-фильтры....................................................................................436
17.2. Применение метода-фильтра и встроенного метода для отбора
признаков (на примере соревнования BNP Paribas Cardif Claims
Management с Kaggle)......................................................................................444
17.3. Комбинирование нескольких методов для отбора признаков
(на примере соревнования Porto Seguro’s Safe Driver
Prediction с Kaggle).................................................................................... 451
18. Стандартизация..........................................................................475
19. Собираем все вместе................................................................486
Оглавление 5
ЧАСТЬ 4. МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА МОДЕЛИ.....514
1. Бинарная классификация...........................................................514
1.1. Отрицательный и положительный классы, порог отсечения................514
1.2. Матрица ошибок.......................................................................................514
1.3. Доля правильных ответов, правильность (accuracy)..............................517
1.4. Чувствительность (sensitivity)..................................................................519
1.5. Специфичность (specificity) .....................................................................521
1.6. 1 – специфичность (1 – specificity)...........................................................522
1.7. Сбалансированная правильность............................................................523
1.8. Точность (Precision)...................................................................................524
1.9. Сравнение точности и чувствительности (полноты).............................525
1.10. F-мера (F-score, или F-measure).............................................................526
1.11. Варьирование порога отсечения............................................................532
1.12. Коэффициент Мэттьюса
(Matthews correlation coefficient или MCC).....................................................536
1.13. Каппа Коэна (Cohen's cappa)...................................................................540
1.14. ROC-кривая (ROC curve) и площадь
под ROC-кривой (AUC-ROC)............................................................................542
1.15. PR-кривая (PR curve) и площадь
под PR-кривой (AUC-PR).................................................................................603
1.16. Кривая Лоренца (Lorenz curve) и коэффициент Джини
(Gini coefficient)................................................................................................616
1.17. CAP-кривая (CAP curve)...........................................................................620
1.18. Статистика Колмогорова–Смирнова (Kolmogorov–Smirnov statistic)..... 623
1.19. Биномиальный тест (binomial test)........................................................626
1.20. Логистическая функция потерь (logistic loss).......................................628
2. Регрессия.......................................................................................634
2.1. R2, коэффициент детерминации
(R-square, coefficient of determination)...........................................................634
2.2. Метрики качества, которые зависят от масштаба данных
(RMSE, MSE, MAE, MdAE, RMSLE, MSLE).........................................................643
2.3. Метрики качества на основе процентных ошибок
(MAPE, MdAPE, sMAPE, sMdAPE, WAPE, WMAPE, RMSPE, RMdSPE)..............656
2.4. Метрики качества на основе относительных ошибок
(MRAE, MdRAE, GMRAE)..................................................................................689
2.5. Относительные метрики качества (RelMAE, RelRMSE)..........................697
2.6. Масштабированные ошибки (MASE, MdASE)..........................................698
2.7. Критерий Диболда–Мариано...................................................................705
ЧАСТЬ 5. ДРУГИЕ ПОЛЕЗНЫЕ БИБЛИОТЕКИ
И ПЛАТФОРМЫ............................................................................. 707
1. Библиотеки баейсовской оптимизации
hyperopt, scikit-optimize и optuna................................................. 707
6
Оглавление
1.1. Недостатки обычного поиска по сетке и случайного поиска
по сетке.............................................................................................................707
1.2. Знакомство с байесовской оптимизацией..............................................708
1.3. Последовательная оптимизация по модели
(Sequential model-based optimization – SMBO) ..............................................710
1.4. Hyperopt.....................................................................................................716
1.5. Scikit-Optimize...........................................................................................727
1.6. Optuna........................................................................................................732
2. Docker............................................................................................742
2.1. Введение....................................................................................................742
2.2. Запуск контейнера --">
15.7. Преобразование Бокса–Кокса................................................................129
16. Конструирование признаков...................................................135
16.1. Статическое конструирование признаков исходя
из предметной области...................................................................................135
16.2. Статическое конструирование признаков исходя из алгоритма........170
16.3. Динамическое конструирование признаков исходя
из особенностей алгоритма............................................................................290
16.4. Конструирование признаков для временных рядов............................297
17. Отбор признаков........................................................................433
17.1. Методы-фильтры....................................................................................436
17.2. Применение метода-фильтра и встроенного метода для отбора
признаков (на примере соревнования BNP Paribas Cardif Claims
Management с Kaggle)......................................................................................444
17.3. Комбинирование нескольких методов для отбора признаков
(на примере соревнования Porto Seguro’s Safe Driver
Prediction с Kaggle).................................................................................... 451
18. Стандартизация..........................................................................475
19. Собираем все вместе................................................................486
Оглавление 5
ЧАСТЬ 4. МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА МОДЕЛИ.....514
1. Бинарная классификация...........................................................514
1.1. Отрицательный и положительный классы, порог отсечения................514
1.2. Матрица ошибок.......................................................................................514
1.3. Доля правильных ответов, правильность (accuracy)..............................517
1.4. Чувствительность (sensitivity)..................................................................519
1.5. Специфичность (specificity) .....................................................................521
1.6. 1 – специфичность (1 – specificity)...........................................................522
1.7. Сбалансированная правильность............................................................523
1.8. Точность (Precision)...................................................................................524
1.9. Сравнение точности и чувствительности (полноты).............................525
1.10. F-мера (F-score, или F-measure).............................................................526
1.11. Варьирование порога отсечения............................................................532
1.12. Коэффициент Мэттьюса
(Matthews correlation coefficient или MCC).....................................................536
1.13. Каппа Коэна (Cohen's cappa)...................................................................540
1.14. ROC-кривая (ROC curve) и площадь
под ROC-кривой (AUC-ROC)............................................................................542
1.15. PR-кривая (PR curve) и площадь
под PR-кривой (AUC-PR).................................................................................603
1.16. Кривая Лоренца (Lorenz curve) и коэффициент Джини
(Gini coefficient)................................................................................................616
1.17. CAP-кривая (CAP curve)...........................................................................620
1.18. Статистика Колмогорова–Смирнова (Kolmogorov–Smirnov statistic)..... 623
1.19. Биномиальный тест (binomial test)........................................................626
1.20. Логистическая функция потерь (logistic loss).......................................628
2. Регрессия.......................................................................................634
2.1. R2, коэффициент детерминации
(R-square, coefficient of determination)...........................................................634
2.2. Метрики качества, которые зависят от масштаба данных
(RMSE, MSE, MAE, MdAE, RMSLE, MSLE).........................................................643
2.3. Метрики качества на основе процентных ошибок
(MAPE, MdAPE, sMAPE, sMdAPE, WAPE, WMAPE, RMSPE, RMdSPE)..............656
2.4. Метрики качества на основе относительных ошибок
(MRAE, MdRAE, GMRAE)..................................................................................689
2.5. Относительные метрики качества (RelMAE, RelRMSE)..........................697
2.6. Масштабированные ошибки (MASE, MdASE)..........................................698
2.7. Критерий Диболда–Мариано...................................................................705
ЧАСТЬ 5. ДРУГИЕ ПОЛЕЗНЫЕ БИБЛИОТЕКИ
И ПЛАТФОРМЫ............................................................................. 707
1. Библиотеки баейсовской оптимизации
hyperopt, scikit-optimize и optuna................................................. 707
6
Оглавление
1.1. Недостатки обычного поиска по сетке и случайного поиска
по сетке.............................................................................................................707
1.2. Знакомство с байесовской оптимизацией..............................................708
1.3. Последовательная оптимизация по модели
(Sequential model-based optimization – SMBO) ..............................................710
1.4. Hyperopt.....................................................................................................716
1.5. Scikit-Optimize...........................................................................................727
1.6. Optuna........................................................................................................732
2. Docker............................................................................................742
2.1. Введение....................................................................................................742
2.2. Запуск контейнера --">
- 1
- 2
- 3
- 4
- . . .
- последняя (218) »
Книги схожие с «Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества» по жанру, серии, автору или названию:
Коллектив авторов - Devpractice Team. Линейная алгебра на Python Жанр: Математика Год издания: 2019 |
Сергей Витальевич Букунов, Ольга Викторовна Букунов - Разработка приложений с графическим пользовательским интерфейсом на языке Python : учебное пособие... Жанр: Python Год издания: 2023 |
Дэвид Бизли - Python. Исчерпывающее руководство Жанр: Python Год издания: 2023 Серия: Для профессионалов |