Ренат Алимбеков - Руководство по подготовке к Data science интервью

	Название:	Руководство по подготовке к Data science интервью
	Автор:	Ренат Алимбеков
	Жанр:	Учебники и самоучители по компьютеру
	Изадано в серии:	неизвестно
	Издательство:	неизвестно
	Год издания:	-
	ISBN:	неизвестно
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Руководство по подготовке к Data science интервью"

Читаем онлайн "Руководство по подготовке к Data science интервью". [Страница - 12]

которая
будет выглядеть так:

Следовательно, его градиент исчезнет в 3 точках. Так что у него также будут локальные
минимумы, что не является нашим оптимальным решением. Нам нужно найти точку в
глобальном минимуме, чтобы найти оптимальное решение. Так что давайте остановимся на
самих квадратах.
MSE (Mean Squared Error) среднеквадратичная ошибка
Теперь представьте, что мы используем SSE в качестве функции потерь. Итак, если у нас есть
набор данных, скажем, из 100 точек, наш SSE будет, скажем, 200. Если мы увеличим количество
точек данных до 500, наш SSE увеличится, поскольку теперь в сумме квадратов ошибок будет 500
точек данных. Допустим, оно становится 800. Если мы снова увеличим количество точек данных,
наш SSE увеличится еще больше. Справедливо? Точно нет!

Ошибка должна уменьшаться по мере того, как мы увеличиваем наши выборочные данные,
поскольку распределение наших данных становится все более узким (относится к нормальному
распределению). Чем больше у нас данных, тем меньше ошибок. Но в случае с SSE происходит
полная противоположность. Вот, наконец, и наш воин - Mean Squared Error:

Мы берем среднее значение SSE. Чем больше данных, тем меньше будет агрегированная ошибка
MSE.

Как видите, ошибка уменьшается по мере того, как наш алгоритм набирает все больше и больше
опыта. Среднеквадратичная ошибка используется в качестве метрики по умолчанию для оценки
производительности большинства алгоритмов регрессии, будь то R, Python или даже MATLAB.
Среднеквадратичная ошибка (RMSE):
Единственная проблема с MSE заключается в том, что порядок потери больше, чем порядок
данных. Поскольку мои данные имеют порядок 1 и функцию потерь, MSE имеет порядок 2. Таким
образом, мы не можем напрямую соотнести данные с ошибкой. Следовательно, мы берем корень
MSE - среднеквадратичной ошибки:

Здесь мы не меняем функцию потерь, и решение остается прежним. Все, что мы сделали, — это
уменьшили порядок функции потерь, взяв корень.
Хьюбер Лосс
Лосс Хьюбера сочетает в себе лучшие свойства MSE и MAE (средней абсолютной ошибки). Он
квадратичен для меньших ошибок и линейен в противном случае (и аналогично для его
градиента). Он идентифицируется по своему дельта- параметру:

Потери Хьюбера менее чувствительны или более устойчивы к выбросам в данных, чем MSE. Он
также дифференцируем на 0. Это в основном абсолютная ошибка, которая становится
квадратичной, когда ошибка мала. Насколько мала эта ошибка, чтобы сделать ее квадратичной,
зависит от гиперпараметра 𝛿 (дельта), который можно настроить. Потери Хьюбера
приближаются к MAE, когда ~ 0, и MSE, когда ~ ∞ (большие числа).

Смещение (Bias)
Смещение — это величина, на которую прогноз модели отличается от целевого значения по
сравнению с данными обучения. Ошибка смещения возникает из-за упрощения допущений,
используемых в модели, поэтому целевые функции легче аппроксимировать.

Разброс (Variance)
Разброс описывает, насколько случайная величина отличается от ожидаемого значения. Разброс
основан на одной обучающей выборке.
Компромисс смещения и разброса (Bias / Variance Tradeoff)
Есть удивительное уравнение, чтобы поймать этот баланс:

Неприводимая ошибка — это ошибка, которую вы не можете зафиксировать с помощью своей
модели, независимо от обстоятельств. Это случайный шум набора данных.
Это уравнение интересно, потому что оно сигнализирует о важной взаимосвязи между смещением
и разбросом: они имеют обратную взаимосвязь.
Как вы можете видеть на изображении ниже, по мере уменьшения смещения разброс
увеличивается и наоборот.

Оптимальная модель - это та, которая сводит к минимуму смещение и дисперсию.

Итак, как мы можем создать оценку для наших моделей, которая должным образом
отражает смещение и разброс?
В конце концов, мы видели в приведенном выше примере, что модель с лучшим показателем 2R2
не была лучшей моделью для использования.
Наиболее популярными методами являются стратегия набора проверки и перекрестная
проверка.

Data Science вопросы для интервью
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

Почему в Наивном Байесе мы предполагаем, что функции условно независимы?
Sklearn имеет GaussianNB, MultinomialNB, КатегориальныйNB, BernoulliNB → Какую модель
вы выберете для данных с категориями, числовыми, двоичными характеристиками?
Как реализовать Multinomial Naive Bayes с нуля для текстовых данных и --">

Оставить комментарий:

Книги схожие с «Руководство по подготовке к Data science интервью» по жанру, серии, автору или названию:

Основы Python для Data Science. Берман Кеннеди

Берман Кеннеди - Основы Python для Data Science

Жанр: Учебники и самоучители по компьютеру

Юлий Васильев - Python для data science

Жанр: Учебники и самоучители по компьютеру

Интервью с Вампиром или Закрывайте на ночь окна (СИ). Наталия Малеваная

Наталия Малеваная - Интервью с Вампиром или Закрывайте на ночь окна (СИ)

Жанр: Короткие любовные романы

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Какой шрифт лучше использовать для сайта