Библиотека knigago >> Компьютеры и Интернет >> Учебники и самоучители по компьютеру >> Руководство по подготовке к Data science интервью


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 844, книга: Бешенство
автор: Иван Панин

«Бешенство» Ивана Панина — захватывающий сборник научной фантастики, который исследует темы технологий будущего, монстров и чрезвычайных ситуаций. Книга не только предлагает захватывающий сюжет, но и поднимает важные вопросы о человеческом состоянии и борьбе за выживание. Рассказы в сборнике варьируются от напряженных историй о борьбе против ужасающих монстров до трогательных историй о человеческой изобретательности и мужестве. Панин мастерски создает атмосферу напряжения и страха, заставляя...

Ренат Алимбеков - Руководство по подготовке к Data science интервью

Руководство по подготовке к Data science интервью
Книга - Руководство по подготовке к Data science интервью.  Ренат Алимбеков  - прочитать полностью в библиотеке КнигаГо
Название:
Руководство по подготовке к Data science интервью
Ренат Алимбеков

Жанр:

Учебники и самоучители по компьютеру

Изадано в серии:

неизвестно

Издательство:

неизвестно

Год издания:

-

ISBN:

неизвестно

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Руководство по подготовке к Data science интервью"


Читаем онлайн "Руководство по подготовке к Data science интервью". [Страница - 12]

которая
будет выглядеть так:

Следовательно, его градиент исчезнет в 3 точках. Так что у него также будут локальные
минимумы, что не является нашим оптимальным решением. Нам нужно найти точку в
глобальном минимуме, чтобы найти оптимальное решение. Так что давайте остановимся на
самих квадратах.
MSE (Mean Squared Error) среднеквадратичная ошибка
Теперь представьте, что мы используем SSE в качестве функции потерь. Итак, если у нас есть
набор данных, скажем, из 100 точек, наш SSE будет, скажем, 200. Если мы увеличим количество
точек данных до 500, наш SSE увеличится, поскольку теперь в сумме квадратов ошибок будет 500
точек данных. Допустим, оно становится 800. Если мы снова увеличим количество точек данных,
наш SSE увеличится еще больше. Справедливо? Точно нет!

Ошибка должна уменьшаться по мере того, как мы увеличиваем наши выборочные данные,
поскольку распределение наших данных становится все более узким (относится к нормальному
распределению). Чем больше у нас данных, тем меньше ошибок. Но в случае с SSE происходит
полная противоположность. Вот, наконец, и наш воин - Mean Squared Error:

Мы берем среднее значение SSE. Чем больше данных, тем меньше будет агрегированная ошибка
MSE.

Как видите, ошибка уменьшается по мере того, как наш алгоритм набирает все больше и больше
опыта. Среднеквадратичная ошибка используется в качестве метрики по умолчанию для оценки
производительности большинства алгоритмов регрессии, будь то R, Python или даже MATLAB.
Среднеквадратичная ошибка (RMSE):
Единственная проблема с MSE заключается в том, что порядок потери больше, чем порядок
данных. Поскольку мои данные имеют порядок 1 и функцию потерь, MSE имеет порядок 2. Таким
образом, мы не можем напрямую соотнести данные с ошибкой. Следовательно, мы берем корень
MSE - среднеквадратичной ошибки:

Здесь мы не меняем функцию потерь, и решение остается прежним. Все, что мы сделали, — это
уменьшили порядок функции потерь, взяв корень.
Хьюбер Лосс
Лосс Хьюбера сочетает в себе лучшие свойства MSE и MAE (средней абсолютной ошибки). Он
квадратичен для меньших ошибок и линейен в противном случае (и аналогично для его
градиента). Он идентифицируется по своему дельта- параметру:

Потери Хьюбера менее чувствительны или более устойчивы к выбросам в данных, чем MSE. Он
также дифференцируем на 0. Это в основном абсолютная ошибка, которая становится
квадратичной, когда ошибка мала. Насколько мала эта ошибка, чтобы сделать ее квадратичной,
зависит от гиперпараметра 𝛿 (дельта), который можно настроить. Потери Хьюбера
приближаются к MAE, когда ~ 0, и MSE, когда ~ ∞ (большие числа).

Смещение (Bias)
Смещение — это величина, на которую прогноз модели отличается от целевого значения по
сравнению с данными обучения. Ошибка смещения возникает из-за упрощения допущений,
используемых в модели, поэтому целевые функции легче аппроксимировать.

Разброс (Variance)
Разброс описывает, насколько случайная величина отличается от ожидаемого значения. Разброс
основан на одной обучающей выборке.
Компромисс смещения и разброса (Bias / Variance Tradeoff)
Есть удивительное уравнение, чтобы поймать этот баланс:

Неприводимая ошибка — это ошибка, которую вы не можете зафиксировать с помощью своей
модели, независимо от обстоятельств. Это случайный шум набора данных.
Это уравнение интересно, потому что оно сигнализирует о важной взаимосвязи между смещением
и разбросом: они имеют обратную взаимосвязь.
Как вы можете видеть на изображении ниже, по мере уменьшения смещения разброс
увеличивается и наоборот.

Оптимальная модель - это та, которая сводит к минимуму смещение и дисперсию.

Итак, как мы можем создать оценку для наших моделей, которая должным образом
отражает смещение и разброс?
В конце концов, мы видели в приведенном выше примере, что модель с лучшим показателем 2R2
не была лучшей моделью для использования.
Наиболее популярными методами являются стратегия набора проверки и перекрестная
проверка.

Data Science вопросы для интервью
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

Почему в Наивном Байесе мы предполагаем, что функции условно независимы?
Sklearn имеет GaussianNB, MultinomialNB, КатегориальныйNB, BernoulliNB → Какую модель
вы выберете для данных с категориями, числовыми, двоичными характеристиками?
Как реализовать Multinomial Naive Bayes с нуля для текстовых данных и --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.