Библиотека knigago >> Компьютеры и Интернет >> Учебники и самоучители по компьютеру >> Руководство по подготовке к Data science интервью


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 1473, книга: Четвероногий сейсмолог
автор: Карл Фредерик

*Автор:* Карл Фредерик *Жанр:* Научная Фантастика "Четвероногий Сейсмолог" - захватывающий научно-фантастический роман, который исследует уникальную связь между человеком и животным. Главным героем истории является Хью Блейк, выдающийся сейсмолог, который вместе со своим верным золотистым ретривером, Дунканом, отправляется в отдаленный горный хребет для проведения исследовательской миссии. Однако их мирная экспедиция обращается в хаос, когда серия мощных землетрясений обрушивается...

Ренат Алимбеков - Руководство по подготовке к Data science интервью

Руководство по подготовке к Data science интервью
Книга - Руководство по подготовке к Data science интервью.  Ренат Алимбеков  - прочитать полностью в библиотеке КнигаГо
Название:
Руководство по подготовке к Data science интервью
Ренат Алимбеков

Жанр:

Учебники и самоучители по компьютеру

Изадано в серии:

неизвестно

Издательство:

неизвестно

Год издания:

-

ISBN:

неизвестно

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Руководство по подготовке к Data science интервью"



Читаем онлайн "Руководство по подготовке к Data science интервью". Главная страница.

РУКОВОДСТВО
ПО ПОДГОТОВКЕ К
DATA SCIENCE ИНТЕРВЬЮ
Автор
Ренат Алимбеков

Первое издание
2021

Статистика и теория вероятности
Что такое центральная предельная теорема? Объясните ее. Почему она важна?
Центральная предельная теорема гласит, что выборочное распределение выборочного среднего
приближается к нормальному распределению по мере того, как размер выборки увеличивается,
независимо от формы распределения генеральной совокупности
Центральная предельная теорема важна, потому что она используется при проверке гипотез, а
также для вычисления доверительных интервалов.

Что такое статистическая мощность?
Статистическая мощность - вероятность отклонения основной (или нулевой) гипотезы
при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная)
гипотеза верна.

Как поступать с отсутствующими данными? Какие методы вы рекомендуете?
Есть несколько способов исправить недостающие данные:






Удалить строки с отсутствующими данными
Среднее / Медиана / Мода
Присвоение уникального значения
Прогнозирование недостающих значений
Использование алгоритма, поддерживающего
случайный лес

пропущенные

значения,

например

Наилучшим методом является удаление строк с отсутствующими данными, поскольку это
гарантирует, что смещение или отклонение не будет добавлено или удалено, и в конечном итоге
приведет к созданию надежной и точной модели. Однако это можно рекомендовать только в том
случае, если есть достаточно данных и процент пропущенных значений невелик.

Распределения
Нормальное распределение
Нормальное распределение, также известное как распределение Гаусса. Нормальное
распределение, вероятно, является самым популярным распределением вероятностей. Это
непрерывное распределение в форме колокола, симметричное среднему значению. Функция
плотности вероятности для нормального распределения выглядит следующим образом:

где μ - среднее значение, а σ - стандартное отклонение распределения.
Среднее значение (μ): Среднее значение всех точек в сэмпле.
Стандартное отклонение (σ): насколько набор данных отклоняется от среднего значения
выборки.
Некоторые характерные особенности нормального распределения заключаются в следующем:
1.
2.

3.
4.
5.
6.
7.

Оно симметрично относительно среднего.
Оно следует колоколообразной кривой. Каждая кривая колокола не обязательно должна
быть нормальным распределением, но каждое нормальное распределение является
кривой колокола.
Среднее значение, медиана и моды равны.
Общая площадь под кривой равна 1.
68,26% данных находится в пределах одного стандартного отклонения от среднего.
95,44% данных находится между двумя стандартными отклонениями среднего.
99,73% данных лежат между тремя стандартными отклонениями среднего.

Нормальное распределение получает свою важность из Центральной предельной теоремы,
которая гласит, что если мы возьмем достаточно большое количество выборок, их среднее будет
следовать нормальному распределению независимо от начального распределения выборки, то
есть распределения среднего значения выборок нормально. Важно, чтобы каждый сэмпл не
зависел от другого.
Позвольте представить новую переменную с именем z. Z - разница между каждым элементом
данных и средним значением, деленное на стандартное отклонение. Формула:

Интересная особенность z заключается в том, что:
E(z) = 0 (Expected value = 0)
V(Z) = 1 (Variance =1)
Процесс преобразования значений в столбце в соответствующие им значения z называется
стандартизацией. Кроме того, в данных, которые следует нормальному распределению, даже
значения z подчиняются нормальному распределению. Итак, мы можем сказать, что когда, X ~ N
(mu, sigma²), это означает, что следуют соответствующие значения z, Z ~ N (0,1²).

Как мы проверяем, соответствует ли переменная нормальному распределению?
1.

2.

3.
4.

Постройте гистограмму из выборочных данных. Если вы можете подогнать
колоколообразную «нормальную» кривую к гистограмме, то гипотезу о том, что основная
случайная величина следует нормальному распределению, нельзя отвергнуть.
Проверьте Skewness и Kurtosis выборочных данных. Skewness = 0 и Kurtosis = 3 типичны
для нормального распределения, поэтому, чем дальше они от этих значений, тем более
ненормальное --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.