Ренат Алимбеков - Руководство по подготовке к Data science интервью

	Название:	Руководство по подготовке к Data science интервью
	Автор:	Ренат Алимбеков
	Жанр:	Учебники и самоучители по компьютеру
	Изадано в серии:	неизвестно
	Издательство:	неизвестно
	Год издания:	-
	ISBN:	неизвестно
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Руководство по подготовке к Data science интервью"

Читаем онлайн "Руководство по подготовке к Data science интервью". Главная страница.

РУКОВОДСТВО
ПО ПОДГОТОВКЕ К
DATA SCIENCE ИНТЕРВЬЮ
Автор
Ренат Алимбеков

Первое издание
2021

Статистика и теория вероятности
Что такое центральная предельная теорема? Объясните ее. Почему она важна?
Центральная предельная теорема гласит, что выборочное распределение выборочного среднего
приближается к нормальному распределению по мере того, как размер выборки увеличивается,
независимо от формы распределения генеральной совокупности
Центральная предельная теорема важна, потому что она используется при проверке гипотез, а
также для вычисления доверительных интервалов.

Что такое статистическая мощность?
Статистическая мощность - вероятность отклонения основной (или нулевой) гипотезы
при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная)
гипотеза верна.

Как поступать с отсутствующими данными? Какие методы вы рекомендуете?
Есть несколько способов исправить недостающие данные:






Удалить строки с отсутствующими данными
Среднее / Медиана / Мода
Присвоение уникального значения
Прогнозирование недостающих значений
Использование алгоритма, поддерживающего
случайный лес

пропущенные

значения,

например

Наилучшим методом является удаление строк с отсутствующими данными, поскольку это
гарантирует, что смещение или отклонение не будет добавлено или удалено, и в конечном итоге
приведет к созданию надежной и точной модели. Однако это можно рекомендовать только в том
случае, если есть достаточно данных и процент пропущенных значений невелик.

Распределения
Нормальное распределение
Нормальное распределение, также известное как распределение Гаусса. Нормальное
распределение, вероятно, является самым популярным распределением вероятностей. Это
непрерывное распределение в форме колокола, симметричное среднему значению. Функция
плотности вероятности для нормального распределения выглядит следующим образом:

где μ - среднее значение, а σ - стандартное отклонение распределения.
Среднее значение (μ): Среднее значение всех точек в сэмпле.
Стандартное отклонение (σ): насколько набор данных отклоняется от среднего значения
выборки.
Некоторые характерные особенности нормального распределения заключаются в следующем:
1.
2.

3.
4.
5.
6.
7.

Оно симметрично относительно среднего.
Оно следует колоколообразной кривой. Каждая кривая колокола не обязательно должна
быть нормальным распределением, но каждое нормальное распределение является
кривой колокола.
Среднее значение, медиана и моды равны.
Общая площадь под кривой равна 1.
68,26% данных находится в пределах одного стандартного отклонения от среднего.
95,44% данных находится между двумя стандартными отклонениями среднего.
99,73% данных лежат между тремя стандартными отклонениями среднего.

Нормальное распределение получает свою важность из Центральной предельной теоремы,
которая гласит, что если мы возьмем достаточно большое количество выборок, их среднее будет
следовать нормальному распределению независимо от начального распределения выборки, то
есть распределения среднего значения выборок нормально. Важно, чтобы каждый сэмпл не
зависел от другого.
Позвольте представить новую переменную с именем z. Z - разница между каждым элементом
данных и средним значением, деленное на стандартное отклонение. Формула:

Интересная особенность z заключается в том, что:
E(z) = 0 (Expected value = 0)
V(Z) = 1 (Variance =1)
Процесс преобразования значений в столбце в соответствующие им значения z называется
стандартизацией. Кроме того, в данных, которые следует нормальному распределению, даже
значения z подчиняются нормальному распределению. Итак, мы можем сказать, что когда, X ~ N
(mu, sigma²), это означает, что следуют соответствующие значения z, Z ~ N (0,1²).

Как мы проверяем, соответствует ли переменная нормальному распределению?
1.

2.

3.
4.

Постройте гистограмму из выборочных данных. Если вы можете подогнать
колоколообразную «нормальную» кривую к гистограмме, то гипотезу о том, что основная
случайная величина следует нормальному распределению, нельзя отвергнуть.
Проверьте Skewness и Kurtosis выборочных данных. Skewness = 0 и Kurtosis = 3 типичны
для нормального распределения, поэтому, чем дальше они от этих значений, тем более
ненормальное --">

Оставить комментарий:

Книги схожие с «Руководство по подготовке к Data science интервью» по жанру, серии, автору или названию:

Компас-3D V7. Наиболее полное руководство. Е. М. Кудрявцев

Е. М. Кудрявцев - Компас-3D V7. Наиболее полное руководство

Жанр: Руководства и инструкции

Год издания: 2005

Winternals: руководство по администрированию, восстановлению, дефрагментации. Дейв Клейман

Дейв Клейман - Winternals: руководство по администрированию, восстановлению, дефрагментации

Жанр: ОС: администрирование, мониторинг, диагностика

Год издания: 2007

Восстановление данных. Практическое руководство. Крис Касперски

Крис Касперски - Восстановление данных. Практическое руководство

Жанр: Учебники и самоучители по компьютеру

Год издания: 2006

Ягодники. Руководство по разведению крыжовника и смородины. Михаил В Рытов

Михаил В Рытов - Ягодники. Руководство по разведению крыжовника и смородины

Жанр: Сад и огород

Год издания: 2012

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Как выбрать цветной принтер для домашнего использования