Библиотека knigago >> Компьютеры и Интернет >> Учебники и самоучители по компьютеру >> Руководство по подготовке к Data science интервью


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 2190, книга: Долина звезд
автор: Константин Викторович Кузнецов

"Долина Звезд" - захватывающий фэнтезийный роман, созданный талантливым автором Константином Кузнецовым. Действие романа происходит в мифическом мире, богатом магией и загадками. Главным героем истории является Изгар, молодой человек, которому суждено спасти королевство от надвигающейся тьмы. Изгар отправляется в опасное путешествие в поисках мистической Долины Звезд, где, как говорят, обитает источник древней магии. По пути он встречает группу верных спутников, каждый из которых...

Ренат Алимбеков - Руководство по подготовке к Data science интервью

Руководство по подготовке к Data science интервью
Книга - Руководство по подготовке к Data science интервью.  Ренат Алимбеков  - прочитать полностью в библиотеке КнигаГо
Название:
Руководство по подготовке к Data science интервью
Ренат Алимбеков

Жанр:

Учебники и самоучители по компьютеру

Изадано в серии:

неизвестно

Издательство:

неизвестно

Год издания:

-

ISBN:

неизвестно

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Руководство по подготовке к Data science интервью"


Читаем онлайн "Руководство по подготовке к Data science интервью". [Страница - 4]

методов, обычно используемых для двоичной классификации:








Деревья решений
Случайные леса
Байесовские сети
Support vector machines (SVM)
Нейронные сети
Логистическая регрессия
Пробит-модель

Каждый классификатор лучше всего подходит только для выбранной области на основе
количества наблюдений, размерности вектора признаков, шума в данных и многих других
факторов. Например, случайные леса работают лучше, чем классификаторы SVM для трехмерных
облаков точек.
Есть много метрик, которые можно использовать для измерения производительности
классификатора или предиктора; разные метрики применяются для разных целей. В медицине
часто используются чувствительность и специфичность, тогда как при поиске информации
предпочтительны точность и охват (presicion и recall). Важное различие заключается между
метриками, которые не зависят от того, как часто каждая категория встречается в популяции
(распространенность), и метриками, которые зависят от распространенности - оба типа полезны,
но имеют очень разные свойства.
Учитывая классификацию конкретного набора данных, существует четыре основных комбинации
таргетов фактических данных и предсказанного таргета: истинно положительные TP
(правильные положительные присвоения), истинно отрицательные TN (правильные
отрицательные присвоения), ложные положительные результаты FP (неправильные
положительные назначения) и ложноотрицательные FN (неправильные отрицательные
отнесения).
Матрица ошибок
Результат положительный
Результат отрицательный



Состояние положительное
Истинно положительный (TP)
Ложноотрицательный (FN)

Состояние отрицательное
Ложный положительный (FP)
Истинно отрицательный (TN)

(P) - количество реальных положительных таргетов в данных







(N) - количество реальных отрицательных таргетов в данных
(TP) - истинно положительный
(TN) - истинно отрицательный
(FP) - ложное срабатывание, ошибка I рода
(FN) - ложноотрицательный, ошибка II рода

Чувствительность - частота совпадений или истинно положительный показатель (TPR)
Чувствительность измеряет долю правильно идентифицированных положительных результатов
(т.е. долю тех, у кого есть какое-либо заболевание, которые правильно идентифицированы как
имеющие заболевание).

Специфичность, селективность, истинно отрицательный показатель (TNR)
Специфичность измеряет долю правильно идентифицированных отрицательных результатов (т.
е. долю тех, у кого нет заболевания, которые правильно идентифицированы как не страдающие
этим заболеванием).

Положительная прогностическая ценность (PPV)

Отрицательная прогностическая ценность (NPV)

Ложноотрицательный показатель (FNR), процент промахов

Частота выпадений или ложных срабатываний (FPR)
В статистике при выполнении множественных сравнений коэффициент ложноположительных
результатов (также известный как коэффициент выпадений или ложных тревог) - это
вероятность ложного отклонения нулевой гипотезы для конкретного теста. Частота ложных
срабатываний рассчитывается как соотношение между количеством отрицательных событий,
ошибочно классифицированных как положительные (ложные срабатывания), и общим
количеством фактических отрицательных событий (независимо от классификации).

Коэффициент ложного обнаружения (FDR)

Коэффициент ложных пропусков (FOR)

Порог распространенности (PT)

Оценка угрозы (TS) или индекс критического успеха (CSI)

Точность (ACC)

Сбалансированная точность (BA)

Оценка F1 является средним гармоническим из точности и чувствительности

Коэффициент корреляции Мэтьюза (MCC)

Индекс Фаулкса – Маллоуса (FM)

Информированность или информированность(BM)

Маркировка (МК) или дельтаP (Δp)

Регрессия

Что такое регрессия? Какие модели можно использовать для решения задачи
регрессии?
Регрессия — это часть машинного обучения с учителем. Модели регрессии исследуют
взаимосвязь между зависимой (целевой) и независимой (-ыми) переменной (-ями)
(предиктором). Вот несколько распространенных регрессионных моделей:





Линейная регрессия устанавливает линейную зависимость между целью и предиктором.
Он предсказывает числовое значение и имеет форму прямой линии.
Полиномиальная регрессия имеет уравнение регрессии со степенью --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.