Библиотека knigago >> Компьютеры и Интернет >> Базы данных >> Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 2241, книга: Как распинали мистера Кэйтерера
автор: Дэшил Хэммет

Классический детектив "Как распинали мистера Кэйтерера" Дэшила Хэммета - это захватывающая и интригующая история, которая увлекает читателя с первых же страниц. В центре сюжета находится Пол Мэддиган, частный детектив, которого нанимает богатый бизнесмен для расследования смерти своего брата Уоррена Кэйтерера. По мере расследования Мэддиган погружается в запутанный мир лжи, предательства и жадности. Хэммет мастерски создает атмосферу подозрительности и опасности. Его персонажи...

СЛУЧАЙНАЯ КНИГА

Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

litres Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
Книга - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных.  Дэвид Хэнд  - прочитать полностью в библиотеке КнигаГо
Название:
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
Дэвид Хэнд

Жанр:

Базы данных, Экономика

Изадано в серии:

неизвестно

Издательство:

Альпина Паблишер

Год издания:

ISBN:

9785961458930

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
К этой книге применимы такие ключевые слова (теги) как: статистические данные,big data,анализ данных и исследования,статистика,обработка данных,анализ данных,аналитика

Читаем онлайн "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных" (ознакомительный отрывок). [Страница - 3]

катастрофическими и даже фатальными.

Цель этой книги – исследовать, как и почему возникают темные данные. Мы рассмотрим различные виды темных данных, проследим, что приводит к их появлению, и выясним, как не допустить этого. Мы разберемся с тем, какие меры имеет смысл предпринимать, когда становится ясно, что темные данные все же имеются. А еще мы посмотрим, как этими данными, несмотря на их отсутствие, можно воспользоваться. Хотя это кажется странным, даже парадоксальным, но мы можем обернуть наше незнание себе во благо, учась принимать более правильные решения и повышая эффективность своих действий. На практике разумное использование неизвестности означает более крепкое здоровье, дополнительные деньги и меньшие риски. Я вовсе не имею в виду сокрытие информации от других (хотя, как мы увидим, намеренно скрытые сведения – это весьма распространенный вид темных данных). Речь идет о гораздо более тонких методах, которые могут стать выгодными для всех.

Темные данные принимают различные формы, возникают по разным причинам, и эта книга среди прочего содержит классификацию типов темных данных, обозначаемых как DD-тип x. Всего я насчитал 15 таких DD-типов, но не берусь утверждать, что эта классификация является исчерпывающей. Учитывая большое разнообразие причин, по которым возникают темные данные, не исключено, что полная классификация просто невозможна. Более того, многие образцы темных данных соединяют в себе несколько DD-типов – они могут действовать независимо друг от друга, а могут проявлять некое подобие синергии, усиливая негативный эффект. Но, несмотря на это, обладание информацией о DD-типах и изучение темных данных на конкретных примерах помогает вовремя выявить проблему и защититься от возможных угроз. Список DD-типов, упорядоченных по сходству, вы найдете в конце этой главы, а в главе 10 я опишу их более подробно. В книге есть указания на то, где можно встретить примеры того или иного типа, однако я намеренно не пытался перечислить все возможные места существования темных данных – в этой книге такой подход был бы излишним.

Давайте перейдем к одному из таких примеров. В медицине понятие «травма» означает повреждение с возможными долговременными последствиями. Травмы являются одной из наиболее серьезных причин сокращения продолжительности жизни и инвалидности, а также самой распространенной причиной гибели людей в возрасте до 40 лет. Компьютерная база данных TARN является самой большой медицинской базой данных о травмах в Европе. В нее стекаются данные о полученных травмах из более чем 200 больниц, в числе которых 93 % всех больниц Англии и Уэльса, а также больницы в Ирландии, Нидерландах и Швейцарии. Безусловно, это очень большой объем данных для прогнозирования и изучения эффективности медицинского вмешательства при травмах.

Доктор Евгений Миркес и его коллеги из Лестерского университета в Великобритании провели исследование этой базы данных и выяснили: из 165 559 зарегистрированных травм исход 19 289 случаев оказался неизвестным[4]. «Исход» в данном случае определяется тем, выживает пациент или нет в течение 30 дней после травмы. Иначе говоря, 30-дневная выживаемость неизвестна для более чем 11 % пациентов. Этот пример иллюстрирует распространенную форму темных данных – DD-тип 1: данные, о которых мы знаем, что они отсутствуют. Иначе говоря, нам известно, что травмы у этих пациентов чем-то закончились, – мы просто не знаем, чем именно.

Можно, конечно, сказать: «Нет проблем, давайте просто проанализируем 146 270 пациентов, для которых исход известен, и будем делать выводы и прогнозы на основе этой информации». В конце концов, 146 270 тоже немало – в сфере медицины это уже большие данные. Поэтому мы можем смело утверждать, что понимание, основанное на этих данных, будет верным.

Но так ли это на самом деле? Возможно, 19 289 недостающих случаев сильно отличаются от других. В конце концов, их необычность уже в самой неизвестности исхода, так почему же они не могут отличаться и чем-то другим? Как следствие, анализ 146 270 пациентов с известными исходами может быть ошибочным по отношению к общей совокупности пациентов с травмами. Таким образом, действия, предпринимаемые на основе подобного анализа, могут быть в корне неверными и привести к ошибочным прогнозам, ложным предписаниям и несоответствующим режимам лечения с неблагоприятными и даже фатальными последствиями для пациентов.

Давайте возьмем --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.