Библиотека knigago >> Компьютеры и Интернет >> Базы данных >> Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 1680, книга: Сборник постов
автор: А. Перов

"Сборник постов" А. Перова - это увлекательное погружение в повседневные наблюдения и опыт автора, собранные со страниц его блога. Понравились честные и откровенные посты, в которых автор делится своими мыслями, переживаниями и взглядами на жизнь. Книга не перегружена сюжетом или вымышленными персонажами, что позволяет сосредоточиться на личных размышлениях автора. Особое внимание уделяется темам саморазвития, поиска себя и испытания жизненного пути. Посты мотивируют и заставляют...

СЛУЧАЙНАЯ КНИГА

Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

litres Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
Книга - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных.  Дэвид Хэнд  - прочитать полностью в библиотеке КнигаГо
Название:
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
Дэвид Хэнд

Жанр:

Базы данных, Экономика

Изадано в серии:

неизвестно

Издательство:

Альпина Паблишер

Год издания:

ISBN:

9785961458930

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.


К этой книге применимы такие ключевые слова (теги) как: статистические данные,big data,анализ данных и исследования,статистика,обработка данных,анализ данных,аналитика

Читаем онлайн "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных" (ознакомительный отрывок). [Страница - 4]

нарочито неправдоподобную, крайнюю ситуацию: предположим, что все 146 270 человек с известными исходами выжили и выздоровели без лечения, а 19 289 с неизвестными исходами умерли в течение двух дней после обращения в больницу. Если бы мы игнорировали последних, то неизбежно пришли бы к выводу, что беспокоиться не о чем – ведь все пациенты с травмами выздоравливают сами собой. Исходя из этого, мы бы просто не стали их лечить, ожидая естественного выздоровления. И вскоре были бы шокированы и озадачены тем фактом, что более 11 % пациентов умерли.

Прежде чем продолжить, я должен вас успокоить – в реальности все обстоит не так уж плохо. Во-первых, приведенный выше сценарий действительно наихудший из возможных, а во-вторых, доктор Миркес и его коллеги являются экспертами по анализу недостающих данных. Они прекрасно осознают опасность и разрабатывают статистические методы решения проблемы, о которых мы поговорим позже. Я привел такой ужасающий пример лишь для того, чтобы показать: вещи могут быть не такими, какими кажутся. В самом деле, если бы мне нужно было сформулировать основную идею этой книги, она бы, пожалуй, звучала примерно так: хотя иметь много данных полезно, большие данные, то есть объем, – это еще далеко не все. И то, чего вы не знаете, те данные, которых у вас нет, могут быть важнее для понимания происходящего, чем те, которыми вы располагаете. Во всяком случае, как мы увидим дальше, проблемы темных данных – это не только проблемы больших данных: они характерны и для малых наборов данных. Они вездесущи.

Пример с базой данных TARN, конечно, преувеличен, но он служит предупреждением. Возможно, результаты 19 289 пациентов не были зарегистрированы именно потому, что все они умерли в течение 30 дней. Ведь если исход заносился в базу на основании опроса пациентов через 30 дней после обращения, чтобы оценить их состояние, то никто из умерших просто не ответил на вопросы. Если бы мы не допускали возможность этого, то никогда бы не фиксировали смерть таких пациентов.

На первый взгляд это кажется нелепым, но в реальности такие ситуации возникают довольно часто. Допустим, модель прогнозирования эффективности того или иного лечения основывается на результатах предыдущих пациентов, которые получали такое лечение. Но что, если время лечения предыдущих пациентов было недостаточным для достижения результата? Тогда для некоторых из них конечный исход окажется неизвестен, а модель, построенная только на известных результатах, будет вводить в заблуждение.

Похожая ситуация возникает и с опросами, когда отсутствие ответов становится источником затруднений. Исследователи обычно имеют некий идеальный список людей, от которых они хотели бы получить ответы, но, как правило, отвечают не все. Если все те, кто отвечает, каким-то образом отличаются от тех, кто этого не делает, то у исследователей появляется основание усомниться в достоверности статистической сводки для данной группы населения. В конце концов, если бы некий журнал затеял опрос своих подписчиков, задав им единственный вопрос: «Отвечаете ли вы на журнальные опросы?», тот факт, что 100 % ответивших скажут «да», еще не говорил бы о том, что все подписчики отвечают на подобные опросы.

Предыдущие примеры иллюстрируют первый тип темных данных. Мы знаем, что данные для пациентов TARN существуют, даже если не все значения учтены. Мы знаем, что у людей в списке опроса были ответы, даже если они их не давали. В общем, мы знаем, что существуют некоторые значения данных, но не знаем, какие именно.

Следующие примеры познакомят нас с другим типом темных данных – DD-тип 2: данные, о которых мы не знаем, что они отсутствуют.

Многие города сталкиваются с проблемой выбоин в дорожном покрытии. Вода попадает в мелкие трещины, замерзает зимой, расширяя их, а колеса автомобилей довершают разрушительную работу. В результате у машин портятся колеса и подвеска. Бостон решил бороться с этой проблемой с помощью современных технологий. Он выпустил приложение для смартфона, которое использовало внутренний акселерометр устройства, чтобы определять тряску автомобиля, проехавшего по выбоине, а затем с помощью GPS автоматически передавать ее координаты городским властям.

Фантастика! Теперь люди, обслуживающие шоссе, будут точно знать, куда ехать, чтобы залатать выбоины. Однако это элегантное и дешевое решение реальной проблемы, основанное на современных технологиях анализа данных, не --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.