Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
litresНазвание: | Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных | |
Автор: | Дэвид Хэнд | |
Жанр: | Базы данных, Экономика | |
Изадано в серии: | неизвестно | |
Издательство: | Альпина Паблишер | |
Год издания: | 2021 | |
ISBN: | 9785961458930 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"
Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
К этой книге применимы такие ключевые слова (теги) как: статистические данные,big data,анализ данных и исследования,статистика,обработка данных,анализ данных,аналитика
Читаем онлайн "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных" (ознакомительный отрывок). [Страница - 5]
Вот еще одна иллюстрация темных данных такого рода. В конце октября 2012 г. сильнейший ураган, получивший название «Сэнди»[5], обрушился на восточное побережье Соединенных Штатов. На тот момент это был второй по разрушительности ураган в истории США и крупнейший в истории атлантический ураган, причинивший ущерб в $75 млрд и унесший жизни более 200 человек в восьми странах. «Сэнди» затронул 24 штата (от Флориды на юге до Висконсина и штата Мэн на севере страны) и спровоцировал закрытие финансовых рынков из-за отключения электроэнергии. Надо признать, что поэтому он стал еще и косвенной причиной всплеска рождаемости спустя девять месяцев после описываемых событий.
Ураган «Сэнди» также стал настоящим триумфом современных СМИ. Ураган сопровождался шквалом сообщений в твиттер, который позволяет обсуждать происходящее сразу же и с тем, кто непосредственно участвует в событии. Вообще, социальные платформы – это способ быть в курсе событий в реальном времени, и «Сэнди» стал именно таким событием. В период с 27 октября по 1 ноября 2012 г. было опубликовано более 20 млн твитов об урагане. Очевидно, что это идеальный материал, на основе которого можно получить непрерывную картину стихийного бедствия по мере его развития – вы видите, какие районы пострадали больше всего и куда направить экстренную помощь.
Однако спустя какое-то время анализ показал, что наибольшее количество твитов о «Сэнди» пришло с Манхэттена и лишь немногие поступали из таких районов, как Рокуэй и Кони-Айленд. Означало ли это, что Рокуэй и Кони-Айленд пострадали не так серьезно? Метро и улицы Манхэттена были затоплены, это правда, но едва ли его можно назвать самым пострадавшим районом даже в пределах Нью-Йорка. Причина того, что из каких-то районов было послано меньше твитов, заключалась не в том, что ураган пощадил их, а в том, что на их территории оказалось меньше пользователей твиттера и меньшее число смартфонов, чтобы отправить твит.
Давайте снова представим себе крайний вариант этой ситуации. Если бы ураган «Сэнди» полностью уничтожил какой-нибудь населенный пункт, то оттуда вообще бы не поступало никаких твитов и создалось бы впечатление, что там все просто замечательно. Но на самом деле мы опять имеем дело с темными данными.
Примеры второго типа темных данных, когда мы не знаем, что чего-то не достает, встречаются не менее часто, чем примеры первого типа. Они варьируются от необнаруженных мошенничеств до незафиксированных убийств, выпадающих из результатов опроса жертв преступлений.
Как-то на информационном брифинге бывший министр обороны США Дональд Рамсфелд охарактеризовал темные данные второго типа, да так удачно, что его высказывание стало знаменитым: «Есть известные неизвестные; то есть мы знаем, что есть какие-то вещи, которых мы не знаем. Но есть также неизвестные неизвестные – те, о которых мы не знаем, что мы их не знаем»[6]. Этот замысловатый пассаж стал объектом насмешек для разнообразных СМИ, но их критика была несправедливой. То, что сказал Рамсфелд, было сущей правдой и имело глубокий смысл.
Эти первые два типа темных данных только начало. Далее мы познакомимся со множеством других, которые вкупе и составляют основу этой книги. Как вы увидите, темные данные разнообразны и до тех пор, пока мы не осознаем, что наши данные могут быть неполными; наблюдение чего-либо не означает наблюдения всего; процедура измерения может быть неточной; а то, что мы измеряем, на самом деле может оказаться не тем, что мы хотим измерить, мы рискуем получать результаты, далекие от истины, что зачастую и происходит. Тот факт, что никто не слышит, как в лесу падает дерево, не означает, что оно падает бесшумно.
Так вы думаете, у вас есть все данные?
Покупатель подходит к кассе супермаркета, выкладывает на ленту выбранные товары, лазер сканирует их штрихкоды, и каждый раз кассовый аппарат издает --">Книги схожие с «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» по жанру, серии, автору или названию:
А. Д. Хомоненко, В. М. Цыганков, М. Г. Мальцев - Базы данных: Учебник для высших учебных заведений. 4-е изд. Жанр: Базы данных Год издания: 2004 |
Джон Д. Келлехер, Брендан Тирни - Наука о данных. Базовый курс Жанр: Базы данных Год издания: 2020 |
Святослав Куликов - Реляционные базы данных в примерах Жанр: Базы данных Год издания: 2021 |
Алан Болье - Изучаем SQL. Генерация, выборка и обработка данных Жанр: Базы данных Год издания: 2021 |