Основной контент книги Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
Text book synchronized with audiotext

Volume 377 pages

2020 year

12+

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

синхронизировано с аудио
synchronized with audio
livelib16
4,1
39 ratings
$4.57

About the book

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Other versions

1 book from $5.59

Просмотр других отзывов вызывает некоторое недоумение. Эти комментаторы точно читали книгу?

Итак, о чем же книга: эта книга написана президентом Британского Королевского Статистического Общества, и основная ее тема это теория вероятности и математическая статистика. Целевая аудитория – те кому нравится творчество Талеба, Млодинова, Мобуссина и других сходных авторов.

Из того, что я читал, похоже на книгу «Как лгать при помощи статистики» Дарелла Хаффа. Но гораздо глубже и современнее конечно.

В книге разбираются такие вопросы как, например, что делать если в социологическом опросе часть респондентов вообще не ответили на вопросы? Можно их просто не учитывать? (спойлер: нет, нельзя) Ну или как поступать, когда при испытаниях нового лекарства часть испытуемых по собственному желанию вышли из программы досрочно. Можно их просто вычеркнуть, как будто их и не было никогда? (спойлер: снова нет). Вот это и есть те самые «темные данные» которым посвящена книга.

Эта книга НЕ ПРО приватность и сохранность личных данных в интернете. Этот вопрос пару раз упоминается но совершенно мимоходом.

Также эта книга НЕ ПРО Big Data. Все что рассматривается тут это структурированные данные полученные от агентств вроде министерства здравоохранения или в ходе, скажем, клинического эксперимента. Big Data это обработка естественного языка, изображений, звука и видео контента. В книге про это нет ничего или почти ничего.

Этические вопросы сбора данных о людях по большей части тоже лежат за пределами данной книги. Тоже пара упоминаний вскользь о том, что такая проблема в принципе есть – не более того. Так что книга НЕ ПРО это тоже.

Ближе к самой книге: первая половина, на мой взгляд, написана просто отлично. Очень интересно, много классных вопросов и примеров. Все по теме. Вторая половина, к сожалению, огорчает. Автор начинает слишком сильно растекаться мыслями. Получается повествование просто обо всем и в результате ни о чем одновременно. Он пытается охватить сразу и астрофизику и биржевые махинации и медицинские вопросы и вообще все. В итоге повествование теряет фокус, становится расплывчатым и неконкретным.

Было бы лучше, если бы автор пошел не в ширь, а в глубь. То есть более глубоко рассмотрел поднятые им же самим вопросы. Почему промахивались социологические опросы касательно победы Трампа? Почему статистические органы рапортуют аномально низкие показатели инфляции хотя потребители отмечают повышение цен? А промахи опросов касательно брексита? Вот где не мешало бы покопаться в темных данных.

А как насчет проблем с кредитным скорингом перед кризисом 2008 года? Как получалось, что множество заемщиков невероятно низкого качества получило такие объемы кредитов? Я изучал вопрос более глубоко и знаю, что тут тоже не обошлось без изрядной доли темных данных.

В общем, за первую половину книги 5 звезд, а за вторую половину две. В итоге в среднем 3,5 звезды, которые я округлил в пользу автора до 4. Почитать все же стоит.

Мы живем в мире в котором, казалось бы, уже есть бесчисленное множество информации и знаний о каждом из нас. Но на самом деле существует иная сторона – Dark Data – «темные данные», которые хранятся, но нигде не используются! Простой пример – при текущем уровне развития искусственного интеллекта (ИИ), машинного обучения и Интернета вещей (IoT), объём хранимых в мире Dark Data через пять вырастет в 5 раз – до 91 зеттабайт при условии что общий объем Big Data будет составлять по оценкам IDC 175 зеттабайт. На разных примерах Дэвид Хэнд показывает необходимость в идентификации и выявлении этого огромного океана данных, их классификации, а так же изменения политик обработки таких данных. Острая необходимость в этом связана хотя бы с тем что

"для поглощения выбросов углекислого газа, связанных с хранением «темных данных», потребуется 7 500 000 акров леса (3,0 млн гектаров)" (c)

Готовьтесь, будет много цифр. Но прочитать это нужно всем, кто задействован в продажах или занимается распространением своего/чужого творчества. Из приведённых теорий и алгоритмов можно начать интуитивно понимать любые механизмы распространения и хранения данных.

Книга может показаться немного сложноватой, но она того стоит. Ещё рекомендую книгу «Формула» Барабаши, подобного плана. Как статистика и информатика поможет увидеть важные или опасные закономерности в повседневности.

Книга-топ. Достаточно простая, чтобы не считать её академической литературы. Но на весьма сложную и специфическую тему. Напоминает концепцию безмасштабных сетей, но уже в более практическом, конкретном смысле.

Leave a review

Log in, to rate the book and leave a review

Медиааналитик Тони Твайман сформулировал закон, получивший известность как Закон Тваймана , который гласит, что любые численные данные, которые выглядят интригующе или как-то выделяются, обычно неверны 58

: «Есть известные неизвестные; то есть мы знаем, что есть какие-то вещи, которых мы не знаем. Но есть также неизвестные неизвестные – те, о которых мы не знаем, что мы их не знаем» 6

. В результате у машин портятся колеса и подвеска. Бостон решил бороться с этой проблемой с помощью современных технологий. Он выпустил приложение для смартфона, которое использовало внутренний акселерометр устройства, чтобы определять тряску автомобиля, проехавшего по выбоине, а затем с помощью GPS автоматически передавать ее координаты городским властям. Фантастика! Теперь люди, обслуживающие шоссе, будут точно знать, куда ехать, чтобы залатать выбоины. Однако это элегантное и дешевое решение

Вы не даете людям лекарств, чтобы отследить их реакцию, не просите выполнить какое-либо задание, чтобы подсчитать, сколько времени это займет, не меняете удобрения, чтобы посмотреть, какие из них дают самый обильный урожай, не пробуете разную температуру воды, чтобы понять, как она влияет на вкус чая.

Book David J. Hand «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» — download in fb2, txt, epub, pdf or read online. Leave comments and reviews, vote for your favorites.
Age restriction:
12+
Release date on Litres:
02 February 2021
Translation date:
2021
Writing date:
2020
Volume:
377 p. 13 illustrations
ISBN:
9785961458930
Download format:

People read this with this book