Ввиду развития науки о данных встают вопросы этики и безопасности, касающиеся проницаемости, искажения и захвата данных (а этика – это область, которую мы рассмотрим в главе 5 «Подготовка данных»). У нас есть очень веские основания беспокоиться о доступах, которые открывает наука о данных, и о том, что она не делает различий в том, кто – или что – обращается к этой информации. Хотя переход от бумажного к цифровому документообороту позитивно сказался на практике ведения дел в компаниях, данные все еще могут пропадать или приходить в негодность, а также на них может существенно повлиять человек (это касается неверной информации, потери баз данных и шпионажа), что будет иметь разрушительные последствия.
Кейс: The Heartbleed Bug
На мой взгляд, Heartbleed Bug[9] представляет собой самое радикальное нарушение конфиденциальности в мире на сегодняшний день. Ошибка в программе позволила хакерам применить уязвимость в исходном коде, используемом в интернете, и украсть защищенные иным образом данные, отправленные через безопасные соединения Secure Sockets Layer (SSL). Эта лазейка предоставила доступ к конфиденциальной информации о торговых сайтах за много лет, прежде чем стало известно о ее масштабах.
В 2014 г. группа безопасности Google обнаружила эту проблему в исходном коде SSL во время регулярного критического просмотра своих сервисов. Оказалось, что около 800 000 веб-сайтов во всем мире имели эту ошибку в своем исходном коде, что обеспечивало доступ к их информации ворам и хакерам, знавшим об этой уязвимости. Но в течение двух лет ошибка оставалась незамеченной, что позволило украсть потенциально бесчисленное количество данных. По иронии, как сайты с поддержкой SSL (те, что начинаются с «https») они должны быть более безопасными, чем те, у которых обычные URL-адреса «http».
Даже если проигнорировать распространенное в то время мнение, что ошибка сохранялась с ведома правительственных или фиктивных организаций, факт остается фактом: Heartbleed Bug представлял собой фундаментальное нарушение конфиденциальности.
Не контролируйте – просвещайте!
Неудобная истина, касающаяся науки о данных и любой отрасли, где напрямую задействованы деньги, заключается в том, что по мере роста интереса к данной дисциплине возрастает интерес к наиболее гнусным средствам вмешательства в ее внутренние процессы. Некоторые могут счесть это достаточным основанием для прекращения сбора и использования данных. Но я вижу это по-другому и сделал бы ставку на то, что многие другие ученые – специалисты в области данных – чувствуют то же самое: вместо того чтобы контролировать и ограничивать, нужно воспитывать людей. Мы должны сообщить нашим детям, что их деятельность в интернете приведет к появлению аватара, который может быть использован в их пользу – или против них. Мы должны убедиться, что люди в целом лучше разбираются в том, как используют их данные и зачем.
Таков мир, в котором мы сейчас живем. Нам будет намного легче избавиться от этой эмоциональной привязанности, чем сопротивляться. В конце концов, сегодня на сцену выходит молодое поколение и рекламируются новые потребительские компании. Это подтверждается тем, что многие компании (от Amazon до Outfittery[10]) работают в интернете. Сейчас потребители готовы предоставить свою личную информацию в обмен на лучшую адаптацию продуктов и услуг к их потребностям. Посмотрите на Instagram или Twitter, и вы убедитесь, что передача личной информации в интернете – в самых разных областях – может восприниматься как вторая натура поколения миллениалов. Если вы не планируете жить вне Сети на лоне дикой природы и говорить только с птицами, кибербезопасность – просто еще один риск нынешней действительности. Борьба с этой угрозой будет так же бесполезна, как усилия луддитов в XIX в.: сколь яростно ни сопротивлялись они автоматизации производства, это мало что изменило в долгосрочной перспективе.
Намного менее вероятно то, что мы откажемся от услуг, которые уже интегрированы в нашу жизнь и считаются само собой разумеющимися, – прежде всего потому, что сейчас