Подготовка данных (или преобразование сырых данных) является сложным компонентом всего процесса, поскольку она включает в себя ряд задач, которые могут быть выполнены только вручную. Этот этап обычно занимает наибольшее количество времени[31]. Причина такого пристального внимания к подготовке данных заключается в том, что если исходные данные в массиве изначально не структурированы должным образом, то на более поздних этапах процесс либо вообще остановится, либо, что еще хуже, мы получим неточные прогнозы и/или неправильные результаты. Это может означать катастрофу для вас и вашей компании, и в самом худшем варианте пренебрежение данным этапом может привести к увольнениям, а в случае привлечения фрилансеров – даже к судебным искам.
Я не собираюсь пугать вас, просто хочу показать, насколько важно подготовить данные. Удивительно, но, несмотря на важность этого шага, я обнаружил, что учебные материалы науки о данных в основном сосредоточены на более поздних этапах процесса: анализе и визуализации. В этих книгах и курсах используются уже подготовленные массивы данных. Но такой подход хорош, только если вы просто знакомитесь с дисциплиной; в противном случае он означает, что вы эффективно изучаете лишь косметические способы работы с данными.
Работая исключительно с массивами данных из образовательных курсов, вы просто увидите данные, уже очищенные так, как того требует рассматриваемый пример. Но в реальном мире данные часто грязные, перепутанные и поврежденные, и, не зная причин и характеристик грязных данных, мы не можем надлежащим образом завершить проект. Если вы не подготовите данные, то, когда выйдете в реальный мир со своим первым проектом, ваш алгоритм неизбежно выдаст ошибки «отсутствия данных», или ошибки «текстового спецификатора», или «деление на ноль», и проект застопорится.
Но как тогда понять, что данные хорошо подготовлены? Легко, нужно лишь убедиться, что они подходят для нашей стадии анализа данных. Они должны:
• быть правильно отформатированы;
• не иметь ошибок;
• учитывать все пробелы и аномалии.
Распространенная фраза, которую используют аналитики данных, «мусор внутрь, мусор наружу» означает, что если вы примените алгоритм к грязным данным, то получите только бессмысленные результаты, делающие ваш анализ бесполезным. Правда и то, что некоторым практикам с трудом дается этот этап, но только потому, что у них нет шаблона, которому надо следовать. В итоге такие специалисты работают бесструктурно и вынуждены изобретать велосипед каждый раз, когда готовят данные; в долгосрочной перспективе это неэффективный и затратный по времени подход.
Итак, приступим к процессу подготовки данных.
Кейс: Ubisoft – обоснование необходимости подготовки данных
Ульф Морис – финансовый директор немецкого филиала Ubisoft, компании по дизайну, разработке и распространению игр, создавшей популярные игровые франшизы от Assassin’s Creed до Far Cry. Ульф курирует дистрибьюторскую дочернюю компанию, продающую видеоигры Ubisoft в Германии, Швейцарии и Австрии (GSA), а также отвечает за финансовые аспекты деятельности компании в Центральной Европе.
Раньше данные в Ubisoft использовались исключительно ее производственной командой для монетизации и внутриигровой аналитики. До тех пор, пока Ульф не изменил ситуацию, финансы не входили в число стратегически важных областей науки о данных[32]. Но игнорирование пользы науки о данных может оказаться дорогостоящим просчетом, и Ульф, имевший опыт применения данных при принятии важных бизнес-решений (на предыдущей работе он сохранил компании $40 млн в слиянии благодаря своему вниманию к данным), знал, что продуманная стратегия использования компанией данных чрезвычайно важна.
Вот что он заявляет:
«Подготовка данных не добавляет вам данных, она просто улучшает способы их исследования. Это похоже на сцену из фильма “Волшебник страны Оз”: Дороти открывает дверь своего дома, попадает в королевство Оз – и черно-белый мир Канзаса превращается в цветной. Вроде бы мало что изменилось на техническом уровне, но все же картина стала другой. Мир приведен в порядок».