Практически в любой сфере жизни нас часто больше всего возбуждают самые сложные задачи. И проекты, в основе которых лежит использование данных, порой ставят перед нами именно такие цели. Нужно задать новые вопросы данным, так как от аналитиков данных всегда ждут решения проблемы. Когда я начинаю новый проект, мне нравится думать, что я веду разговор с данными; я общаюсь с ними, чтобы быть уверенным в том, что смогу представить их в полном и достоверном виде клиенту или участникам проекта. По моему собственному опыту и опыту моих коллег, окончательные результаты часто открывают глаза, приводя к значительным изменениям во всех учреждениях, – от тех, что занимаются практической работой, до организационных структур. Некоторые из этих результатов могут быть непосредственно связаны с бизнес-проблемой, которую вам было предложено решить, а другие способны осветить такие аспекты деловой активности, к которым организация прежде не имела доступа.
Значит, у данных есть потенциал. Это делает их столь захватывающими. Они всегда сообщают нам что-то, будь эта информация новой или нет. Они дают шанс продолжать изучать возможности и тем самым получать различные результаты – а для этого надо задавать различные вопросы о данных, преобразовывать их с помощью различных методов и применять к ним различные алгоритмы.
Процесс анализа и обработки данных
Из-за огромного потенциала данных доступ к ним может быть затруднен, особенно если это большой массив, который содержит различные виды данных, или если компания, для которой вы работаете, просто не знает, какие данные у них собраны. Именно здесь требуется анализ данных. Он предлагает надежную и здравую технологию для любого типа проекта, связанного с данными, независимо от объема и вида доступных сведений, и призван помочь вам выстроить свой проект от его концепции до формы представления заказчику. Первый разработанный Джо Блицштайном и Ганспетером Пфистером процесс анализа данных ведет нас через каждый этап проекта, с момента, когда мы впервые размышляем, как подойти к данным, до оформления результатов ясным и эффективным образом.
Процесс состоит из пяти этапов:
1. Сформулируйте вопрос.
2. Подготовьте данные.
3. Проанализируйте данные.
4. Визуализируйте выводы.
5. Представьте выводы.
Каждый из этапов добавляет к вашему массиву данных то, что мне нравится называть «слой интереса». Хотя к некоторым из этих этапов можно возвращаться в ходе процесса, прохождение их в линейном порядке уменьшит вероятность ошибки на более позднем этапе проекта и поможет определить, на каком шаге произошел сбой.
Поскольку этот процесс является неотъемлемой частью каждого проекта в области науки о данных и поскольку каждый этап требует различных навыков, мы будем рассматривать этапы раздельно во второй и третьей частях книги. Вторая часть посвящена первым трем этапам. Эти первые три шага позволят нам: 1) сформулировать обоснованный вопрос или серию вопросов, на которые необходимо ответить с помощью данных; 2) собрать массив данных таким образом, чтобы он отвечал на поставленные вопросы, и 3) получить ответ из массива данных путем анализа или прогнозирования. На мой взгляд, эти этапы потребуют от вас наибольшего вклада. Если вы проделаете всю предварительную работу, то визуализировать и представить выводы будет просто, потому что вы уже достигнете целей вашего проекта.