Аналитик данных, частный детектив
Сегодня в нашем распоряжении невероятное количество данных. Подумайте о количестве комбинаций, которые можно получить с помощью колоды из 52 игральных карт. Просто перетасуйте колоду – крайне маловероятно, чтобы кто-то еще на протяжении человеческой истории получил такой же порядок карт. Начало работы с данными похоже на то, как если бы вам вручили колоду игральных карт, – возможностей для вариаций, с которыми можно работать, иногда больше, а иногда меньше, но их всегда множество. Как только вы установили некоторые основные правила (для карт это означает игру, для науки о данных – гипотезу и алгоритм), вы действительно можете начинать работу. Определение вопроса помогает построить и спланировать подход к данным, гарантирующий, что мы получим наиболее релевантные результаты.
В «Скандале в Богемии» Шерлок Холмс говорит доктору Ватсону: «Теоретизировать, не имея данных, опасно. Незаметно для себя человек начинает подтасовывать факты, чтобы подогнать их к своей теории, вместо того чтобы подтвердить факты теорией». Холмс предостерегает Ватсона от того, чтобы строить догадки в отсутствие подтверждающих их правильность доказательств. Но то, что Конан Дойл также подчеркнул здесь, – это необходимость сделать шаг назад, прежде чем погрузиться в проблему и сформулировать какие-либо предположения или найти решение. Имея дело с данными, мы располагаем преимуществом делать выводы из фактических доказательств, и потраченное на формулировку вопроса время поможет нам получить точный ответ, не зависящий от собственных и чужих предположений.
Это первый этап процесса анализа данных. Аналитики данных должны проявлять здесь некоторую креативность. Мы не меняем информацию в соответствии с нашими идеями, мы формулируем идеи, чтобы добиться полезного для нас понимания. В главе 4 «Сформулируйте вопрос» мы исследуем различные методы, а их применение обеспечит соответствие вопросов, которые мы в конечном итоге зададим нашим данным, целям проекта и удержит нас от пропусков и «расползания границ проекта» – неконтролируемого выхода проекта за первоначально установленные рамки условий.
Правильные ингредиенты
Мы уже давно вступили в эру компьютеров, и большинство учреждений государственного и частного секторов накопили огромное количество своих собственных данных. Однако данные собирались задолго до того, как мы узнали, что с ними можно делать, и зачастую это делали сотрудники, которые не знали, как исследовать, стандартизировать и анализировать информацию, чтобы она действительно была полезной. Такой пробел в знаниях способен вызвать в лучшем случае организованный хаос, когда массивы данных могут содержать искаженные и грязные данные, о которых мы узнаем больше в главе 5 «Подготовка данных».
Если вам надо очистить данные и сделать их удобочитаемыми, нельзя торопиться. Чтобы понять, насколько важно подготовить данные, прежде чем делать с ними что-либо, обратимся к процессу оптимального распознавания символов (OCR) при сканировании. Программное обеспечение OCR отсканирует страницу письменного или печатного текста и переведет этот текст в цифровой формат. Но OCR-сканы не всегда на 100 % корректны: их точность зависит как от возможностей программного обеспечения, так и от качества распечатываемой страницы. Рукописные документы XVII в. создадут больше трудностей и спровоцируют больше ошибок, которые затем должны быть вручную исправлены в более поздних данных. Те, кто не знает, как правильно записывать данные, или кто использует установленные в учреждении устаревшие или неоптимальные стандарты, будут генерировать массивы данных, которые также должны быть «очищены».
Игра в действии
Для анализа современных данных не требуется такой же уровень осторожности, как на предыдущих двух этапах. Если вы нашли время на формулирование правильного вопроса и подготовку своих данных для того, чтобы уяснить, что от них требуется, вы можете позволить себе поэкспериментировать с анализом. Прелесть работы с массивами данных заключается в том, что вы можете дублировать их, поэтому работа с одним типом алгоритма на массиве данных не исключает возможности применения к нему и другого алгоритма. Этим хороша цифровая информация – ее можно использовать, отбирать, реструктурировать и извлекать, но вы все равно можете вернуться к более ранней версии, как только закончите работу, и начать снова.