Что делать? Ричард рассказал о явных преимуществах применения обоих этих методов к одному и тому же проекту:
«Довольно часто возникает разрыв между числами, полученными из баз данных, и числами, взятыми из заключительных отчетов. Я обнаружил, что достигаю оптимальных результатов, когда провожу оба анализа, а затем объединяю их. Это позволяет понять, что происходит с итоговыми отчетами и какие факторы приводят к этим финансовым результатам. Таким образом, использование подходов “сверху вниз” и “снизу вверх” связывает данные с процессом и дает нам полную картину».
(SuperDataScience, 2016)
Лучше всего, если возможно совместить два подхода. Благодаря этому вы сможете не только быстро получить ответ с необходимой информацией, но и заручиться поддержкой участников проекта, столь необходимой для того, чтобы реализовать свои плодотворные идеи.
Что делать, если после всей проделанной здесь работы мы обнаружим, что данных, которые мы расценили как необходимые для нашего исследования, нет?
Наиболее эффективный подход заключается в том, чтобы изучить высший уровень массива данных и понять, какие данные у нас на самом деле есть и необходим ли дополнительный сбор сведений, прежде чем проект сможет двигаться вперед. Опять же, это означает общение с правильными людьми – теми, кто отвечает за существующие данные компании. Благодаря такому общению мы сможем получить более полное представление о том, где в данных могут обнаружиться проблемы и где нам может понадобиться дополнительная информация, чтобы гарантировать статистическую значимость выбранных нами данных. Этот шаг немного напоминает дилемму курицы и яйца, ведь мы должны знать, какие вопросы задать данным, прежде чем мы увидим эти базы данных. Но мы также должны убедиться в том, что уже на ранней стадии имеем нужные данные, – иначе потеряем много времени, прежде чем приступим к следующему этапу процесса анализа данных.
Практика – лучший путь к освоению этого. Вспомните свои мысли о том, какие типы данных будут полезны для ответа на ваши вопросы. Напишите их рядом с вопросами и делайте отметки, чтобы понять, что вам нужно в каждой контрольной точке. На первом проекте это может напомнить одновременное жонглирование многими тарелками, но с опытом все станет намного проще.
Кейс: восполнение пробелов
Рубен Коугел – руководитель отдела данных калифорнийской технологической компании VSCO, фокусирующейся на сфере искусства. На базе онлайн-подписки компания дает художникам возможность создавать цифровые инструменты взаимодействия с пользователями. На момент своего назначения Коугел был в VSCO единственным аналитиком данных, и стандартизированная практика создания отчетов, основанных на данных, в компании отсутствовала. Но Коугел увидел в имеющихся данных возможность ответить на ключевые вопросы, важные для компании: кем являются люди, которые покупают подписки VSCO, и ведут ли они себя «по-другому» после покупки?
Рубен знал, что проблема требовала обращения к бесплатным учетным записям пользователей, перешедших впоследствии на платные услуги подписки. Но это была только верхушка айсберга – Рубену нужно было начинать «бурение» и копать все глубже:
«Мне требовалось больше информации для того, чтобы начать работу. Я хотел иметь представление еще и о том, что именно указывает на изменения в поведении и почему важно “знать” наших клиентов. В то время мне не было известно, каким образом VSCO выявляет свою целевую аудиторию, так что это был пробел в знаниях, который мне следовало восполнить, прежде чем я мог бы найти ответы».
(SuperDataScience, 2017)
Рассмотрев проблему с такой точки зрения, Рубен смог определить фокус анализа. В ходе его бесед с коллегами обнаружилось, что проблема в действительности связана с маркетингом. Таким образом, вопрос был поставлен по-новому – с учетом целевых потребностей маркетинга: «Миллионы пользователей VSCO являются потенциальными покупателями, но не все они одинаково склонны покупать подписку VSCO. Тогда выясним: 1) как сегментируются наши пользователи с точки зрения их предпочтений, поведения и демографии и 2) какие из этих клиентских сегментов представляют наиболее вероятных покупателей?»