После того как это прояснилось, остальное стало очевидно для Рубена. От сотрудников отдела маркетинга он знал, какое поведение предсказывало, что клиент, вероятнее всего, приобретет подписку. Рубен эффективно преобразовал изначально довольно неструктурированный вопрос в нечто, что не только обеспечило инвестора в точности той информацией, которая ему требовалась, но и указывало, где компания может собирать больше данных для того, чтобы улучшить свою маркетинговую практику.
Если вы работаете в компании, которая с течением времени накопила много данных, первоначальное выявление проблемы становится еще более важным делом. Я часто обнаруживал, что, хотя коллеги могут положительно воспринимать идею использования данных, они не вполне уверены, что данные могут им помочь. Это может относиться даже к людям, управляющим базами данных. И именно здесь многие компании делают неверный шаг. По иронии судьбы из-за того, что так велико количество данных, имеющихся в распоряжении у компаний, последние перестают осознавать смысл и значение данных и, следовательно, преуменьшают их ценность. Мы должны помочь им понять важность данных, и это путешествие начинается здесь.
Заручитесь согласием других участников
Ваш анализ данных встряхнет обстановку. Как возмутитель спокойствия, вы можете столкнуться с сопротивлением. Если вам намеренно мешает коллега, примите меры. Если вы упускаете информацию в результате намеренного противодействия сотрудника, не стесняйтесь заострить этот вопрос. Суть любого проекта в области науки о данных в том, чтобы повысить ценность компании, и, если заинтересованные стороны знают об этом, они также должны знать, что данные приоритетны. Вы не склоните всех к этой идее, но я уверен, что нельзя сдаваться: будьте готовы преодолевать сопротивление, чтобы выполнить свою работу.
5. Проведите майнинг данных (по желанию)
Глубинный анализ (майнинг) данных – возможно, самая приятная для меня часть процесса в любом проекте. То, что ученым не дают заниматься майнингом данных, немного похоже на запрет кураторам музеев изучать материалы, за которые они несут ответственность. Именно на этом этапе вы можете позволить себе быть исследователем. Для меня глубинный анализ данных – процесс, в котором вы выполняете тестирование с целью тщательного изучения данных на высшем уровне и находите области, которые могут предложить интересные идеи для дальнейшего исследования. На этом экспериментальном этапе мне нравится помещать данные в Tableau[27], которое умеет их читать и поможет вам создать предварительные наглядные визуализации, такие как легко читаемые таблицы, диаграммы и графики. Это обеспечивает прекрасный задел, который вы можете использовать в качестве фокусирующей линзы, чтобы сформулировать нужные вопросы.
В конечном счете, если майнинг данных выполняется на начальном этапе проекта, он наиболее эффективно помогает лучше понять проблему и управлять процессом анализа. Это тест-драйв ваших данных: вы испытываете их в необработанном виде, чтобы увидеть, могут ли какие-либо тенденции проявиться даже на раннем этапе. Майнинг данных может сэкономить много усилий в дальнейшем. В то же время не унывайте, если он ни к чему не приведет. Данные могут предлагать или не предлагать нам дальнейшие действия или решения в зависимости от нескольких факторов, таких как компания, качество данных и уровень сложности проблемы. Итак, сделайте этот шаг, но не забывайте «делить на десять». И если вы найдете что-то интересное, запишите и убедитесь, что вы помните о своих находках, когда перейдете к шестому шагу…
Теперь, когда мы поняли масштаб проблемы и определили количество данных, имеющихся в нашем распоряжении, можно начать копать немного глубже. Здесь мы начинаем сопоставлять масштаб проекта с данными, чтобы отделить переменные и данные, которые будут полезны, от тех, которые не пригодятся, и чтобы надлежащим образом переформулировать вопрос.
Хотя все данные потенциально могут оказаться полезными, мы не можем использовать всю имеющуюся информацию по каждой проблеме, и это только к лучшему: если бы все данные были полезны всегда, объем получаемой на выходе информации был бы просто слишком громоздким для управления. По этой причине мы можем быть разборчивыми по отношению к предоставленным данным. Это означает, что мы должны учесть параметры и контекст проблемы, которую хотим решить, прежде чем двигаться вперед. В конечном счете уточнение проблемы экономит время, устраняя данные, которые не имеют отношения к нашему вопросу.