Работа с данными в любой сфере - страница 42

Шрифт
Интервал

стр.

(SuperDataScience, 2016)

Чтобы лучше понять, что Ubisoft выиграла от подготовки данных, Ульф обратился к производственному отделу компании. В течение многих лет производственники собирали данные о тысячах онлайн-геймерах, о продолжительности игры и времени, которое требовалось для прохождения отдельных уровней, о том, что игрок делал в игре и в какой момент игры терпел неудачу. Ульф обнаружил, что они используют эти прошлые данные для оценки вероятности того, что клиенты будут покупать внутриигровые предметы через «модель freemium»[33]. Наличие под рукой данных Ubisoft не только помогло выяснить характер покупок основных клиентов, но и определить поведение, которое можно было ожидать от будущих игроков.

Результаты, к которым производственная команда пришла благодаря науке о данных, заставили всех повернуться лицом к этой идее. На собрании по финансовой стратегии команда Ульфа наметила источники всех доступных данных Ubisoft и то, чего не хватало для полноты картины, и предложила нечто осязаемое, от чего коллеги могли «отщипнуть» во благо своих идей.

«Все очень просто, – говорит Ульф. – Если вы не знаете о существовании чего-то, вы не можете задавать вопросы об этом».

(SuperDataScience, 2016)

Пробелы показали, какие ключевые данные им нужно собрать от своих клиентов (размеры магазина, пространство, отведенное для продажи видеоигр, отношение типичных покупателей к видеоиграм и отношение потребителей к продукции Ubisoft), прежде чем они смогут провести содержательный анализ. Ульф говорит:

«Было очевидно, почему мы не применяем более системный подход к нашим клиентам: у нас нет данных. Отдел продаж оценил для меня клиентов, основываясь на сведениях, не собиравшихся систематически. Получение данных – неопровержимых фактов – было абсолютно необходимо».

(SuperDataScience, 2016)

Сбор этой информации от 2000 магазинов позволил Ульфу подготовить статистически значимые данные, которые в конечном итоге оказались пригодны для анализа. Это помогло Ubisoft выявлять целевую аудиторию как никогда эффективно.

Подготовка данных к путешествию

Для того чтобы сделать исходные (сырые) данные пригодными для анализа, их нужно сначала подготовить:

1. Извлечь данные из исходных источников;

2. Перевести данные на понятный язык, чтобы они стали доступны в реляционной базе данных;

3. Загрузить данные в конечный источник.

Этот процесс известен как ETL (Extract – Transform – Load), и он поможет собрать данные подходящего формата в конечном источнике («хранилище»), к которому можно получить доступ и проанализировать данные на более поздних этапах процесса их обработки. Хранилище содержит разрозненные данные в одной системе. Зачастую оно будет включать реляционные базы данных.

Что такое реляционная база данных?

Реляционные базы данных (РБД) позволяют исследовать их реляционные данные. В таких базах данных имеют значение отношения между единицами информации во всем массиве данных.

Массивы данных в РБД связаны столбцами с одинаковыми именами. Например, если несколько массивов данных содержат столбцы с наименованием «страна», данные из этих столбцов можно сравнить в реляционной базе данных. Преимущество такой базы данных в том, что в ней больше возможностей для анализа и визуализации, необходимых для получения полезных выводов. В частности, данные в такой базе могут изучаться в нескольких массивах сразу без необходимости индивидуального извлечения.

Возможно, лучший способ проиллюстрировать преимущества реляционной базы данных – сравнить ее с Excel, которая часто используется теми, кто не привык работать с базами данных:

1. РБД поддерживает целостность. Каждая ячейка в Excel индивидуальна; типы значений, которые можно в нее поместить, не ограничиваются. Вы можете добавить даты или текст, например, под номерами телефонов или денежными величинами, и Excel это будет полностью устраивать. А вот реляционная база данных станет бить вас по рукам за такую небрежность. Типы столбцов в базе данных предопределены, что означает, что столбец, настроенный на запись дат, не будет принимать значения, не отвечающие формату даты. Затем базы данных будут следить за процессом, делая запрос по любому показателю, который не соответствует значению, предопределенному столбцом.


стр.

Похожие книги