Работа с данными в любой сфере - страница 51
И классификация – это то, с чего мы начнем.
Классификация
Если еще до проведения анализа мы будем знать, в какие группы попадут наши данные, то тогда лучше пойти по пути классификации, а не кластеризации. В приведенном выше примере клиентов можно рассматривать через записанные о них данные – их обычные маршруты полета, их возможности по тратам, уровень членства в программе для часто летающих клиентов и даже предпочтения мест в салоне. Эти описательные функции могут показаться обширными, но они всего лишь инструменты. Основная цель состоит в том, чтобы классифицировать клиентов так, чтобы они оказались только в одной из двух групп – на данный момент компания не заинтересована в поиске чего-либо еще.
При таком анализе важно также иметь предварительные данные, с помощью которых мы можем следить за характеристиками, которые нас интересуют. Это единственный способ создания алгоритма классификации, то есть используя уже имеющиеся примеры.
Следующие алгоритмы классификации расположены в порядке возрастания сложности. Начнем с дерева решений, так как многие читатели уже знакомы со структурными схемами. Такие схемы используют один и тот же принцип последовательного разделения информации на части, прежде чем представить участнику окончательный ответ. Регрессия по методу случайного леса – это просто расширение алгоритма построения деревьев решений, поскольку в ней используется несколько решающих деревьев для отдельных компонентов массива данных, чтобы обеспечить более точные результаты. Как метод k-ближайших соседей, так и наивные байесовские алгоритмы классифицируют точки данных по группам в соответствии с их относительным расстоянием друг от друга, измеряемым переменными каждой записи. Разница между ними станет очевидной в отдельных разделах. Заканчиваем наш обзор классификации логистической регрессией, которая является алгоритмом, используемым, именно когда мы хотим оценить вероятность того, что событие произойдет.
Когда вы читаете про эти алгоритмы, имейте в виду мой первоначальный совет учиться, используя интуицию: сосредоточьтесь на понимании цели каждого алгоритма и попытайтесь увидеть предназначение предпринимаемых шагов. Потратьте время, чтобы переварить каждый из них, – это действительно поможет в данном случае выиграть гонку.
Деревья решений
Дерево решений можно визуализировать в виде блок-схемы. Алгоритм тестирует отдельные атрибуты в массиве данных, чтобы определить возможные результаты, и продолжает добавлять результаты по мере выполнения дальнейших тестов, останавливаясь только тогда, когда все результаты исчерпаны.
Листья этих деревьев дают нам все возможные ответы на все вопросы, которые мы можем задать нашим данным. Мы все порой отвечаем на вопросы журнального теста, когда надо отметить «да» или «нет», чтобы узнать свой тип личности, Леонард вы или Шелдон из «Теории Большого взрыва» или как вы действительно относитесь к йогурту. В этих случаях вопросы – ветви, а результаты – листья.
В мире бизнеса деревья решений можно использовать, скажем, для классификации групп клиентов. Вспомните пример Ubisoft из главы 5: если бы команда разработчиков игр собрала информацию о потенциальном новом подписчике, они могли бы использовать дерево решений для проверки того, сможет ли он стать участником, на основе массива данных компании о текущих подписчиках. Алгоритм построения дерева решений делит данные об играх компании на листья, которые отражают четкие различия между такими значениями, как время, проведенное за игрой, и возраст, и соотнесет новые данные с одним из результатов, которые мы определили заранее, – в данном случае с «выгодным» для компании и «невыгодным».
Давайте исследуем эту проблему. Поскольку у нас есть информация о среднем времени игры наших геймеров и их возрасте, мы можем использовать классификацию с помощью дерева решений, чтобы принять относительно их обоснованное решение. Это означает, что в первую очередь нам необходимо иметь следующие данные о текущих подписчиках нашей игровой компании: общее время, проведенное за играми за последний месяц, и возраст