Даже если вы считаете, что у вас нет необходимых инструментов или математических способностей, не позволяйте себе соблазниться и пропустить следующие две главы, думая, что можете просто нанять кого-то, чтобы сделать предварительный анализ за вас. Искушенность в математике или другой научной дисциплине может быть полезной в этот момент, но не является обязательным условием. И хотя вы можете добиться успеха, просто зная, как представлять, готовить и собирать данные, все равно нужно по крайней мере понимать каждый этап процесса, чтобы стать профессиональным аналитиком данных.
Самые основные алгоритмы, используемые в анализе данных, которые мы обсудим в главах 6 и 7, можно разделить на три группы[41]:
1. Алгоритмы классификации;
2. Алгоритмы кластеризации;
3. Алгоритмы обучения с подкреплением.
Используя эти алгоритмы, мы можем понять, как могли бы начать детализировать данные, разрабатывая идеи, которые, возможно, не были очевидны при визуальном анализе. В этой главе мы будем использовать первые две категории: алгоритмы классификации и кластеризации. Хотя важно отметить, что это только две ветви анализа, провести классификацию и кластерный анализ позволяют относительно простые и часто используемые алгоритмы, которые помогут вам быстро работать с данными.
Информация vs математика в науке о данных
Большинство методов, которые мы обсуждаем в этой книге, основаны на сложной математике и статистике. Однако вы могли заметить, что в их описании отсутствуют математические формулы. Это вызывает тревогу: сможем ли мы действительно понять алгоритм, если не вникаем в его детали?
Вот как я отвечаю на этот вопрос: подумайте о вождении автомобиля. Вам доводилось когда-нибудь разбирать машину? Вы можете отличить распределительные валы от коленчатых? Как на самом деле работает круиз-контроль машины? Большинству из нас неизвестно все, что касается технической эксплуатации наших автомобилей, и все же почти все мы ездим на них. Часто. В этом разница между математикой и интуицией.
Математика разбивает алгоритм на части, чтобы понять, как именно он работает и почему. В этом нет ничего плохого, и бывают ситуации, когда требуется такой уровень детализации. Но по большей части в нем нет необходимости при работе в качестве аналитика данных. Так же как базовое умение пользоваться педалями и рулевым управлением автомобиля поможет вам добраться из пункта А в пункт В, так и интуиция, лежащая в основе аналитических моделей в науке о данных, окажется полезной для решения поставленной задачи.
Если это вас немного успокоило, значит, я выполнил свою работу. Слишком часто я сталкиваюсь с тем, что науку о данных чересчур усложняют. Моя цель – доказать вам, что, как любой человек может водить машину, любой может быть аналитиком данных.
Классификация или кластеризация?
Давайте прежде всего различать эти две категории. Проще говоря, мы используем классификацию, когда уже знаем, в какие группы хотим объединить наши данные с помощью анализа, и мы используем кластеризацию, когда не знаем, что это будут за группы с точки зрения чисел или названия. Например, если бы мы хотели провести анализ ответов «да/нет» на вопрос, мы бы использовали алгоритм классификации, потому что знаем, какими будут две результирующие группы: «да» и «нет». А вот если бы мы хотели оценить респондентов одного и того же опроса на основе их возраста и расстояния до ближайшего магазина нашей компании, то использовали кластеризацию, потому что группы результатов, которые будут полезны для нас, не могут быть точно определены заранее (если мы ранее не проводили такой же анализ).
Предположим, авиакомпания обратилась к нам с просьбой узнать, продолжат ли клиенты пользоваться ее услугами или нет (будет ли так называемый «отток клиентов»). Поскольку компания собрала данные об ответах клиентов и их перемещениях (частота полетов, пункт назначения, класс судна, использование услуг на борту, запросы на перевозку багажа), мы можем использовать эти переменные для определения поведения, которое в наибольшей степени свидетельствует о намерении клиента отказаться от услуг авиакомпании. В этом случае мы попытаемся использовать упомянутые факторы, чтобы разделить клиентов на две группы: группа 1 включает тех, кто может прекратить пользоваться услугами авиакомпании, в то время как в группу 2 войдут клиенты, которые, вероятно, продолжат летать самолетами этой авиакомпании. По этой причине мы будем использовать классификацию, потому что распределяем (