Работа с данными в любой сфере - страница 53

Шрифт

Интервал

Я живу в Австралии, и, когда хочу зарегистрироваться в новом банке, моим главным приоритетом является удобство. Я хочу, чтобы филиал находился рядом с моим домом, офисом и местом, где я делаю покупки. Если у банка также есть большое количество филиалов рядом с пляжем, еще лучше. Нет ничего хуже, чем ездить на другой конец города, чтобы поговорить с консультантом или обналичить чек.

Банки знают, что удобство – один из основных факторов, влияющих на принятие решений потенциальным клиентом, но они также хотят, чтобы их вновь открытые филиалы были экономически эффективными. Артему Владимирову, ведущему аналитическому консультанту Бостонской консалтинговой группы (BCG), было поручено решить эту проблему для банка – клиента BCG, который хотел развивать свои отделения по всей Австралии.

Сначала Артем проанализировал демографические данные банка, чтобы выяснить количество его клиентов в каждом из районов Австралии. Он увидел, что, поскольку филиалы банка распределены по стране неравномерно, у него нет данных по некоторым австралийским округам. Для того чтобы составить прогнозы по этим местностям, Артему пришлось провести сравнительный анализ данных районов, которые были как «известны», так и «неизвестны» банку, с помощью общедоступной информации о результатах переписи. Применяя такие демографические данные, как средний возраст, гендерная принадлежность, уровень образования и стоимость жизни, Артем смог получить недостающие сведения. Такое использование данных позволило ему рассчитывать на потенциальный успех создания филиалов в новых местах, имевших характеристики, сходные с характеристиками аналогичных районов, которые уже доказали свою выгодность.

Для решения задач банка Артем использовал алгоритм случайного леса:

«Мы взяли всю клиентскую базу из записей данных банка и использовали статистическую модель случайного леса для определения корреляции между рентабельностью клиентов и их демографическими показателями. Прогнозы были сделаны для районов, где у банка уже имелись клиенты, поэтому нам нужно было только перепроверить, будет ли район прибыльным, сопоставив демографические данные».

(SuperDataScience, 2016)

Определив районы, значимые для банка, Артем составил профиль конкурентов компании и количество их филиалов в этих местностях, снова используя случайный лес для определения доли рынка, которую банк занимал по отношению к конкурентам.

Благодаря применению алгоритма случайного леса Артему не нужно было подробно объяснять, какие демографические данные внесли свой вклад в окончательные показатели, это помогло ему обойти проблему защиты персональных данных и показать банку, какие именно области будут наиболее рентабельными для него.

Построение классификации случайного леса

1. Выберите количество деревьев, которые хотите создать. Для многих программ параметр по умолчанию – десять деревьев. Число, которое вы в конечном итоге выберете, будет зависеть от контекста. Меньшее количество деревьев может обусловить менее точные прогнозы. И наоборот, в большинстве случаев можно использовать любое количество деревьев, поэтому нет необходимости беспокоиться о чрезмерно близкой подгонке алгоритма к данным.

2. Установите классификатор в тренировочный набор. Внедрение классификатора случайного леса в тренировочный набор поможет вам в будущем научиться составлять прогнозы для новых точек данных. Затем мы можем сравнить эти прогнозы с фактическими результатами в нашем массиве данных, чтобы увидеть, насколько точен классификатор.

Алгоритм случайного леса случайно выберет N подмножеств из вашего массива данных, где N – количество деревьев, указанное для параметра в шаге 1. Эти подмножества могут перекрываться; однако никакие два множества не будут идентичными.

После выбора подмножеств каждое из них будет использоваться в качестве исходного массива данных для построения уникального дерева классификации. Таким образом, каждое дерево классификации видит только свое подмножество данных и не имеет представления о том, что фактический массив данных шире. Подобный подход обеспечивает разнообразие при генерации деревьев – именно отсюда в алгоритме случайного леса возникает «сила толпы».

Похожие книги

JavaScript. Подробное руководство, 6-е издание

Дэвид Флэнаган

Игродром. Что нужно знать о видеоиграх и игровой культуре

Александр Сергеевич Ветушинский

Записки парасистемного программиста

Евгений Вениаминович Лишак

Создание отдела продаж с Битрикс24.CRM

1С-Битрикс