Работа с данными в любой сфере - страница 58

Шрифт
Интервал

стр.

К нам обратился винодел из Калифорнии. Погода на Западном побережье тогда установилась капризная, и винодел опасался за качество будущего вина. Ему нужна была помощь в прогнозировании шансов его продукции возглавить региональный список лучших вин урожая того года.

Можно сказать, для нашего винодела многое было поставлено на карту. Хорошая новость состояла в том, что у него имелись некоторые данные для нас!

Винодел обнаружил, что на протяжении многих лет две независимые переменные – продолжительность солнечного сияния и количество осадков – оказывают положительное влияние на виноградные лозы и, соответственно, на вкус его вин, а значит, повышают шансы на успех. С тех пор ему удалось усовершенствовать процесс выращивания винограда и тем самым улучшить качество своей продукции.

Основываясь на своих предыдущих победах и поражениях, винодел разделил имеющиеся у него данные на две категории: «победитель» и «проигравший». Мы можем визуально представить их так (рис. 6.6):



Здесь значение по оси x – миллиметры осадков, а значение по оси y – часы солнечного сияния. Белая категория – «проигравший», а серая – «победитель». Теперь мы можем помочь виноделу проанализировать шансы на успех вина из урожая этого года, основываясь на количестве осадков и продолжительности солнечного сияния. Предположим, что в период созревания конкретного урожая выпало 601,98 мм осадков и что на это время пришлось 3543 часа солнечного сияния. Используя эту информацию, мы можем построить график рассеяния для урожая этого года, и наивный классификатор Байеса поможет нам определить, в какую категорию попадет урожай этого года (рис. 6.7).

Построение наивного байесовского классификатора

Наивный байесовский классификатор использует переменные нашей точки данных, чтобы отнести ее к наиболее подходящему классу. Вот как это работает.



Шаг 1: установите априорную вероятность. Здесь мы хотим узнать вероятность того, что отдельная точка данных принадлежит к категории из нашего тренировочного набора. Учитывая размер выборки и количество проигравших и выигравших вин, какова вероятность того, что новое вино попадет в категорию победителей?

В этот момент нам нужно предположить, что мы ничего не знаем об урожае – нам неизвестно, сколько времени виноград провел на солнце и сколько выпало дождей. Так что лучшее, что мы можем сделать, – это взять количество победителей из наших предыдущих (априорных) данных (отсюда и название: априорная вероятность) и разделить его на общее число точек данных:

P (победитель) = Количество победителей / Общее количество наблюдений = 20/30, или 0,667.

Шаг 2: вычислите предельное правдоподобие. Предельное правдоподобие относится к вероятности того, что новая точка данных находится в непосредственной близости от области, куда фактически попадает рассматриваемый вариант. Обычно или необычно для урожаев получать такое же количество солнечного света и осадков, как получил наш урожай? Это условие подобия представляет собой область вокруг нашей точки данных, которая будет выглядеть примерно так на диаграмме рассеяния[49] (рис. 6.8).



Радиус круга мы выбираем произвольно; это параметр, который мы можем настраивать, чтобы влиять на эффективность алгоритма.

Таким образом, точки данных, содержащиеся в пределах нашей окружности, считаются одинаковыми. Эти вина сделаны из винограда, получившего примерно такое же количество солнечного света и воды, что и наш сегодняшний урожай. Допустим, что наш круг включает четыре точки данных. Чтобы найти вероятность того, что новая точка данных (X) попадет в круг, нам нужна следующая формула:

P(X) = Аналогичные наблюдения / Общее число наблюдений = 4/30, или 0,133.

Обратите внимание, что это значение не изменится в течение всего времени нашего анализа, поэтому его достаточно рассчитать только один раз.


Шаг 3: вычислите функцию правдоподобия (рис. 6.9). Как мы помним из теоремы Байеса, функция правдоподобия является условной. Какова вероятность того, что точка данных в нашем массиве данных попадет в круг, который мы определили, учитывая, что она уже принадлежит к категории победителей?


стр.

Похожие книги