Ось у нашего графика содержит значения 0 и 1. Мы также должны знать, что вероятности всегда имеют значения между 0 и 1. Таким образом, похоже, что линейная регрессия, которая проходит через интервал между этими значениями, даст нам информацию о вероятности того, откроет ли пользователь того или иного возраста наше электронное письмо (рис. 6.12).
Сглаживание линии регрессии. Вы, возможно, заметили, что линия регрессии проходит по краям нашего графика. Это неидеально для вероятностей, так как они никогда не могут быть меньше 0 или больше 1, но могут быть только между двумя этими значениями.
Поэтому мы должны сократить части прямой, которые пересекают два значения 0 и 1. Как только линия линейной регрессии достигнет 0 или 1, она должна остаться на прямой и не продолжаться ниже или выше ее. Убедившись в этом, мы можем все так же использовать линию для создания предположений и быть уверенными, что наши результаты будут по-прежнему находиться в пределах вероятности. Первое, что нужно сделать, – обрезать несоответствующие части нашей линии (рис. 6.13):
Это хорошее начало, но есть более научный подход.
Математическая разработка логистической регрессии. График линейной регрессии может быть описан простым уравнением:
Мы можем получить формулу логистической регрессии, если объединим приведенную выше формулу с так называемой сигмоидной функцией[51] (функцией, график которой имеет форму S-образной кривой):
После того как мы решим сигмоидную функцию для y и повторно вставим результат в первую формулу, мы получим:
Эта формула преобразует наш график из прямой линии регрессии в функцию логистической регрессии (рис. 6.14):
Шаг 1: разберемся с элементами графика. Разобьем наш график на основные элементы (рис. 6.15):
Здесь ось x содержит независимую переменную, а ось y – зависимую с результатом «да»/«нет». Точки на графике – результаты, взятые из нашего массива данных.
Шаг 2: создание графика наклона для логистической регрессии. Мы сделаем это, подставив массив данных в формулу логистической регрессии и находя наиболее подходящие коэффициенты b0 и b1:
Это приводит к следующей кривой (рис. 6.16):
Эта кривая является наиболее подходящим графиком логистической регрессии для наших массивов данных. Как только мы проведем эту линию, можно стереть наблюдения из нашего графика, чтобы сосредоточиться на самой линии (рис. 6.17).
Обратите внимание, как изменилось обозначение оси y. Это потому, что мы можем использовать логистическую регрессию для прогнозирования вероятностей или правдоподобия того, что что-то произойдет. (На следующих страницах вы увидите символ ^, например
– он означает предсказанные вероятности и называется крышечкой:
– это p с крышечкой.)
Шаг 3: используйте график, чтобы сделать прогнозы для новых данных. Давайте вернемся к нашему примеру и предположим, что мы хотим определить вероятность открытия электронного письма людьми в возрасте 20, 30, 40 и 50 лет, учитывая, что у нас уже есть график логистической регрессии. Сначала мы спроецируем эти возрастные значения на кривую: проведем линии, параллельные оси
от каждой соответствующей точки на оси
x до тех пор, пока они не достигнут линии регрессии. Это будут подходящие значения.
Затем мы проецируем эти значения влево, чтобы определить вероятность (рис. 6.18). Это означает проведение линии, параллельной оси x, от установленного значения до тех пор, пока она не достигнет оси
Шаг 4: найти вероятность для каждого значения. Допустим (чисто гипотетически), что мы получили следующие результаты:
Шаг 5 (необязательно): установите ограничения. Итак, мы знаем, как получить вероятность
для любой новой точки данных. Но как мы можем получить значение «да»/«нет»?
Хотя мы никогда не сможем быть абсолютно уверены в том, что произойдет, мы можем получить предсказанное значение для нашего фактического y (этот прогноз обычно обозначается ŷ) из нашей логистической регрессии.
Определить ŷ очень просто: выберите произвольный уровень на оси y между 0 и 1. Вы можете провести эту линию выше или ниже в зависимости от того, как много знаете о проблеме. Например, если вы продаете нишевый продукт, то, скорее всего, его купит меньше людей, поэтому вы можете провести линию повыше, чтобы включить меньшее число потенциальных покупателей. Для этого примера давайте проведем линию прямо посередине, на 0,5 – это тоже самый распространенный подход (рис. 6.19).