Несмотря на название, логистическая регрессия на самом деле не является алгоритмом регрессии; это тип метода классификации. Он использует наши данные, чтобы предсказать шансы на успех в таких сферах, как, скажем, продажа продукта определенной группе людей, определение ключевых демографических показателей для просмотра вашей электронной почты, или во многих других областях, не связанных с бизнесом, – например, в медицине, когда на основе возраста, пола и результатов анализа крови пациента пытаются предсказать, будет ли тот страдать ишемической болезнью сердца.
Но сначала мы должны вернуться назад. Для начала очень важно понять принципы линейной регрессии, в которую уходит корнями логистическая регрессия. Существует два типа линейной регрессии, о которых мы должны знать:
1. Простая линейная регрессия позволяет проанализировать связь между одной зависимой и одной независимой переменными. Это особенно полезно для анализа того, как одна переменная реагирует на другую, например когда мы рассматриваем изменение уровня преступности на фоне динамики ВВП страны.
2. Множественная линейная регрессия дает возможность проанализировать связь между одной зависимой и двумя или более независимыми переменными. Она лучше всего подходит для анализа более сложных массивов данных и может быть использована в целях изучения, например, того, каковы наилучшие предикторы (возраст, черты личности или социальная вовлеченность) уровней тревоги, испытываемой при смене жилья.
Как работает линейная регрессия
Ниже приведен пример линейной регрессионной модели на точечной диаграмме, которая показывает заработную плату респондентов и годы их стажа. Наша зависимая переменная – на оси y, а независимая переменная – на оси x (рис. 6.10).
При простой линейной регрессии, которую мы здесь наблюдаем, через наши данные проводится линия, и таким образом моделируются наши наблюдения. Это значит, что если мы будем знать опыт человека, то сможем спрогнозировать его зарплату. В то время как это хорошо работает для точечных диаграмм, где оси x и y содержат много значений, сложнее увидеть преимущества линейной регрессии для оси y только с двумя возможными значениями: 0 и 1. Это часто происходит, когда мы имеем дело с данными «да/нет», собранными из вопросов, на которые может быть дан один ответ из двух возможных. Вопросы типа «Вы купили этот продукт?», «Вы будете еще делать у нас покупки?» и «Есть ли у вас домашнее животное?» попадают в эту категорию, потому что требуют одного из двух ответов.
Ответы «да»/«нет»
Ответы «да»/«нет» являются категориальными переменными, то есть переменными с фиксированным числом ответов.
Работа с категориальными переменными. Можно ли найти регрессию для категориальных переменных? Да, можно. Давайте используем другой пример, чтобы проиллюстрировать это. Допустим, после e-mail-рассылки нашим клиентам мы хотим проанализировать уровень открываемости писем. На графике (рис. 6.11) я показал, клиенты какого возраста открывают или не открывают наше электронное письмо. Значения «да»/«нет» были преобразованы в 1 и 0 соответственно.
На этом этапе мы можем задаться вопросом: что можно сделать со всем этим пространством между двумя значениями по оси y? Как провести линию регрессии через график, который не показывает градиента изменений?
Но если мы посмотрим внимательнее, то увидим, что между значениями происходят постепенные изменения. На оси y значение 0 отклоняется влево по оси x, в то время как на оси y значение 1 больше отклоняется вправо по оси x. Это означает, что рассылка была хорошо принята пожилыми людьми. По мере увеличения значений на оси x (то есть с повышением возраста) рос стимул просмотреть наш e-mail. Это важный вывод, и теперь мы можем начать делать некоторые предположения о действиях, которые может предпринять человек определенного возраста.