Давайте поговорим об алкотестере. Предположим, что это устройство разработано очень хорошо и безошибочно выявляет всех пьяных водителей. В конце концов, в том его основное предназначение. Но алкотестер неидеален и будет регистрировать ложное пьянство в 5 % случаев. Это означает, что из 100 трезвых человек он будет ошибочно считать пьяными пятерых (такие результаты называются ложно-положительными). То есть тестирование алкотестером даст положительный результат, хотя на самом деле эти люди не будут находиться в состоянии опьянения.
А теперь представьте, что полицейский только что проверил алкотестером случайного водителя и прибор показывает, что водитель пьян. Какова вероятность того, что он или она действительно выпили?
Импульсивный ответ был бы 95 %. Но правильный ответ на самом деле – около 2 %. Как так? Здесь пригодится теорема Байеса.
Предположим, что на каждую 1000 водителей на дороге приходится только один человек, который ведет машину в нетрезвом состоянии. Если полицейские протестируют 1000 водителей, они получат следующие результаты:
• 1 водитель, который действительно пьян, будет обнаружен непременно;
• из оставшихся 999 водителей 5 % будут сочтены пьяными, то есть 5 % × 999 = 49,95 водителя (не беспокойтесь о десятичной запятой в числе водителей – мы всегда можем округлить этот пример до 100 000 водителей, чтобы результат был целым числом).
В этом примере алкотестер выявил в общей сложности 1 + 49,95 = 50,95 пьяного водителя. Таким образом, вероятность того, что любой из этих водителей действительно пьян, 1/50,95 = 0,0196 % ≈ 2 %. Мы можем проиллюстрировать это в таблице 6.1:
Удивлены? Вы не одиноки. Теорема Байеса до сих пор озадачивает меня всякий раз, когда я сталкиваюсь с примером ее применения к реальной жизненной ситуации. Поразительно, как часто мы делаем поспешные выводы о том, что нам показывают, вместо того чтобы рассмотреть общую картину[48].
Теперь давайте посмотрим на формулу Байеса. Вот обозначения, которые будут использоваться в этом примере:
P (пьяный);
Р (пьяный | положительно);
Р (положительно | пьяный);
Р (положительно),
где P обозначает вероятность, а вертикальная черта – условную вероятность.
Каждый из перечисленных элементов имеет математическое название. P (пьяный) – вероятность того, что случайно выбранный водитель будет пьян. В байесовской статистике эта вероятность называется априорной вероятностью. Если мы вспомним наши первоначальные предположения, то можем вычислить априорную вероятность как P (пьяный) = 1/1000 = 0,001.
P (пьяный | положительно) – условная вероятность того, что при положительном результате алкотестера (когда устройство определило, что человек за рулем находится в состоянии алкогольного опьянения) водитель действительно окажется нетрезв. Эта вероятность называется апостериорной вероятностью, она нас интересует в расчете.
P (положительно | пьяный) – условная вероятность того, что, когда водитель фактически пьян, алкотестер отреагирует положительно. Ее называют функцией правдоподобия. В нашем случае любой по-настоящему пьяный водитель всегда распознается прибором, а значит, P (положительно | пьяный) = 1.
P (положительно) – вероятность того, что у любого случайно выбранного водителя окажется положительный результат на алкотестере. Это предельное правдоподобие, и в нашем примере оно рассчитывается как P (положительно) = 50,95/1000 = 0,05095.
Не волнуйтесь, вы не должны помнить все эти названия, но в один прекрасный день можете встретить их – и тогда припомните наш пример с алкотестером. А теперь, когда все приготовления завершены, можно ввести формулу Байеса:
Подставив числа, получим следующее:
1 × 0,001/0,05095 = 0,0196 = 1,96 %.
Хотя это уравнение может показаться сложным, на самом деле оно понятно на уровне интуиции. Если вы не уверены, просто повторите шаги, с помощью которых мы рассчитали этот тип вероятности, для начала используя табличный метод, и вы увидите, что мы выполнили точно такие же вычисления, как предложено формулой Байеса. Разница лишь в том, что наши исходные данные были приведены к 1000 водителей (вместо 0,001 у нас был 1, а вместо 0,05095 – 50,95).