Дополнительные свидетельства
Мы так увлеклись теоремой Байеса, что совсем забыли о наших полицейских. Они проверяют человека алкотестером, прибор считывает данные как положительные, но вероятность того, что человек действительно пьян, всего лишь 2 %. Что делать копам?
На этом этапе они могут прибегнуть к более точным методам проверки (например, взять анализ крови на уровень алкоголя) или выбрать гораздо более простое решение: дополнительное тестирование содержимого выдоха. Давайте посмотрим, чем это может быть полезно.
Мы знаем, что из 1000 протестированных водителей 50,95 были признаны пьяными. Мы также знаем (для целей этого примера), что только один из них на самом деле пьян. Тестируя каждого из 50,95 «пьяного» водителя вторично, можно применить ту же логику, что и раньше, – алкотестеры обнаружат:
• одного водителя, который на самом деле пьян;
• 5 % остальных 49,95 водителя в нетрезвом состоянии, то есть 5 % × 49,95 = 2,4975 водителя.
Таким образом, 1 + 2,4975 = 3,4975 водителя будут сочтены пьяными во второй раз.
Как видно, мы сужаем область поиска результатов, и теперь вероятность того, что водитель, чей результат во втором испытании алкотестером был положительным, действительно пьян, равна: 1/3,4975 = 28,59 %.
Результат по-прежнему кажется низким? Тогда почему бы еще раз не протестировать остальных водителей? Применяя ту же логику, мы получим следующие результаты проверки в третьем раунде: как всегда, один действительно пьяный водитель будет обязательно обнаружен; из оставшихся 2,4975 водителя 5 % будут сочтены пьяными, то есть 5 % x 2,4975 = 0,124875 водителя.
Теперь только 1 + 0,124875 = 1,124875 водителя сочтен пьяным. Таким образом, вероятность того, что водитель с положительным результатом третьего тестирования алкотестером действительно был пьян, равна: 1/1,124875 = 88,89 %.
Вот так намного лучше. На этом этапе сотрудники полиции могут приказать водителям, тестирование которых дало положительный результат, выйти из автомобилей. Четвертый тест будет еще более точным, и вероятность совпадения его результатов и состояния водителя возрастет до более 99 %. Вы вполне можете выполнить этот расчет в свободное время. Чтобы не потеряться в числах, используйте таблицу 6.2 в качестве руководства:
Пример с использованием алкотестера мне очень нравится, поскольку он иллюстрирует две вещи:
1. Нужно с самого начала учитывать априорные знания (в данном примере, что только один из 1000 водителей фактически пьян). Игнорирование общей картины может привести к поспешным и зачастую неправильным выводам.
2. Исходные данные в формуле Байеса нужно обновлять по мере поступления новых. Только так можно добиться того, чтобы общая картина всегда оставалась актуальной. Иногда нам, возможно, придется активно искать новые сведения, чтобы получить более точные результаты.
Так что читатели больше не должны удивляться, что сотрудники полиции иногда просят водителей дышать в контрольные устройства более одного раза.
Это был краткий экскурс в мир байесовской статистики. Вооружившись теоремой Байеса, мы теперь готовы перейти к наивному байесовскому классификатору.