Том 13. Абсолютная точность и другие иллюзии. Секреты статистики - страница 26

Шрифт
Интервал

стр.


Нетрудно видеть, что эта формула равносильна следующей:

(x>n/n) — 1

Следовательно, более точную оценку общего числа элементов генеральной совокупности можно вычислить по формуле:


Насколько точна эта оценка? С помощью методов математической статистики можно доказать, что она является максимально точной из возможных. На языке специалистов такая оценка называется равномерно несмещенной оценкой с минимальной дисперсией.

Таким образом, нам достаточно записать номера лицензий 20 такси, прибавить к наибольшему из них его же значение, поделенное на 20, и вычесть 1. В нашем примере, если число лицензий равно 10481 и они пронумерованы последовательными числами, то в 95 % случаев оценка, выполненная по этой формуле, будет лежать в интервале от 9175 до 10990.

Очевидно, что этот метод подходит не только для подсчета числа такси в городах. Его также можно использовать, например, чтобы определить число участников массового забега, если всем им выданы последовательные номера. Службы разведки в прошлом посредством похожих методов оценивали вооружение врага. Мы знаем, что оружие имеет табельный номер, поэтому достаточно каким-то образом заполучить лишь несколько единиц, чтобы оценить общее количество оружия.


Какова доля домохозяйств, подключенных к Интернету?

Сначала нужно уточнить определения: что мы будем считать домохозяйством и подключением к Интернету. Нет смысла производить подробные расчеты, если нам неизвестно точное значение используемых понятий.

В одном газетном заголовке утверждалось, что половину сигарет выкуривают люди с психическими расстройствами. Это звучало так, будто половина курильщиков — ненормальные, что выглядит явным преувеличением. Однако в тексте заметки под психическим расстройством понималась зависимость от какого-либо вещества, поэтому не половину, а почти все сигареты выкуривают люди, страдающие от никотиновой зависимости, следовательно, имеющие «психическое расстройство». Многие слова, которые мы произносим в повседневной жизни, неоднозначны. Одно из таких слов — «семья». Что такое семья? Муж, жена и их дети? А если вместе с ними живут бабушка и дедушка, их следует считать членами семьи? Достаточно странно определять принадлежность человека к семье по тому, в каком доме он живет. Семью можно понимать и в более широком смысле, как, например, на свадьбах, где «семья невесты» и «семья жениха» насчитывают по несколько десятков гостей.

* * *

ОЦЕНКА ВЫИГРЫШНОЙ КОМБИНАЦИИ НАЦИОНАЛЬНОЙ ЛОТЕРЕИ

Нам прекрасно известно, что все числа национальной лотереи выпадают с одинаковой вероятностью. Но что можно сказать о среднем значении чисел выигрышной комбинации? 7 января 2010 года выигрышная комбинация испанской национальной лотереи состояла из следующих чисел: 19, 24, 25, 38, 43 и 49, их среднее значение равно 33. В субботу, 9 января, выпали числа 13, 26, 29, 30, 31 и 43; их округленное среднее значение равно 29. Все ли средние значения выпадают с одинаковой вероятностью или некоторые из них встречаются чаще, чем другие?

Определенные средние значения действительно встречаются чаще, поскольку, как мы объяснили в предыдущей главе, средние значения подчиняются закону нормального распределения. На следующей гистограмме представлено среднее значение чисел выигрышных комбинаций всех лотерей, начиная с 17 октября 1985 года и заканчивая 31 декабря 2009 года:



Средние значения чисел в выигрышных комбинациях.


Среднее значение будет с намного большей вероятностью лежать между 20 и 30, чем между 5 и 15. Почему бы нам не выбирать только те комбинации, в которых среднее значение чисел лежит в промежутке от 20 до 30? Ведь таких комбинаций намного больше, и вероятность того, что одна конкретная комбинация окажется выигрышной, всегда одинакова. Иными словами, если в розыгрыше участвует 1000 номеров, то какое число выпадет с большей вероятностью: лежащее в интервале от 500 до 550 или же число, лежащее вне этого интервала? Очевидно, что с большей вероятностью выпадет число вне этого интервала, но это не означает, что конкретное число внутри этого интервала выпадет с меньшей вероятностью, чем конкретное число вне этого интервала.


стр.

Похожие книги