Теоретическое распределение коэффициента корреляции между независимыми переменными для трех точек в соответствии с формулой, выведенной Фишером (слева), и результат моделирования, выполненного 10 000 раз (справа).
Если даны четыре точки, то все значения коэффициента корреляции равновероятны. Если дано пять точек, то наиболее вероятным значением является ноль. По мере роста числа точек начинает вырисовываться традиционный график в форме колокола.
* * *
Еще один пример: сбалансированы ли игральные кости?
В главе 2 упоминается, что в 1850 году швейцарский астроном бросил пару игральных костей (красного и белого цвета) 20000 раз. Полученные результаты были достаточно далеки от ожидаемых теоретических значений. Это дает основания подозревать, что в эксперименте, возможно, использовались несбалансированные игральные кости. Так как все шесть возможных результатов являются равновероятными, если мы бросим игральные кости 20 000 раз, то теоретически каждое значение выпадет 20000/6 = 3333 раза. В следующей таблице представлены результаты эксперимента, теоретические значения и абсолютная величина отклонения от теоретических значений.

Являются ли эти отклонения достаточно большими, чтобы говорить о несбалансированности игральных костей? Или же эти отклонения могут возникнуть случайным образом? В конце концов, если бы результаты эксперимента в точности совпадали бы с теоретическими значениями, это тоже выглядело бы странно. Чтобы развеять сомнения, проверим статистическую гипотезу по той же схеме, что использовал Фишер для решения задачи о дегустаторе чая. Будем предполагать, что игральные кости сбалансированы, и отвергнем эту гипотезу только в том случае, если полученные данные будут явно ей противоречить.
Будем анализировать максимальное отклонение между полученными и теоретическими значениями. В предыдущей таблице показано, что для красного кубика эта величина равна 417, для белого — 599. Зададимся вопросом: каковы ожидаемые значения этой величины для идеально сбалансированных игральных костей? И снова на этот вопрос можно ответить с помощью моделирования.
Смоделируем 20000 бросков игральной кости, подсчитаем, сколько раз выпадет каждое значение, и рассчитаем максимальное отклонение от теоретического значения. При первом моделировании максимальное отклонение равнялось 83, при втором — 97. После того как моделирование было выполнено 10000 раз, была получена гистограмма, представленная на следующем рисунке. На ней также указаны значения, соответствующие красному и белому игральному кубику.
Распределение максимального отклонения для сбалансированных игральных костей и значения, полученные экспериментально.
Очевидно, что данные эксперимента противоречат гипотезе о сбалансированности игральных костей. Если бы эта гипотеза была верна, то вероятность получить подобные данные была бы очень, очень мала. В этом случае р-значение равно нулю с точностью до нескольких знаков после запятой. Следовательно, мы можем утверждать, что игральные кости несбалансированны, а вероятность того, что мы ошибаемся, практически равна нулю.
В качестве показателя, обобщающего данные эксперимента, можно использовать не максимальное отклонение, а величину, в которой учитывается отклонение для всех шести возможных результатов броска игральной кости.
Такой величиной может быть сумма всех отклонений, равных разности фактической и теоретической частоты, возведенных в квадрат (чтобы положительные и отрицательные отклонения не скомпенсировали друг друга), разделенная на теоретическую частоту.
Для красной игральной кости эта величина будет равна
Расчеты могут показаться вам излишне сложными, но эта величина обладает определенным преимуществом: она не требует моделирования распределения для случая, когда нулевая гипотеза верна (так называемого эталонного распределения). Эта величина называется критерий х>2 (хи-квадрат). Ее впервые использовал в 1900 году Карл Пирсон, сыгравший важную роль в истории статистики. Мы уже упоминали его имя, когда говорили о коэффициенте корреляции.
Для обычных статистических тестов нет необходимости в моделировании распределения величины. Вместо этого оно выводится с помощью математических методов. Формула для расчета распределения коэффициента корреляции достаточно сложна и не имеет своего названия, хотя при большом размере выборки это распределение близко к нормальному. Первым, кто вывел формулу для этого распределения, был не кто иной, как Рональд Эйлмер Фишер.