, выше, чем первого.
Соображения, высказанные в предыдущих параграфах, показывают, как трудно прийти к какому-либо точному критерию оценки функциональной нагрузки. Разнообразные критерии, предложенные лингвистами до сих пор, не могут претендовать на точность, несмотря на свою математическую изощренность. Тем не менее следует предусмотреть в нашей теории языковой структуры место для понятия функциональной нагрузки, несомненно весьма важного как в синхроническом, так и в диахроническом плане. Очевидно, все же имеет смысл говорить о том, что определенные противопоставления несут более высокую функциональную нагрузку, чем какие-то другие, даже если соответствующие различия не поддаются точному измерению.
2.4.2. КОЛИЧЕСТВО ИНФОРМАЦИИ И ВЕРОЯТНОСТЬ ПОЯВЛЕНИЯ *
Другое важное статистическое понятие связано с количеством информации, которую несет языковая единица в некотором данном контексте; оно также определяется частотой появления в этом контексте (во всяком случае, так обычно считается). Термин «информация» употребляется здесь в особом значении, которое он приобрел в теории связи и которое мы сейчас поясним. Информационное содержание отдельной единицы определяется как функция от ее вероятности. Возьмем для начала самый простой случай: если вероятности появления двух или более единиц в некотором данном контексте равны, каждая из них несет в этом контексте одно и то же количество информации. Вероятность связана с частотой следующим образом. Если две, и только две, равновероятные единицы — х и у — могут встретиться в рассматриваемом контексте, каждая из них встречается (в среднем) ровно в половине всех соответствующих случаев: вероятность каждой, a priori, равна 1/2. Обозначим вероятность отдельной единицы х через р>х. Итак, в данном случае р>х = 1/2 и р>у = 1/2. В более общем виде вероятность каждой из n равновероятных единиц (x>1, х>2, х>3, . . ., х>n) равна 1/n. (Заметим, что сумма вероятностей всего множества единиц равна 1. Это справедливо независимо от более частного условия равной вероятности. Особым случаем вероятности является «достоверность». Вероятность появления единиц, которые не могут не появиться в данном контексте, равна 1.) Если единицы равновероятны, каждая из них несет одно и то же количество информации.
Более интересны, поскольку более типичны для языка, неравные вероятности. Предположим, например, что встречаются две, и только две, единицы, х и у, и что х встречается в среднем вдвое чаще, чем у, тогда р>х = 2/3 и р>у = 1/3. Информационное содержание x вдвое меньше, чем содержание у. Другими словами, количество информации обратно пропорционально вероятности (и, как мы увидим, логарифмически связано с ней): это фундаментальный принцип теории информации.
С первого взгляда это может показаться несколько странным. Однако рассмотрим сначала предельный случай полной предсказуемости. В письменном английском языке появление буквы u, когда она следует за q, почти полностью предсказуемо; если отвлечься от некоторых заимствованных слов и собственных имен, можно сказать, что оно полностью предсказуемо (его вероятность равна 1). Подобно этому, вероятность слова to в таких предложениях, как I want . . . go home, I asked him . . . help me [29] (предполагается, что пропущено только одно слово), равна 1. Если бы мы решили опустить u (в queen 'королева', queer 'странный', inquest 'следствие' и т. п.) или слово to в упомянутых контекстах, никакой информации не было бы потеряно (здесь мы наблюдаем связь между обычным и более специальным значением слова «информация»). Поскольку буква u и слово to не находятся в парадигматическом контрасте ни с какими другими единицами того же уровня, которые могли бы встретиться в том же контексте, вероятность их появления равна 1, а их информационное содержание — 0; они целиком избыточны. Рассмотрим теперь случай двучленного контраста, где р>х = 2/3 и р>у = 1/3. Ни один из членов не является целиком избыточным. Но ясно, что пропуск х приводит к меньшим последствиям, чем пропуск у. Поскольку появление х вдвое вероятнее, чем появление