Капеллан дьявола: размышления о надежде, лжи, науке и любви - страница 52

Шрифт
Интервал

стр.

. Избыточность — это та часть любого сообщения, которая неинформативна потому, что она уже известна получателю (и ничуть его не удивит), либо потому, что она повторяет другие части того же сообщения. В предложении “Ровер — собака породы пудель” слова “собака” и “породы” избыточны, потому что слово “пудель” уже говорит нам, что Ровер — собака соответствующей породы. Из телеграммы эти слова можно было бы убрать для экономии, тем самым увеличив информативность сообщения. Сообщение “Приб ДжФК пт веч пжлст встр БЭ кнкрд” несет ту же информацию, что и более длинное, но более избыточное “Я прибываю в аэропорт им. Джона Ф. Кеннеди в пятницу вечером; пожалуйста, встречайте ‘Конкорд[120] компании ‘Бритиш эйрвеэйз>5”. Очевидно, что послать краткий вариант, записанный в телеграфном стиле, будет дешевле (хотя получателю, возможно, и придется изрядно потрудиться, чтобы его расшифровать — у избыточности есть свои достоинства, если забыть об экономичности) . Шеннон хотел найти математический способ передать идею, что любое сообщение можно разбить на информацию, избыточность (которую можно — и экономически выгодно — исключать из сообщения, потому что получатель может при желании ее восстановить) и шумы (просто случайная белиберда).

Сообщение “В Оксфорде на этой неделе ежедневно шел дождь” несет сравнительно мало информации, потому что получателя оно не удивит. С другой стороны, количество информации в сообщении “В пустыне Сахара на этой неделе ежедневно шел дождь” намного больше и вполне стоит того, чтобы подороже заплатить за его пересылку. Шеннон хотел как-то передать этот смысл количества информации как “меры удивительности”. Он связан с другим смыслом (как “того, что не продублировано в других частях сообщения”), потому что повторы теряют свою способность удивлять. Заметьте, что шенноновское определение количества информации не зависит от того, истинна ли она. Придуманная им мера информации была остроумна и интуитивно соответствовала задаче. Давайте, предложил он, оценим количество незнания или неопределенности знаний получателя до получения сообщения, а затем сравним его с количеством оставшегося незнания после получения сообщения. Сокращение количества незнания и будет количеством переданной информации. Шенноновская единица измерения информации — бит (bit), от binary digit (двоичная цифра). Один бит определяется как количество информации, необходимое, чтобы первоначальная неопределенность сократилась вдвое, как бы велика она ни была (читатели-математики заметят, что бит, таким образом, относится к логарифмическим единицам измерения).

На практике вначале нужно найти способ измерения априорной неопределенности — той, что сокращается, когда поступает информация. Для некоторых разновидностей простых сообщений это легко сделать с помощью вероятностей. Будущий отец с нетерпением наблюдает через окошко за рождением своего ребенка. Ему не видно почти ничего, поэтому одна из медсестер согласилась показать ему розовую карточку, если родится девочка, или голубую, если родится мальчик. Сколько информации передается, когда сестра показывает счастливому отцу, скажем, розовую карточку? Ответ — один бит (априорная неопределенность сократилась вдвое). Отец знает, что родился какой-то ребенок, поэтому неопределенность его знаний сводится к двум возможностям (мальчик или девочка), которые для целей этого обсуждения можно считать равновероятными. Розовая карточка вдвое сокращает априорную неопределенность от двух возможностей до одной (девочка). Если бы никакой розовой карточки не было, а из родильной комнаты вышел бы врач, пожал бы новоиспеченному отцу руку и сказал: “Поздравляю, старина, я очень рад, что мне выпала честь первым вам сообщить, — у вас родилась дочь”, то количество информации, переданной этим сообщением в семнадцать слов, составило бы по-прежнему один бит.

Компьютерная информация содержится в последовательностях нолей и единиц. Есть только два возможных варианта, поэтому 0 или 1 в каждом положении содержит один бит информации. Объем памяти компьютера или емкость диска или ленты часто измеряется в битах и представляет собой суммарное число нолей или единиц, которые это устройство может содержать. Для некоторых целей более удобной единицей измерения служит байт (восемь бит), килобайт (тысяча байт), мегабайт (миллион байт) или гигабайт (тысяча миллионов байт)


стр.

Похожие книги