Федотов Валерий Павлович (matholimp) wrote,
Федотов Валерий Павлович
matholimp

Category:

Зачем нужна избыточность представления информации

Во второй половине 1980-х годов я представил рукопись на единственный в истории СССР конкурс школьных учебников по основам информатики и вычислительной техники. В параграфе, посвящённом измерению информации, я обратил внимание на весьма распространённую ошибку: количество информации часто отождествляют с размером файла, представляющего эту информацию.
Например, согласно определению бита, количество информации в 1 бит несёт ответ на вопрос о выборе между двумя а приори равновероятными возможностями. Очень часто этот ответ выражается текстовым сообщением. Даже в простейшем формате txt он займёт несколько байтов. Причина состоит в том, что, кроме собственно выбора, ответ содержит контекстную информацию из вопроса. В отсутствие чёткого указания на контекст, получатель информации просто не поймёт, о чём идёт речь.
Но если txt заменить на doc или pdf, то избыточность представления информации вырастет уже не в разы, а на порядки. Причин здесь несколько. Фактически происходит шифрование информации (выбор кодовой страницы, замена кодов букв на их рисунки в графических форматах), что всегда сильно увеличивает размер файла. Кроме того, приходится выбирать не имеющие прямого отношения к ответу на вопрос сопутствующие обстоятельства (например, гарнитуру и цвет шрифта).
Причина путаницы становится понятной, если проследить, как трансформируется информация в зависимости от способа её представления по пути от отправителя к получателю. Сначала сам выбор (1 бит) выражается кратким ответом "да" или "нет" (2 или 3 байта). Затем полный ответ даётся в форме развёрнутого предложения (чаще всего, несколько десятков байтов). Если полный ответ записали на бумаге и отсканировали, то размер файла вырастает в тысячи раз.
Заметим, что устройства для хранения и передачи файла не владеют семантикой. Более того, так как на этом этапе формат файла не играет роли, то он не распознаётся (игнорируется). Именно по этой причине файл приходится передавать полностью, иначе потеря хотя бы одного бита может привести к фатальному искажению информации. Поэтому для устройства количество передаваемой информации равно размеру файла, что и служит причиной обсуждаемой ошибки.
Если графический файл оказался слишком большим для передачи по медленному каналу связи, то текст распознаётся специальной программой, что позволяет сократить размер передаваемого файла в тысячи и даже миллионы раз. А если содержащаяся в файле информация не является сверхсекретной или интимной, то вместо программы нужный текст может с клавиатуры набрать оператор, прочитавший его. Отдельный сюжет - риск ошибок на этом этапе. Они возникают из-за того, что в процессе распознавания фактически создаётся новая информация, далеко не всегда адекватная исходной.
Иногда получателю удобнее прослушать текст в звуковом формате. В этом случае файл ещё раз преобразуется с помощью синтезатора речи. Кроме того, на этом этапе возможен перевод с одного языка на другой. Как и на предыдущем шаге, здесь создаётся новая информация, меняющая размер файла, и возможны очередные ошибки. Если ошибки не привели к непоправимому искажению смысла, то получатель понимает его, извлекая из моря информации нужный ему 1 бит.
Subscribe

promo matholimp october 24, 07:13 35
Buy for 10 tokens
Им нет числа. Случаются разные лузеры, но я побил все рекорды. Теперь уже пришло время подвести итоги, что я сейчас и делаю. Для начала, в 1968 году я стал победителем 10 ММО. Даже простое участие в ней давало мне право поступить без экзаменов в любой вуз СССР. Ради широкой карьеры математика…
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments