Кодировочные войны в Рунете

В 1990-х годах KOI8-R стал фактически стандартом для кодирования русской кириллицы в UNIX-подобных операционных системах и электронной почте. Автор стандарта RFC данной кодировки (RFC 1489) Андрей Чернов в начале 1990-х годов работал в компании Демос и непосредственно участвовал в запуске и наладке первого интернет-канала между Россией и западными странами.

КОИ-8 означает «код обмена информацией, 8 бит». KOI-8R это модификация для русского языка, KOI-8U для украинского, KOI8-T — таджикского и т. п. Андрей Чернов разработал KOI-8R на базе советской кодировки ДКОИ для ЕС ЭВМ и сделал совместимой с американской кодировкой ASCII. ДКОИ — это «двоичный код обмена информацией», восходящий к телеграфной двоичной азбуке Морзе. Также существовала кодировка КОИ-7 — 7-битная для СМ ЭВМ и ДВК.

Адепты КОИ-8 утверждают, что она стала первой русской стандартизированной кодировкой в интернете. Данное утверждение имеет, в большей степени, религиозное, чем практическое значение и фактически не точно. Если говорить именно о практической стороне, то КОИ-8 действительно активно применялась на начальных этапах существования русскоязычного интернета, в том числе в network news релкомовской иерархии и сетевой почте, в основном передававшейся по UUCP.

Впрочем, практическое значение у данной заявки всё-таки было, но несколько неожиданное. В тот период, когда Релком и Демос являлись почти монополистами по транзиту UUCP-почты в "большой интернет", попытки протолкнуть использование КОИ-8 в Интернет со стороны сторонников её применения, по мере увеличения числа пользователей сети, работавших под управлением MS-DOS и Windows (см. UUPC/@) начали носить истерический характер, приведя, в итоге к скандалу между рядом пользователей Демос и Релком и администрациями этих сетей.

Системные администраторы - сторонники КОИ-8 требовали передачи всей сетевой почты в "единой кодировке" КОИ-8, а широкие массы пользователей чем дальше, тем сильнее игнорировали эту роскошную идею и слали письма как им было удобно - в кодировках CP-866 и Windows-1251. Такой порядок действий создавал некоторый бардак, но, в целом, оставлял вопрос на совести отправителя (и/или получателя почты).

Но кое-кому не было покоя. Синдром вахтера требовал построить всех бесправных юзеров в одну колонну и заставить ходить строем.

Неизвестно точно[1] какой светлой голове пришла в голову эта идея, но на ряде узловых почтовых серверов был включён режим принудительной перекодировки текстов писем в КОИ-8. Разумеется, работал он не всегда правильно, порождая, в том числе невосстановимые артефакты - два цикла перекодировки DOS-КОИ, например, не позволяли точно восстановить исходный текст.

Разумеется, при корректном формировании исходного письма этот режим всегда бы срабатывал правильно, но от тех, кто слал письма в кодировке DOS, например, было сложновато ожидать каких-то специальных усилий, чтобы их письма отправлялись с правильными служебными полями только для того, чтобы их принудительно перекодировали (о чём отправитель вовсе не просил).

Скандал начал постепенно выходить на административно-коммерческий уровень - платные пользователи почты были недовольны подобным самоуправством, начальство провайдеров было озабочено совершенно иными вопросами и не уделяло внимания "мелкой проблеме". В результате она не решалась, и пар в котле грелся.

В определённый момент действия самодеятельных прокрустов приняли совсем уже анекдотический характер. Кто-то из пользователей, отчаявшихся добиться возможности нормально переписываться из под ДОС-овской программы, начал слать свои письма аттачами в файлах MS Word. Неизвестный вахтёр перехватил такое письмо и из принципа перекодировал содержимое вордовского файла в КОИ.

Поскольку, такая операция могла быть проделана только руками, а не в режиме автоматического сервиса, встал вопрос о том, что кто-то из админов излишне сует нос в чужую переписку...

Через некоторое время проблема урегулировалась естественным, рыночным путём. Начали появляться новые интернет-провайдеры, и после этого руководство Демоса и Релкома перестало поддерживать бездействием всю эту бессмысленную активность, однако проблема разных кодировок русских букв в почтовой переписке была актуальна ещё длительное время. Уже чисто технически.

В русской википедии долгое время существовала статья «Кракозябры», посвящённая этой проблеме (была затем удалена) — статья была проиллюстрирована фотографией почтовой бандероли (2002), на которой кто-то вручную написал российский физический почтовый адрес в том виде, в котором прочитал на компьютере — с побитой кодировкой. На почте вручную расшифровали адрес и подписали его красной ручкой сверху исходных «побитых» символов.

Массовое внедрение UNICODE постепенно закрыло этот вопрос.

См. такжеПравить

ПримечанияПравить

  1. Возможно, найдутся материалы.