Способы кодирования символов

Способы кодирования символов возникли с появлением ЭВМ, когда стала задача представления в двоичном коде нечисловых величин.

Способы кодирования символов возникли с появлением ЭВМ

Для кодирования символов был предложен способ, получивший в дальнейшем широкое распространение для звуков и изображений. Совокупность вводимых и отображаемых символов называется алфавитом компьютерной системы. Это арабские цифры, буквы латинского алфавита, знаки препинания, специальные символы и знаки, буквы национального алфавита, символы псевдографики – растры, прямоугольники, одинарные и двойные рамки, стрелки. Первоначально для кодирования одного символа отвели 1 байт (8 битов), Этот способ позволил кодировать алфавит из 256 различных символов. Так возникла кодовая таблица – система, в которой каждому символу алфавита поставлен в соответствие уникальный код. Но разные производители компьютеров для кодирования одних и тех же символов создали свои кодовые таблицы. При этом, символы, набранные с помощью одной таблицы кодов, отображались неверно при использовании другой таблицы. Поэтому, в 1981 г. Институт стандартизации США принял стандарт кодовой таблицы, получившей название АSCII (Аmerican Standard Code of Information Interchange). Эта таблица использовалась в компьютерных программах под управлением операционной системы МS-DOS, и вскоре приобрела статус международной.

Способ кодирования символов в виде таблицы АSCII содержит 256 символов и их кодов. Таблица состоит из двух частей: основной и расширенной. Основная часть (символы с кодами от 0 до 127 включительно) является базовой, она в соответствии с принятым стандартом не может быть изменена. В нее вошли: управляющие символы (им соответствуют коды с 1 по 31), арабские цифры, буквы латинского алфавита, знаки препинания, специальные символы.

Расширенная часть (символы с кодами от 128 до 255) отдана национальным алфавитам, символам псевдографики и некоторым специальным символам. В соответствии с утвержденными стандартами эта часть таблицы изменяется в зависимости от национального алфавита той страны, где она используется, и способа кодирования символов. Операционная система Windows поддерживает большое число расширенных таблиц для различных национальных алфавитов. Наиболее распространенной кодовой таблицей алфавита русского языка является латиница Windows 1251.

Способы кодирования символов, состоящие из 256 кодов, явно не удовлетворяли некоторые страны Азии для кодирования их национальных алфавитов. Поэтому, в 1991 г. появился единый стандарт, построенный по 16 битной схеме кодирования и получивший название UNICODE. Он позволяет закодировать 216 = 65536 символов, которых достаточно для кодирования всех национальных алфавитов в одной таблице. Так как каждый символ этого способа кодирования занимает два байта (вместо одного, как раньше), все текстовые документы, представленные в UNICODE, стали длиннее в два раза.

Инструменты