История утомительная прогулка от Адама до атома



страница1/3
Дата30.04.2016
Размер0.49 Mb.
  1   2   3
"История — утомительная прогулка от Адама до атома"

Леонард Луис Левинсон,


американский писатель

Не знать истории — значит всегда быть ребёнком.


Цицерон, мыслитель

История науки и есть сама наука.


И. В. Гёте

"История как гвоздик: на неё можно повесить все, что угодно!"


Александр Дюма
Подробности: http://regnum.ru/news/polit/1324181.html#ixzz11NsQJ9gj
Любое использование материалов допускается только при наличии гиперссылки на ИА REGNUM

Введение. Хотя Прометей в трагедии Эсхила утверждает: "Подумайте, что смертным сделал я: число им изобрел, и буквы научил соединять", понятие числа возникло задолго до появления письменности. Люди учились считать в течение многих веков, передавая и обогащая из поколения в поколение свой опыт.

Счёт, или шире – вычисления, может быть осуществлён в различных формах: существует устный, письменный и инструментальный счёт. Средства инструментального счёта в различные времена имели различные возможности и назывались по-разному: счётные доски, абаки, счётные инструменты, снаряды, приспособления, приборы, машины и, наконец, с середины XX столетия — компьютеры [Р. С. Гутер, Ю. Л. Полунов. От абака до компьютера. – М.: Знание, 1981. – 208 с.].

Компьютер, он же электронная вычислительная машина (ЭВМ), – детище XX столетия появился в ответ на вполне конкретные потребности человечества – нужно было быстро и много вычислять. С этой нехитрой задачей человек справлялся, но слишком медленно. Механические приспособления вроде конторских счёт или арифмометров не решали проблему. Нужно было совершать тысячи и миллионы операций в секунду. Механика здесь бессильна. Помогла электроника [Л. А. Растригин. С компьютером наедине. – М.: Радио и связь, 1999. – 224 с.].

И вот в 1945 году появился первая электронная вычислительная машина (ЭВМ). Назвали её ЭНИАК (ENIAC). Создана она была для расчёта баллистических таблиц. Дело в том, что для точной стрельбы из артиллерийских орудий нужно учитывать очень много факторов: скорость ветра, изношенность ствола орудия, его температуру, массу и тип снаряда, вид пороха и многое другое. Чтобы определить направление ствола орудия, нужно предварительно сделать очень много вычислений. А так как в бою времени нет, то для этого обычно использовались таблицы. Для каждого нового типа орудия требовались свои таблицы, составлять их приходилось годами: этим занимались люди, вооруженные лишь счётами и арифмометрами. Это задерживало использование нового орудия. Так возникла важная задача быстрого составления баллистических таблиц. Именно для её решения и был создан в США первая ЭВМ, открывшая дорогу компьютерному веку.



Не счётом единым. Первой функцией, ради которой и была создана электронная вычислительная машина, была вычислительной. И ENIAC был автоматом для вычислений и только вычислений. Но … как всякая хорошая разработка, она оказалась пригодной и для других незапланированных целей. Одна из таких новых и очень полезных – невычислительная. Любой компьютер может не только вычислять, но и хранить информацию, более того, может преобразовывать её к требуемому виду. Все эти явно невычислительные функции реализуются на современном компьютере вместе с вычислительными, одним и тем устройством. Это и позволяет называть компьютер не только вычислительным устройством (или ЭВМ), но и устройством обработки информации.

Сейчас вычисления занимают не более 10% общего компьютерного времени. Остальные 90% приходятся на обработку нечисловой информации. Это, прежде всего, поиск информации в сети Интернет, моделирование поведения сложных систем, обработка изображений и многое другое. Так что современные ЭВМ лишь в очень малой степени можно назвать вычислительными. Возможно, поэтому в последнее время у нас вместо слова ЭВМ используется слово "компьютер", хотя в переводе с английского оно означает всё тот же "вычислитель".



Представление информации в компьютере

И так, компьютер – очень сложный электронный автомат, не более. Этот электронный автомат и обрабатывает вводимую в него информацию. Сигналы, циркулирующие внутри компьютера в процессе такой обработки, очень просты. Их всего два: 0 и 1. Это не числа, а имена сигналов, их можно было назвать А и В, или Иван и Марья, или красное и черное – любыми, но разными именами. Так устроена двоичная система, которая обходится лишь двумя знаками для кодирования информации, циркулирующей в компьютере. Например, азбуке Морзе используются два символа для кодирования букв (точка и тире). Здесь 0 и 1 – условные логические значения сигналов, которые не следует путать с их физическим содержанием. Физически 0 может соответствовать низкому напряжению, 1 – высокому напряжению.



КОДИРОВКА ИНФОРМАЦИИ

Компьютеры родились в свое время именно для обработки числовой информации, вот почему с появлением ЭВМ стремительно стали развиваться количественные методы.

Человек воспринимает и описывает окружающий его мир по-разному: качественно (например: "На столе лежала флешка") или количественно – (например: "Объём флешки 4 Гб."). Мы всё это понимаем, можем представить и, если необходимо, использовать. А каким видит мир ЭВМ, ведь информация к ней поступает из моделей, приборов и т.д.? Эти вопросы мы рассмотрим далее.

Двоичное кодирование информации
в компьютере

В современном компьютере для представления информации используется два вида сигналов 0 и 1 (используется двоичное кодирование). Так устроена двоичная система, которая обходится лишь двумя знаками для кодирования информации, циркулирующей в компьютере. Здесь 0 и 1 – условные логические значения сигналов, которые не следует путать с их физическим содержанием. Физически 0 может соответствовать низкому напряжению, 1 – высокому или 1 может соответствовать наличию электрического импульса, а 0 – наоборот. Когда использовались перфокарты для ввода информации в ЭВМ, то отверстие в позиции перфокарты соответствовало 1 и 0, когда отверстия (дырочки, перфорации) не было. Так удалось создать надёжно работающие технические устройства, которые могут со стопроцентной надёжностью сохранять и распознавать не более двух различных состояний (цифр):



  1. электромагнитное реле (замкнуто/разомкнуто), широко использовалось в конструкциях первых ЭВМ;

  2. участок поверхности магнитного носителя информации (намагничен/размагничен);

  3. участок поверхности лазерного диска (отражает/не отражает);

  4. триггер может устойчиво находиться в одном из двух состояний. Широко используется в оперативной памяти компьютера.

Все виды информации в компьютере кодируются на машинном языке, в виде логических последовательностей нулей и единиц (см. рис. 1)

Вид информации

Двоичный код

Числовая


1

1

00

1

00

0

1

1

00

0



Текстовая

Графическая

Звуковая

Видео

Рис. 1 Двоичное кодирование информации

Замечание. В истории компьютерной техники были разработки, где использовалось более двух сигналов: три – -1, 0, 1 (троичная система) и даже десятичная. Но как показал опыт, они не получили дальнейшего развития, и сейчас используется лишь двоичная система сигналов. Этому есть две причины.

Ситуация резко изменилась после появления современных компьютеров. Именно в этой области опять проявился интерес к способам представления чисел и новым компьютерным арифметикам. Все дело в том, что классическая двоичная система счисления обладает рядом принципиальных недостатков, главными из которых являются: проблема представления отрицательных чисел и "нулевая" избыточность классического двоичного способа представления чисел.

Особенно неприятен второй недостаток. "Нулевая" избыточность двоичного представления означает, что в системе счисления отсутствует механизм обнаружения ошибок, которые, к сожалению, неизбежно возникают в компьютерных системах под влиянием внешних и внутренних факторов. В условиях, когда человечество все больше становится заложником компьютерной революции и все чаще полагается на компьютер при решении сложнейших задач управления ракетами, самолетами, атомными реакторами, вопрос об эффективных механизмах обнаружения ошибок выдвигается на передний план. Ясно, что компьютеры, основанные на двоичной системе счисления, не всегда могут эффективно решать эту проблему.

Чтобы преодолеть указанные недостатки двоичной системы, уже на этапе зарождения компьютерной эры был выполнен ряд проектов и сделано несколько интересных математических открытий, связанных с системами счисления. Пожалуй, наиболее интересным проектом в этом отношении является троичный компьютер "Сетунь", разработанный в Московском университете под руководством Н. П. Брусенцова. Использование в нем так называемой троичной симметричной системы счисления для представления чисел впервые в истории компьютеров поставило знак равенства между отрицательными и положительными числами, позволив отказаться от различных "ухищрений" (обратный и дополнительный код), используемых для представления отрицательных чисел. Это обстоятельство, а также использование "троичной логики" при создании программ привело к созданию весьма совершенной архитектуры, которая и была воплощена в модели "Сетуни". Именно "Сетунь" является наиболее ярким историческим примером, подтверждающим влияние системы счисления на архитектуру компьютера!

Во-первых, надёжность. Так, случайной помехе труднее изменить 0 на 1 (и, наоборот) в двоичной системе, чем 0 на -1, 0 на 1 (и, наоборот) в троичной системе.

Второе преимущество двоичной системы состоит, что все операции с ними реализуются очень простыми аппаратными средствами названные условно ИЛИ, И, НЕ. В этом секрет успеха двоичного счёта.

Кодировка чисел

Для записи информации о количестве объектов используются числа. Числа записываются с использованием особых знаковых систем, которые называются системами счисления. Алфавит систем счисления состоит из символов, которые называют цифрами. Например, в десятичной системе счисления числа записываются с помощью десяти всем хорошо известных цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9.

Система счисления – это знаковая система, в которой числа записываются по определённым правилам с помощью символов некоторого алфавита, называемых цифрами.

Все системы счисления делятся на две большие группы: позиционные и непозиционные. В позиционных системах счисления значение цифры зависит от её положения в числе, а в непозиционных – не зависит.

Самой распространённой из непозиционных систем счисления является римская. В качестве цифр в ней используются I (1), IV (4), V (5), IX (9), X (10), L (50), C (100), D (500).

Первая позиционная систем счисления была придумана ещё в Древнем Вавилоне и была шестидесятеричной. Интересно, что до сих пор при измерении времени используем основание, равное 60 (в одной минуте содержится 60 секунд, а в одном часе – 60 минут).

В позиционных системах счисления основание системы равно количеству цифр (знаков в её алфавите) и определяет, во сколько раз различаются значения одинаковых цифр, стоящих в соседних позициях числа.

Позиция цифры в числе называется разрядом. Разряд числа возрастает справа налево, от младших разрядов к старшим.

Наиболее распространёнными в настоящее время позиционными системами счисления являются десятичная, двоичная, восьмеричная и шестнадцатеричная. Каждая позиционная система счисления имеет определённый алфавит цифр (базис) и основание.

Десятичная система счисления имеет алфавит цифр, который состоит из десяти так называемых арабских цифр с основанием равным 10. Двоичная система имеет две цифры и основание 2. Восьмеричная – восемь цифр и основание 8. Шестнадцатеричная – 16 цифр (в качестве цифр используются и буквы латинского алфавита) и основание 16 (см. табл.).

Таблица 1. Позиционные системы счисления

Система счисления

Основание

Алфавит цифр

Двоичная

2

0, 1

Восьмеричная

8

0, 1, 2, 3, 4, 5, 6, 7

Десятичная

10

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

Шестнадцатеричная

16

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A(10), B(11), C(12), D(13), E(14), F(15)

Мы уже говорили, что компьютер манипулирует информацией, представленной в двоичной форме – в виде нулей и единиц.

Как же устроена двоичная система? Да так же, как и привычная нам десятичная, только в основу положена не десятка, а двойка. В десятичной системе любое целое число можно представить в виде

(anan-1…a1a0)10=an10n+an-110n-1+…+a1101+a0100.

Здесь индекс 10 означает, что число десятичное, а цифры ai могут принимать любые значения от 0 до 9. Этот набор цифр (0, 1, 2, …, 9) составляет алфавит (базис) десятичной системы счисления. Например, (234)10=2102+3101+4100=200+30+4=234. Здесь цифра 2 показывает количество сотен, 3 – количество десятков и последняя цифра 4 – количество единиц. Таким образом, запись числа в виде 234 представляет собой перечисление коэффициентов в разложении этого числа по степени 10. Число 10 называется основанием десятичной системы счисления.

Число 234 записано в привычной для нас свёрнутой форме. В развёрнутой форме данное число 234 в десятичной системе будет выглядеть следующим образом:

(234)10=2102+3101+4100=200+30+4=234.

В древности мерой всех вещей был сам человек – его пальцы, руки, ноги. Поэтому и единицы измерения имели антропоцентрические названия: вершок (верх перста), пядь (расстояние между большим и указательными пальцами), локоть, сажень (размах рук взрослого мужчины). Пройденный путь наши предки мерили шагами. "Крик" обозначал расстояние в пределах слышимости человеческого голоса. Объём определялся тем количеством, которое человек мог взять, унести – горсть, охапка, щепоть [Ольга Ярусова. В мире мер. – Томский вестник, №37, четверг 20 мая 2010].

Естественно десятичная система счисления получила широкое распространение по той причине, что в древние времена первоначальным аппаратом для проведения счёта выступали десять пальцев рук. Однако она не является единственной. В качестве основания системы счисления можно взять, например, любое целое число р>1, а для базисной системы коэффициентов ai использовать набор из р различных цифр {0, 1,…, р-1}. Минимальным значением основания системы счисления р>1 является число 2. В двоичной системе счисления базисная система коэффициентов содержит всего две цифры 0 и 1.

Совершенно аналогично представление двоичного числа:

(bnbn-1…b1b0)2=bn2n+bn-12n-1+…+b121+b020,

где индекс означает двоичное представление этого числа, а числа bi могут быть 0 или 1. Например, (10011)2=124+023+022+121+120=16+ 0+0+2+1 =(19)10.

Дробные числа образуются аналогично:

(bnbn-1…b1b0 b-1b-2…bm-1b-m)2=bn2n+bn-12n-1+…+b121+b020+b-12-1+b-22-2+…+ bm-12m-1+b-m2-m,

где коэффициенты с отрицательными индексами описываю дробную часть числа. Например, (101,011)2=122+021+120+b+02-1+12-2+12-3=4+1+1/4+1/8 =5.375.

В качестве легкого упражнения вы можете проверить, что обычные десятичные числа 0, 1, 2, …, 9 имеют в двоичной системе следующий вид: 0000, 0001, 0010, 0011, 0100, 0101, 0110, 0111, 1000, 1001.

Интерес представляют также восьмеричная и шестнадцатеричная системы.

В случае восьмеричной системы счисления основанием системы служит число 8, а базис системы составляет набор цифр 0, 1, 2, 3, 4, 5, 6, 7.

Например, (765.4)8=782+681+580+48-1=501.510.

При записи в шестнадцатеричной системе необходимо использовать 16 цифр, составляющих базис системы. Однако только десять цифр из шестнадцати имеют общепринятое обозначение 0 – 9. Для записи остальных базисных чисел (10, 11, 12, 13, 14, 15) обычно используют символы A, B, C. D, E, F. Таким образом, запись (3AF)16 означает:

(3AF)16=3162+10161+15160=256+160+15=43110.



Перевод целых и дробных чисел из
одной системы счисления в другую.

Как мы уже отмечали, человек привык работать в десятичной системе, ЭВМ же ориентирована на двоичную систему, поэтому общение человека с машиной невозможно без создания простых и надёжных алгоритмов перевода чисел из одной системы в другую и наоборот.

Итак, как осуществляется перевод из десятичной системы счисления в двоичную? Мы знаем, что запись произвольного числа

x= bn2n+bn-12n-1+…+b121+b020+b-12-1+b-22-2+…+ bm-12m-1+b-m2-m

в двоичной системе счисления представляет собой последовательность цифр bnbn-1…b1b0 b-1b-2…bm-1b-m, каждая из которых принимает значения 0 или 1. Таким образом, для записи числа x в двоичной системе счисления необходимо уметь определять значения коэффициентов разложения x по степеням числа 2, а именно bn, bn-1,…b1, b0, b-1, b-2, …bm-1, b-m.

Пусть x число, когда в его разложении отсутствуют коэффициенты с отрицательными индексами, т.е.

x=bn2n+bn-12n-1+…+b121+b020.

Разделим число x на 2. Частное от деления будет равно bn2n-1+bn-12n-2+…+b1, а остаток будет равен b0. Полученное частное опять разделим на 2, остаток отделения будет равен b1.

Если теперь продолжить этот процесс деления, то на (n+1)-м шаге получим набор цифр b0, b1, …, bn, которые входят в двоичное представление числа x и совпадают с остатками при последовательном делении x на 2. Обратите внимание, что мы получим цифры bi в порядке, обратном порядку расположения в двоичном представлении числа x:

(bnbn-1b1b0)2.

Примеры. Перевести число 1110 в двоичную систему счисления.

Делаем проверку: 1011=123+022+121+1=8+0+2+1=11.



Ответ: 10112.

Пусть теперь x – десятичная дробь, тогда в разложении отсутствуют коэффициенты с положительными индексами:



x=b-12-1+b-22-2+…+ bm-12m-1+b-m2-m. (1)

В двоичной системе счисления x=(0, b-1, b-2…)2. Нам необходимо найти коэффициенты b-1, b-2…, входящие в запись числа x в двоичной системе счисления. Умножим правую часть и левую части выражения (1) на 2. В результате в правой части получим

b-1+b-22-1+ b-32-2+… (2)

Целая часть здесь равна b-1, она и даст нам старший коэффициент в разложения числа x по степени 2.

Рассмотрим дробную часть (2): x1=b-22-1+ b-32-2+….Умножим x1 на 2, целая часть 2 x1 равна b-2. Цифра b-2представляет собой второй коэффициент после запятой в двоичном представлении числа x1. Этот процесс необходимо продолжить до тех пор, пока в правой части не получим нуль.

Примеры.



  1. Перевести число 0.12510 в двоичную систему счисления. Вычисления при этом удобно проводить по следующей схеме:




0.

125

2


0

250

2


0

500

2


1

000

Выписав цифры, стоящие слева от вертикальной черты в последовательности, определяемой стрелкой, получим 0.12510=0.0012.

  1. Перевести в двоичную систему счисления 0.6510:




0.

65

2


1

30

2


0

60

2


1

202

0

40

2


0

80

2


1

60

Очевидно, что процесс перевода числа 0.6510 может продолжаться бесконечно. Действительно, мы можем остановиться на значении 0.1012 или на значении 0.1010012. Такой бесконечный процесс обрывается на некотором шаге, когда считают, что получена требуемая точность представления числа.

Перевод смешанных чисел, содержащих целую и дробную части, осуществляется в два этапа. Отдельно переводится целая часть, отдельно дробная. В итоговой записи полученного числа, как обычно, целая часть отделяется от дробной точкой (в русскоязычной – запятой).



Кодировка символов. Кодовая таблица символов

Чтобы выяснить смысл и значение такого фундаментального понятия как кодовая таблица символов, зададим вопрос: каким образом после нажатия клавиши, например с изображение латинской буквы А эта буква появляется на экране? Ведь машина понимает только нули и единицы!

Нажатие клавиши посылает в компьютер двоичное число – комбинацию нулей и единиц (один байт). Каждую комбинацию можно интерпретировать как десятичное число от 0 до 255. Например, при нажатии клавиши "А" посылается число 010000001 (десятичное 65). Для машины это число может служить номером "литеры" с изображением А, которая храниться в памяти машины. Специальные электронные схемы по этому номеру находят "литеру" и выводят её на экран. Послав в машину комбинацию 01000010 (66), мы увидим на экране латинскую букву B.

Посмотреть коды символов можно через команду Вставка/Символ см. рис. 1 и 2. После выполнения данной команды появляется диалоговое окно Символ. Выбираем символ A (ячейка, в которой находится данный символ, окрашивается в синий цвет). В поле код символа видим значение кода – 65.



Рис. 1 Код символа "A" в ASCII



Рис. 2 Код символа "A" в Юникод

В кодовой таблице символов каждой букве, цифре, служебному знаку присвоен какой-либо код – десятичное число в диапазоне от 0 до 255 (больше нельзя, т.к. уже 256 не уместится в одном байте). Таким образом, можно закодировать ровно 256 символов.

Кодовая таблица – это внутреннее представление символов в машине.

Так, латинская буква A представлена числом 65, знак "." (точка) – числом 46, строчная латинская q – числом 113 и т.д.

Кроме алфавитно-цифровых символов, отображаемых на экране и бумаге, необходимо иметь также группу кодов, которые предназначены для управления программно-аппаратными компонентами машины. Например, символ с кодом 10 воспринимается, как команда протянуть бумагу на одну строку.

Итак, в кодовой таблице можно представить 256 произвольных символов – управляющих кодов, букв, цифр, знаков препинания, вообще любых графических образов. По какому принципу составлена приводимая ниже кодовая таблица нашего компьютера? Прежде всего, она делится на две половины с кодами от 0 до 127 и от 128 до 255.


  1. Во всём мире в качестве стандарта принята таблица ASCII (American Standard Code for Information Interchange), которая кодирует ровно половину возможных символов – от 0 до 127. Первая половина кодовой таблицы содержит 26 букв латинского алфавита: прописные буквы от A до Z (коды 65-90) и строчные от a до z (коды 97-122)

  2. Вторая половина кодовой таблицы с кодами от 128 до 255 не определена американскими стандартами и предназначена для размещения символов национальных алфавитов (в частности, кириллицы: сначала прописные от А до Я (коды 128-159, а затем строчные а – п (коды 160-175) и р – я (коды 224-239)), псевдографических символов и некоторых математических знаков. В разных странах, на разных моделях ПК могут использоваться и разные варианты второй половины кодовой таблицы (их называют расширением ASCII). Подавляющее большинство наших компьютеров для кодов 128-255 используют так называемую альтернативную таблицу, видимо, и следует считать неофициальным российским стандартом.

  3. Таблица знаков ASCII

Числа являются языком компьютера. В компьютере для связи с программами (и другими компьютерами) знаки и символы преобразуются в числовой вид.

В 1960-х годах необходимость стандартизации привела к появлению кодировки ASCII (произносится «аски»). Таблица набора ASCII состоит из 128 чисел, присвоенных соответствующим знакам. Кодировка ASCII обеспечивает способ хранения данных в компьютерах и обмена этими данными с другими компьютерами и программами.

Текст в кодировке ASCII не содержит информацию о форматировании, например о полужирном или наклонном начертании или о шрифтах. Кодировка ASCII используется при работе с программой «Блокнот» или при сохранении файла в виде обычного текста в приложении Microsoft Office Word. Встречаются объявления о приеме на работу, где работодатель просит присылать резюме в формате ASCII. Это означает, что независимо от способа отправления резюме (по электронной почте, факсу или в печатном виде), оно не должно содержать специальных стилей форматирования. Тексты в формате ASCII хорошо подвергаются обработке программами оптического распознавания текста (OCR), которые часто используются крупными компаниями для сканирования резюме.

В целом альтернативную таблицу называют кодовой страницей 866.



Примечание. В оболочке WINDOWS используется другая таблица (страница 1251).

Все символы кодовой таблицы (за исключением "пустых" символов 0 255, а также пробела) имеют графические образы.



Краткая информация
о других системах кодирования

Системы кодирования текстовых данных были разработаны и в других странах. Так, например, в СССР в этой области действовала система кодирования КОИ-7 (код обмена информацией, семизначный). Однако американский код ASCII вышел на уровень международного стандарта, и национальным системам кодирования пришлось "отступить" на вторую расширенную часть системы кодирования, определяющую значения кодов от 128 до 255. Отсутствие единого стандарта в этой области привело к множественности одновременно действующих кодировок. Только в России можно указать три действующих стандарта кодировки и ещё два устаревших.

Кодировка символов русского языка, известная как кодировка Windows-1251, была введена "извне" – компанией Microsoft, но учитывая широкое распространение операционных систем и других продуктов этой компании в России, она нашла в нашей стране широкое распространение. Эта кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows.

Другая распространённая кодировка носит название КОИ-8 (код обмена информацией, восьмизначный). Происхождение этой кодировки относится ко времени действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня эта кодировка имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название ISO (International Standard Organization – Международный институт стандартизации).

Подводя итоги, можно сказать, что текстовый файл – файл, в котором каждый байт интерпретируется как изображаемый символ в некоторой системе кодировки. Кроме кодов изображаемых символов, текстовые файлы включают также ряд управляющих кодов, например, конец файла, возврат каретки.



Универсальная система
кодирования текстовых данных

Можно отметить, что трудности связанные с созданием единой системы кодирования данных, вызваны ограниченным набором кодов (их всего 256). Очевидно, если кодировать символы не восьмиразрядными двоичными числами, а числами с большим количеством разрядов, то и диапазон возможных значений кодов станет намного больше. Такая система, основанная на 16 – разрядном кодировании символов (т.е. использовать не один байт, а два), получила название UNICODE. Два байта позволяют обеспечить уникальные коды для 65536 (216) символов – это достаточно для размещения в одной таблице символов большинство языков планеты. Однако следует отметить, что все текстовые файлы автоматически становятся вдвое больше по объёму (вместо одного байта под символ используется два байта). В настоящее время система UNICODE (другое название ISO – International Standard Organization) стала "de facto" мировым стандартом. Тем не менее, вряд ли на этом всё остановится.

ASCII – кодировка, однако, не умерла. Она осталась как базовый формат для представления текстовой информации. Тексты, созданные в этом формате:


  • не имеют различных начертаний шрифта;

  • нет курсива, ни полужирного, ни подчеркнутого – он единый на все случаи жизни;

  • отсутствуют понятия отступов, кеглей и гарнитур;

  • каждая строка представляет собой самостоятельный абзац.

Тем не менее, ASCII – формата имеется одно очень важное достоинство – он является стандартом, и его понимают абсолютно все программы, работающие с текстом.

Таким образом, для кодировки одного символа используется 8 битов (один байт). В этом легко убедиться, если записать значения кодов в двоичной системе. Существует много систем кодировки, основанных на выделении одного байта для кодирования одного символов (ANSI, KOI-8 и т.д.). В последнее время получила распространение система UNICODE, использующая для кодировки одного символа два байта. Это резко расширило возможности, позволив кодировать 216=256×256=65536 различных символов уникальными кодами.


  1   2   3


База данных защищена авторским правом ©refedu.ru 2016
обратиться к администрации

    Главная страница