Основными объектами изучения науки информатики являются информация иинформационные процессы . Информатика как самостоятельная наука возникла в середине ХХ столетия, однако научный интерес к информации и исследования в этой области появились раньше.
В начале ХХ века активно развиваются технические средства связи (телефон, телеграф, радио). В связи с этим появляется научное направление “Теория связи”. Его развитие породило теорию кодирования и теорию информации, основателем которых был американский ученый К.Шеннон. Теория информации решала проблему измерения информации , передаваемой по каналам связи. Известны два подхода к измерению информации:содержательный иалфавитный .
Важнейшая задача, поставленная теорией связи, - борьба с потерей информации в каналах передачи данных. В ходе решения этой задачи сформировалась теория кодирования , в рамках которой изобретались способы представления информации, позволяющие доносить содержание сообщения до адресата без искажения даже при наличии потерь передаваемого кода. Эти научные результаты имеют большое значение и сегодня, когда объемы информационных потоков в технических каналах связи выросли на многие порядки.
Предшественником современной информатики явилась наука “Кибернетика”, основанная трудами Н.Винера в конце 1940-х - начале 50-х годов. В кибернетике произошло углубление понятия информации, было определено место информации в системах управления в живых организмах, в общественных и технических системах. Кибернетика исследовала принципы программного управления. Возникнув одновременно с появлением первых ЭВМ, кибернетика заложила научные основы как для их конструктивного развития, так и для многочисленных приложений.
ЭВМ (компьютер) -автоматическое устройство, предназначенное для решения информационных задач путем осуществления информационных процессов : хранения , обработки ипередачи информации . Описание основных принципов и закономерностей информационных процессов также относится к теоретическим основам информатики.
Компьютер работает не с содержанием информации, которое способен воспринимать только человек, а с данными, представляющими информацию. Поэтому важнейшей задачей для компьютерных технологий является представление информации в форме данных, пригодных для их обработки. Данные и программы кодируются в двоичном виде. Обработка любого типа данных сводится в компьютере к вычислениям с двоичными числами. Именно поэтому компьютерные технологии еще называют цифровыми. Понятие о системах счисления, опредставлении чисел в компьютере относятся к базовым понятиям информатики.
Понятие “язык” происходит из лингвистики. Язык - этосистема символьного представления информации, используемая для ее хранения и передачи . Понятие языка относится к числу базовых понятий информатики, поскольку как данные, так и программы в компьютере представляются в виде символьных конструкций. Язык общения компьютера с человеком все более приближается к формам естественного языка.
К фундаментальным основам информатики относится теория алгоритмов. Понятие алгоритма вводится в статье “Обработка информации”. Подробно эта тема раскрывается в пятом разделе энциклопедии.
Измерение информации. Алфавитный подход
Алфавитный подход используется для измерения количества информации в тексте, представленном в виде последовательности символов некоторого алфавита. Такой подход не связан с содержанием текста. Количество информации в этом случае называется информационным объемом текста , который пропорционален размеру текста - количеству символов, составляющих текст. Иногда данный подход к измерению информации называют объемным подходом.
Каждый символ текста несет определенное количество информации. Его называют информационным весом символа . Поэтому информационный объем текста равен сумме информационных весов всех символов, составляющих текст.
Здесь предполагается, что текст - это последовательная цепочка пронумерованных символов. В формуле (1) i 1 обозначает информационный вес первого символа текста, i 2 - информационный вес второго символа текста и т.д.; K - размер текста, т.е. полное число символов в тексте.
Все множество различных символов, используемых для записи текстов , называется алфавитом . Размер алфавита - целое число, которое называется мощностью алфавита . Следует иметь в виду, что в алфавит входят не только буквы определенногоязыка, но все другие символы, которые могут использоваться в тексте: цифры, знаки препинания, различные скобки, пробел и пр.
Определение информационных весов символов может происходить в двух приближениях:
1) в предположении равной вероятности (одинаковой частоты встречаемости) любого символа в тексте;
2) с учетом разной вероятности (разной частоты встречаемости) различных символов в тексте.
Приближение равной вероятности символов в тексте
Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то информационный вес всех символов будет одинаковым. Пусть N - мощность алфавита. Тогда доля любого символа в тексте составляет 1/N -ю часть текста. По определению вероятности (см.“Измерение информации. Содержательный подход” ) эта величина равна вероятности появления символа в каждой позиции текста:
p = 1/N
Согласно формуле К.Шеннона (см. “Измерение информации. Содержательный подход” ), количество информации, которое несет символ, вычисляется следующим образом:
i = log2(1/p ) = log2N (бит ) (2)
Следовательно, информационный вес символа (i ) и мощность алфавита (N ) связаны между собой по формуле Хартли (см. “Измерение информации. Содержательный подход” )
2 i =N.
Зная информационный вес одного символа (i ) и размер текста, выраженный количеством символов (K ), можно вычислить информационный объем текста по формуле:
I = K ·i (3)
Эта формула есть частный вариант формулы (1), в случае, когда все символы имеют одинаковый информационный вес.
Из формулы (2) следует, что при N = 2 (двоичный алфавит) информационный вес одного символа равен 1 биту.
С позиции алфавитного подхода к измерению информации 1 бит - это информационный вес символа из двоичного алфавита.
Более крупной единицей измерения информации является байт .
1 байт - это информационный вес символа из алфавита мощностью 256.
Поскольку 256 = 2 8 , то из формулы Хартли следует связь между битом и байтом:
2 i = 256 = 2 8
Отсюда: i = 8 бит = 1 байт
Для представления текстов, хранимых и обрабатываемых в компьютере, чаще всего используется алфавит мощностью 256 символов. Следовательно, 1 символ такого текста “весит” 1 байт.
Помимо бита и байта, для измерения информации применяются и более крупные единицы:
1 Кб (килобайт) = 2 10 байт = 1024 байта,
1 Мб (мегабайт) = 2 10 Кб = 1024 Кб,
1 Гб (гигабайт) = 2 10 Мб = 1024 Мб.
Похожие статьи