Информатика и ИКТ
Школьный интернет-учебник М.А. и М.В. Выграненко

Тема 2: Представление и измерение информации (6 часов)

Язык как способ представления информации: естественные и формальные языки. Формализованные и неформализованные языки. Выбор способа представления информации в соответствии с поставленной задачей. Понятие количества информации: различные подходы. Алфавитный подход к определению количества информации. Единицы измерения количества информации. Представление числовой информации в различных системах счисления. Двоичное представление информации в компьютере. Двоичная система счисления. Двоичная арифметика.

Практические работы:
Кодирование и декодирование сообщений по предложенным правилам.
Решение задач на определение количества информации, содержащейся в сообщении при техническом (алфавитном) подходе.
Запись чисел в различных системах счисления. Перевод чисел из одной системы счисления в другую и арифметические вычисления в различных системах счисления.

Урок ? 3: Представление и кодирование информации. Количество информации

Практические, проверочные и домашние работы

rtf Домашняя работа "Измерение информации"

Как уже было сказано, информацию об окружающем нас реальном мире мы получаем в виде набора символов или сигналов. Но если эти символы или сигналы никому не понятны, то информация бесполезна. Необходим язык общения - знаковый способ представления информации. Основа языка - алфавит - некоторый конечный упорядоченный набор символов или сигналов.
Мощность алфавита - полное число его символов (N).

За свою историю человек придумал много языков и алфавитов. Примеры языков:
естественные - мимика и жесты, музыка, живопись, речь человека;
Формальные - чертежи, схемы, формулы, ноты и т.д.
Естественный язык можно формализовать. (Для формализации музыки придумали нотную грамоту, для формализации речи создали национальные алфавиты и т.п.)
Примеры алфавитов: латинский (26 символов), русский (33 символа), арабские цифры, азбука Морзе и т.д.
В зависимости от задачи, которую вы перед собой ставите, можно использовать разные способы представления информации. Чтобы послушать музыку, не нужно переводить её в нотную запись. А вот научиться её играть легче по нотам, чем подбирать на слух.
Формализованные языки используются для кодирования информации.
Некоторый набор символов алфавита образует слово, а число этих символов есть его длина. От изменения длины слова, очевидно, будет меняться и информация, заключенная в нем. Как? Чтобы разобраться в изменениях информации, необходима ее оценка (измерение).

Задача измерения информации не так проста, как кажется на первый взгляд. Различные подходы к измерению информации обусловлены различными подходами к её определению и кодированию.

1. Субъективное восприятие сообщения (содержало ли оно новую для вас информацию или нет, насколько эта информация была полезной) делает невозможным его количественную оценку при обыденном подходе к понятию "информация".

2. Подход к информации как мере уменьшения неопределённости знания позволяет применять вероятностный подход к её измерению (будет изучаться в 10 классе).

3. Подход, основанный на подсчёте числа символов в сообщении (количества данных), называется алфавитным.

Вообще говоря, количество данных и количество информации - два разных понятия.
Данные - это конкретная дискретная форма представления информации, которая используется для её записи в памяти технического устройства или для её передачи по каналу связи.
Количество данных для передачи одной и той же информации может быть различным в зависимости от способа кодирования этой информации (от используемого алфавита).

В каком виде поступает информация в компьютер? Может ли машина хранить и обрабатывать информацию в виде символов (букв, цифр, знаков), привычных для человека? Увы, нет! Компьютер обрабатывает информацию только в закодированном виде.
Кодирование и его теория своими корнями связаны с древнейшим искусством тайнописи или криптографии. Изобретение телефона и телеграфа в середине XIX века поставило перед учеными и инженерами проблему создания теории связи, как новой теории кодирования, где наибольший интерес стала представлять не проблема связи между людьми, а между людьми и устройствами и только между устройствами. Первой ориентированной на технику системой кодирования стала азбука Морзе. Это попытка двоичного кодирования, но здесь кроме двух символов - точка и тире - есть еще и третий символ - пробел (пауза).
С той или иной степенью точности информацию можно разделить на небольшие элементарные части. Например, текст в книге состоит из букв, пробелов и других символов, рисунок из точек, музыка из отдельных звуков. Каждый символ - это элементарная часть информации. Информация будет закодированной, если любая ее элементарная часть представлена в виде числа или набора чисел. Поскольку компьютеры работают на электричестве, естественно было бы для кодирования выбрать разные состояния электрического тока (сильный - слабый, включено - выключено). Исторически принято эти два состояния обозначать через 0 и 1.
В каких единицах измерять эту закодированную информацию?
Посмотрите на произвольное число (код): 10100111. Как бы Вы измерили количество информации, закодированной в нем? Проще всего посчитать, сколько цифр потребовалось для кодирования данной информации. Таким образом, единицей информации становится одна двоичная цифра: 0 или 1. Эту минимальную единицу измерения Н. Винер назвал бит (английское bit, сокращенное от binary digit - двоичная цифра). Бит - самое короткое слово двоичного алфавита, причем цифры 0 и 1 при этом равноправны. Количество информации в двоичном коде 10100111 равно 8 бит.
Но 1 бит - это очень маленькое количество информации. Для удобства введена более крупная единица, принятая Международной системой СИ за основную - байт (byte). Один байт - это информация, которая кодируется восьмиразрядным (8 цифр) двоичным кодом.
1 байт = 8 бит
При алфавитном подходе считается, что каждый символ текста имеет определённый информационный вес (b), зависящий от мощности алфавита. 1 бит - это информационный  вес символа двоичного алфавита. С увеличением мощности алфавита увеличивается информационный вес символов этого алфавита.
Почему? Тут придется вспомнить комбинаторику.
Сколько разных сообщений можно закодировать одной цифрой двоичного алфавита?
- Два (0 или 1)
Двумя цифрами?
- Четыре (00, 01, 10, 11)
И т.д.
Известна формула: число перестановок (возможных различных кодов) из n цифр равно
2n
Другими словами
Информационный вес символа, выраженный в битах (b), и мощность алфавита (N) связаны формулой N=2b
Символов на нашей клавиатуре около 200 (русский и латинский алфавит, строчные и прописные буквы, цифры, знаки препинания, спецсимволы). Попробуем подобрать число n, достаточное для кодирования этих символов: 27 = 128 (мало), 28 = 256 (хватит). Поэтому в кодировке ASCII 1 символ текста кодируется одним байтом (8 битами).
Байт - это не только единица информации, но и элементарная ячейка памяти компьютера. Память компьютера состоит из последовательности таких ячеек. Каждая ячейка имеет адрес - номер ячейки и содержимое - двоичный код, который хранится в ней.
Количество данных, обрабатываемых компьютером, измеряется в байтах, но чаще для этого используются более крупные единицы:
1 Килобайт (Кб) = 210 байт = 1024 байт
1 Мегабайт (Мб) = 210 Кб = 1 048 576 байт
1 Гигабайт (Гб) = 210 Мб = 1 073 741 824 байт.

Может возникнуть вопрос, почему в международной системе СИ приставки Кило, Мега и Гига вдруг получили другое значение. Ответ здесь в больших буквах. Кило и кило - это две большие разницы.
1 килобайт (кб) = 103 байт = 1 000 байт
1 мегабайт (мб) = 106 байт = 1 000 000 байт
1 гигабайт (гб) = 109 байт = 1 000 000 000 байт.
В ноябре 2000 г. международной электротехнической комиссией (МЭК) были приняты поправки к международному стандарту. По этому решению приставки, кратные степеням 2 получили своё особое название:
1 кибибайт (Киб)= 210 байт = 1024 байт
1 мебибайт (Миб) = 210 Киб = 1 048 576 байт
1 гибибайт (Гиб)= 210 Миб = 1 073 741 824 байт
К сожалению, эти приставки не стали привычными нашему слуху, хотя срок их существования уже достаточно большой.
Постановлением Правительства Российской Федерации от 31 октября 2009 г. ? 879 закреплено обозначение двоичных приставок в привычном звучании, но написание их отличается от десятичных.

Скорость передачи данных и пропускную способность каналов связи принято измерять в битах в секунду (бит/с) и кратных этому:
1 килобит (кбит/с) = 103 бит/с
1 мегабит (мбит/с) = 106 бит/с
1 гигабит (гбит/с) = 109 бит/с
А при измерении оперативной памяти принято измерение в единицах, кратных не степеням десятки, а степеням двойки.

Из-за этого первоначально и возникла путаница в приставках.

Приложения

И.Г. Семакин и др.  4 [1]

Н.Д. Угринович 1.3 [5]

Задачник-практикум (Т. 1), 1.2 [4]

pdf Презентация "Представление и кодирование информации"
(О.В. Устецкая)

pdf "Два мифа о количестве информации"
(И.Б. Жилина, С.А. Жилин, статья в журнале "Информатика и образование", 1-2009.)

pdf Презентация "Кодирование и измерение информации"

pdf Презентация "Кодирование информации"
(Л.Л. Босова)

pdf Схема "Алфавитный подход к измерению информации"
(И.Г. Семакин)

Начало \ Программа 8-9 \ Тема 2 \ Урок 3

При использовании материалов сайта просьба соблюдать приличия
© Выграненко М.А. и М.В., 2009-2011