Прагматический подход. Логарифмическая мера информационной емкости

Интуитивно ясно, что количество информации, которое может быть запасено в физической системе, возрастает с числом различимых состояний, в которые она может переводиться. Это число будет N = m n , если система состоит из n ячеек (элементов) с одинаковым числом m возможных состояний. В более сложном случае, если бы система состояла из определенным образом расположенных n1 ячеек, имеющих m1 возможных состояний, n2 ячеек, имеющих m2 возможных состояний, и т. д., это число было бы N = m1n1 · m2n2....

Для встречающихся в практике случаев N исключительно велико. Так, например, на небольшом фототелеграфном бланке размерами 50 см 2 и разрешающей способностью 50 элементов на 1 см может быть запасено любое из 2 125000 различных двухградационных изображений (мы отвлекаемся пока от того, что подавляющее большинство этих изображений не будет иметь смысла). Это число невозможно себе представить, настолько оно велико.

Число возможных состояний N нецелесообразно принимать за количественную меру для сравнения способности различных систем хранить или передавать информацию. Причина однако, не в том, что пришлось бы иметь дело со столь большими числами. Такая мера была бы практически неудобна и не соответствовала нашим интуитивным представлениям. Кажется очевидным, например, что удвоение площади фототелеграфного бланка приведет к удвоению количества информации, которое может быть запасено там. Между тем количество возможных изображений возрастает при этом не в два раза, а во второй степени.

Хартли в цитированной работе предложил выбрать в качестве количественной меры для сравнения способности различных систем хранить или передавать информацию логарифм числа различимых состояний N

Основание логарифмов определяет единицы, в которых выражена информационная емкость. Наиболее употребительны в этих случаях двоичные логарифмы. Величина

будет при этом выражена в двоичных единицах.*
Очевидно, что если N = mn, то

Информационная емкость одной ячейки, имеющей m различимых состояний, будет log 2 m дв. ед. Из (29) видно, что информационная емкость системы, составленной из n ячеек, равна сумме элементарных информационных емкостей этих ячеек. В частности, для рассмотренного ранее примера получится, что информационная емкость бланка log 2 2n = n равна сумме информационных емкостей двух его половин,

Таким образом, логарифмическая мера информационной емкости соответствует нашим интуитивным представлениям.

Из формулы (29) видно, что информационная емкость быстро - по линейному закону - возрастает с увеличением числа накопительных ячеек п и гораздо медленнее - по логарифмическому закону - возрастает с увеличением числа различимых состояний (градаций) т каждой ячейки.

Оказывается проще для получения той же информационной емкости создавать накопители с большим числом ячеек, имеющих малое число различимых состояний, чем накопители с меньшим числом ячеек, но имеющих соответственно большее число различимых состояний. Иными словами, обмен числа градаций на число накопительных ячеек обычно бывает выгоден. Информационная емкость четырехэлементного двухградационного изображения C=41og 2 2=4 равна информационной емкости одного элемента, имеющего 16 градаций, C=1log 2 16=4. Но сделать накопитель с ячейками, имеющими 16 различимых состояний, гораздо труднее, чем накопитель с вчетверо большим числом ячеек, каждая из которых имеет лишь два различимых состояния.

* Иногда вместо «двоичная единица» пишут «бит» (от английского binary digit - двоичная единица).

Комбинаторная мера

Для лучшего понимания рассмотрим несколько простейших примеров.

Пример 1 . Проведем опыт. Возьмем игральный кубик. Он имеет шесть сторон, на каждой из которых изображены числа от одного до шести.

Подбросим его. При бросании кубика выпадает одно из имеющихся на сторонах кубика число. Получившееся таким образом число - есть исход нашего опыта.

Подбрасывая игральный кубик сколь угодно раз, мы можем получить только шесть возможных чисел. Обозначим это как N = 6.

Этот пример позволяет перейти к понятию комбинаторной меры информации и дать следующее определение:

Комбинаторная мера информации N - это способ измерения количества информации путем оценки количества возможных комбинаций информационных элементов.

Поскольку в примере с игральным кубиком возможно только шесть вариантов исхода опыта, иными словами, шесть комбинаций, то и количество информации в соответствии с комбинаторной мерой составляет N = 6 комбинаций.

Рассмотрим следующий пример.

Пример 2. Пусть задана одна из десятичных цифр, например, цифра 8 и одна из шестнадцатеричных – к примеру, цифра 6 (можно было взять любую другую шестнадцатеричную - 8, В, F и т. д.). Теперь, в соответствии с определением комбинаторной меры, определим количество информации, заключенное в каждой из этих цифр. Поскольку цифра 8 является десятичной, а значит, представляет один символ из десяти, то N 8 = 10 комбинаций. Аналогично, цифра 6 представляет один из шестнадцати символов, а поэтому N 6 = 16 комбинаций. Следовательно, что шестнадцатеричная цифра содержит больше информации, чем десятичная.

Из рассмотренного примера можно сделать вывод, что чем меньше цифр находится в основании системы счисления, тем меньше информации несет в себе один ее элемент.

Английский инженер Р. Хартли предложил измерять количество информации двоичной логарифмической мерой:

где N - количество различных комбинаций информационных элементов. Единицей измерения информации при таком измерении является бит.

Поскольку выведенная Р.Хартли формула учитывает количество возможных комбинаций N, то интересно узнать, какую оценку количества информации дает двоичная логарифмическая мера для рассмотренных выше примеров.

Подсчет дает следующие результаты:

в примере с кубиком I = log 2 6 = 2,585 бит;

в примере с десятичной системой счисления I = log 2 10 = 3,322 бит;

в примере с шестнадцатеричной системой счисления I = log 2 16 = 4 бит;

в примере с двоичной системой счисления I = log 2 2 = 1 бит.

Последняя цифра говорит о том, что в каждой цифре двоичной системы счисления содержится один бит информации. Вообще, в технических системах двоичная система счисления применяется для кодировки двух возможных состояний, например 1 обозначает наличие электрического тока в сети, 0 - его отсутствие.



Во всех рассмотренных выше примерах исходы опытов были равновероятными и взаимно независимыми. Это означает, что при подбрасывании кубика каждая из шести граней имеет одинаковую вероятность результативного исхода. А также, что результат следующего подбрасывания никак не зависит от результата предшествующего.

Равновероятные и взаимно независимые события в реальной жизни встречаются довольно редко. Если обратить внимание на разговорные языки, например русский, то можно сделать интересные выводы. Для упрощения теоретических исследований в информатике принято считать, что русский алфавит состоит из 32 символов (е и ё, а также ь и ъ между собой не различаются, но добавляется знак пробела между словами). Если считать, что каждая буква русского языка в сообщении появляется одинаково часто и после каждой буквы может стоять любой другой символ, то можно определить количество информации в каждом символе русского языка как:

I = log 2 32 = 5.

Однако, фактически все бывает не так. Во всех разговорных языках одни буквы встречаются чаще, другие - гораздо реже. Исследования говорят, что на 1000 букв приходится следующее число повторений:

Кроме того, вероятность появления отдельных букв зависит от того, какие буквы им предшествуют. Так, в русском языке после гласной не может следовать мягкий знак, не могут стоять четыре гласные подряд и так далее. Любой разговорный язык имеет свои особенности и закономерности. Поэтому количество информации в сообщениях, построенных из символов любого разговорного языка, нельзя оценивать ни комбинаторной, ни двоичной логарифмической мерами.

1

В работе представлена модель определения логарифмической меры информации. Из структуры технической системы выделяется объект, и рассматриваются его вероятностные состояния отказа и работы. Когда состояния равновероятны, предлагается использовать меру Хартли, а для неравновероятных – меру Шеннона для одного и многих объектов, если они взаимонезависимы. Модель учитывает возможности определения меры информации только для одного объекта. Все состояния объекта разбиты на два класса. Каждый из выделенных классов формируется на основе данных о потоке неравновероятных событий. Для каждого класса состояний объекта определены суммарные и обобщенные вероятности работоспособности и отказа. Данные вероятности нашли применение в полученных математических выражениях для определения меры неопределенности информации. Показано, что полученные формулы идентичны и применимы как при использовании суммарной вероятности, так и обобщенной вероятности.

LOGARITHMIC MEASURE OF INFORMATION OF THE CONDITION OF TECHNICAL OBJECT

Dulesov A.S. 1 Kabaeva E.V. 1

1 Khakass State University n.a. N.F. Katanov

Abstract:

The article presents the modifier of logarithmic measure of information model. An object is picked out from the technical system, and its probabilistic states of failure and work are analyzed. When the states are equiprobable it is recommended to use Hartley’s measure, and when they are not equiprobable Shanon’s measure is preferable for one or more interindependent objects. The model considers the capability of modifying the measure of information only for one object. All states of the object are divided into two classes. Each class is based on data of the flow of the inequiprobable events. The total and generalized probabilities of efficiency and failure are determined for the object’s states of each class. The studied probabilities are used in the mathematical formulas for modifying the measure of the uncertainty of information. It is shown that the formulas are identical and may be applied both for the total and generalized probability.

Keywords:

Библиографическая ссылка

Дулесов А.С., Кабаева Е.В. ЛОГАРИФМИЧЕСКАЯ МЕРА ИНФОРМАЦИИ СОСТОЯНИЯ ТЕХНИЧЕСКОГО ОБЪЕКТА // Научное обозрение. Технические науки. – 2014. – № 1. – С. 146-146;
URL: http://science-engineering.ru/ru/article/view?id=204 (дата обращения: 06.04.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
11
Курс: "Теория информации и кодирования"
Тема: "МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ИНФОРМАЦИИ"

1. КОЛИЧЕСТВО ИНФОРМАЦИИ, И ЕЕ МЕРА

На вход системы передачи информации (СПИ) от источника информации подается совокупность сообщений, выбранных из ансамбля сообщений (рис.1).

Помехи

x 1 y 1

x 2 y 2

… …

x n y n

Рис.1. Система передачи информации

Ансамбль сообщений - множество возможных сообщений с их вероятностными характеристиками - {Х, р (х ) } . При этом: Х={х 1 , х 2 , …, х m } - множество возможных сообщений источника; i = 1, 2 , ..., m , где m - объем алфавита; p (x i ) - вероятности появления сообщений, причем p (x i ) 0 и поскольку вероятности сообщений представляют собой полную группу событий, то их суммарная вероятность равна единице

.

Каждое сообщение несет в себе определенное количество информации. Определим количество информации, содержащееся в сообщении x i , выбранном из ансамбля сообщений источника {Х, р (х ) } . Одним из параметров, характеризующих данное сообщение, является вероятность его появления - p (x i ), поэтому естественно предположить, что количество информации I (x i ) в сообщении x i является функцией p (x i ). Вероятность появления двух независимых сообщений x 1 и x 2 равна произведению вероятностей p (x 1 , x 2 ) = p (x 1 ). p (x 2 ), а содержащаяся в них информация должна обладать свойством аддитивности, т.е.:

I (x 1 , x 2 ) = I (x 1 ) +I (x 2 ). ( 1)

Поэтому для оценки количества информации предложена логарифмическая мера:

. (2)

При этом, наибольшее количество информации содержат наименее вероятные сообщения, а количество информации в сообщении о достоверном событии равно нулю. Т.к. все логарифмы пропорциональны, то выбор основания определяет единицу информации:

log a x = log b x/log b a .

В зависимости от основания логарифма используют следующие единицы информации:

2 - [бит] (bynary digit - двоичная единица), используется при анализе ин-формационных процессов в ЭВМ и др. устройствах, функционирующих на основе двоичной системы счисления;

e - [нит] (natural digit - натуральная единица), используется в математических методах теории связи;

10 - [дит] (decimal digit - десятичная единица), используется при анализе процессов в приборах работающих с десятичной системой счисления.

Битом (двоичной единицей информации) - называется количество информации, которое снимает неопределенность в отношении наступления одного из двух равновероятных, независимых событий.

Среднее количество информации для всей совокупности сообщений можно получить путем усреднения по всем событиям:

. (3)

Количество информации, в сообщении, состоящем из n не равновероятных его элементов равно (эта мера предложена в 1948 г.К. Шенноном):

. (4)

Для случая независимых равновероятных событий количество инфор-мации определяется (эта мера предложена в 1928 г.Р. Хартли):

. ( 5)

2. СВОЙСТВА КОЛИЧЕСТВА ИНФОРМАЦИИ

1. Количество информации в сообщении обратно-пропорционально вероятности появления данного сообщения.

2. Свойство аддитивности - суммарное количество информации двух источников равно сумме информации источников.

3. Для события с одним исходом количество информации равно нулю.

4. Количество информации в дискретном сообщении растет в зависимости от увеличения объема алфавита - m .

Направления оценки количества информации

В теории информации выделяются три основных направления: структурное, статистическое, семантическое.

Структурное - рассматривает дискретное строение массивов информации и их измерение простым подсчетом информационных элементов. (Простейшее кодирование массивов - комбинаторный метод.)

Статистическое направление оперирует понятием энтропии как меры неопределенности, то есть здесь учитывается вероятность появления тех или иных сообщений.

Семантическое направление учитывает целесообразность, ценность или существенность информации.

Эти три направления имеют свои определенные области применения. Структурное используется для оценки возможностей технических средств различных систем переработки информации, независимо от конкретных условий их применения. Статистические оценки применяются при рассмотрении вопросов передачи данных, определении пропускной способности каналов связи. Семантические используются при решении задач построения систем передачи информации разработки кодирующих устройств и при оценке эффективности различных устройств.

Структурные меры информации

Структурные меры учитывают только дискретное строение информации. Элементами информационного комплекса являются кванты - неделимые части информации. Различают геометрическую , комбинаторную и аддитивную меры.

Определение информации геометрическим методом представляет собой измерение длины линии, площади или объема геометрической модели информационного комплекса в количестве квантов. Максимально возможное число квантов в заданных структурных габаритах определяет информационную емкость системы . Информационная емкость есть число, указывающее количество квантов в полном массиве информации. Согласно рис. 1.2, г , количество информации М в комплексе X (T,N ), определенное геометрическим методом, равняется

Х, Т, N - интервалы, через которые осуществляются дискретные отсчеты.

В комбинаторной мере количество информации вычисляется как количество комбинаций элементов. Здесь учитываются возможные или реализованные комбинации.

Во многих случаях дискретное сообщение можно рассматривать как слово, состоящее из некоторого количества элементов n, заданных алфавитом, состоящим из т элементов-букв. Определим количество различных сообщений, которые можно образовать из данного алфавита. Если сообщение состоит из двух элементов (п= 2), то всего может быть различных сообщений. Например, из десяти цифр (0, 1, 2,..., 9) может быть образовано сто различных чисел от 0 до 99. Если количество элементов равно трем, то количество различных сообщений равно и т.д.

Таким образом, число возможных сообщений определяется:

где L - число сообщений; п - число элементов в слове; т - алфавит.

Чем больше L , тем сильнее может отличаться каждое сообщение от остальных. Величина L может быть принята в качестве меры количества информации. Однако выбор L в качестве меры количества информации связан с неудобствами: во-первых, при L =1 информация равна нулю, поскольку заранее известен характер сообщения (т.е. сообщение есть, а информация равна нулю); во-вторых, не выполняется условие линейного сложения количества информации, т.е. условие аддитивности. Если, например, первый источник характеризуется различными сообщениями, а второй - , то общее число различных сообщений для двух источников определяется произведением

L= .

Для k источников общее число возможных различных сообщений равно

Поэтому Хартли ввел логарифмическую (аддитивную) меру количества информации, позволяющую оценивать количество инфомации, содержащейся в сообщении, логарифмом числа возможных сообщений.

I= .

Тогда при L= 1 I= 0, т.е. информация отсутствует.

Для k источников информации

т.е. I= .

Статистические меры информации

При статическом вероятностном подходе получение конкретного количества информации рассматривается как результат определенного выбора среди возможных сообщений. Получатель информации может заранее знать или угадать ее часть. Когда приходит сообщение о часто происходящих событиях, вероятность появления которых Р стремится к единице, то такое сообщение малоинформативно. Столь же малоинформативны в среднем сообщения о событиях, вероятности которых стремятся к нулю, т.е. о почти невозможных событиях, поскольку сообщения о таких событиях поступают чрезвычайно редко.

События можно рассматривать как возможные исходы некоторого опыта. Все исходы составляют полную группу событий, или ансамбль.

Ансамбль характеризуется тем, что сумма вероятностей всех сообщений в нем равна единице, то есть

.

Рассмотрим сложные сообщения, составляемые из п элементов, каждый из которых является независимым и выбирается из алфавита, содержащего т букв, с вероятностями выбора элементов соответственно. Предположим, что в некоторое сообщение вошло элементов алфавита, элементов и т.д. Такое сообщение характеризуется таблицей (табл. 1.1).

Таблица 1.1

Тип элемента ... ...
Число элементов ... ...

Вероятности выбора

элементов

Вероятность того, что в сообщение войдут элементов равняется , а вероятность образования сообщения из ,, ,...,,..., элементов будет равна

Р= . (1.1)

При большой длине п источником будут формироваться типичные сообщения, в которых относительная частота появления отдельных элементов стремится к вероятности появления этих элементов, то есть

, (1.2)

а вероятности появления типичных сообщений Р будут одинаковы и могут быть найдены из (1.1), (1.2):

Р= . (1.3)

Определим число типичных сообщений:

так как суммарная вероятность всех типичных сообщений стремится к единице при увеличении длины сообщений.

Хотя число возможных сообщений , источник практически будет вырабатывать только L типичных сообщений, а вероятность появления остальных сообщений стремится к нулю.

Найдем количество информации I , содержащейся в одном сообщении:

I= log L= - log. (1.5)

Данное выражение (формула Шеннона) дает более полное представление об источнике информации, чем аддитивная мера (мера Хартли). Поясним это на следующем примере. Если мы подбрасываем монету, то получим сообщение из двух возможных состояний (орел или решка), то есть, алфавит сообщений из двух букв. Если подбрасываем кубик, одна грань которого голубая, а остальные грани окрашены в розовый цвет, то здесь также имеем алфавит из двух букв (голубой или розовый). Чтобы записать полученный текст (сообщение), в обоих случаях достаточно одной двоичной цифры на букву (п= 1, т= 2).

По Хартли здесь в обоих случаях

Но мы знаем, что в первом случае вероятность каждого исхода опыта равна 0,5 (=0,5). А во втором случае и соответственно. Мера Хартли не учитывает этого.

При равновероятности символов (частный случай) формула Шеннона вырождается в формулу Хартли:

I= - n.

Для случая с монетой:

I= - 1 .

Для случая с кубиком:

I= - 1 .

Количество информации, приходящейся на один элемент сообщения, называется удельной информативностью или энтропией .

Н= . (1.6)

Количество информации и энтропия являются логарифмическими мерами и измеряются в одних и тех же единицах. Основание логарифма определяет единицу измерения количества информации и энтропии. Двоичная единица соответствует основанию логарифма, равному двум, и называется битом. Один бит - это количество информации в сообщении в одном из двух равновероятностных исходов некоторого опыта. Используются также натуральные (НИТ) и десятичные (ДИТ) логарифмы. Аналогичными единицами пользуются и при оценке количества информации с помощью меры Хартли.

Из формулы Шеннона следует, что количество информации, содержащейся в сообщении, зависит от числа элементов сообщения п , алфавита т и вероятностей выбора элементов . Зависимость I от п является линейной .

Отметим некоторые свойства энтропии.

1. Энтропия является величиной вещественной, ограниченной и неотрицательной, то есть Н> 0. Это свойство следует из выражения (1.6).

2. Энтропия минимальна и равна нулю, если сообщение известно заранее, то есть если =1, а

3. Энтропия максимальна, если все состояния элементов сообщений равновероятны.

Н=, если . (1.7)

Величину максимальной энтропии найдем при использовании (1.6) и (1.7):

Целесообразность, полезность информации для решения какой-то задачи можно оценить по эффекту, который оказывает полученная информация на решение задачи. Если вероятность достижения цели увеличивается, то информацию следует считать полезной.