それに対して,携帯電話のメールで送られるものは何だろうか? 言うまでもなく,送られ る物は情報である.これもある程度理解できるであろう.
問題は,送られる情報を定量的に取り扱う方法を見いだすことである.物の伝達であれば, 質量や体積で取り扱うことができる.エネルギーであれば,ジュール(Jule)という単位で取り扱 うことができる.情報はどのような単位で取り扱えばよりのだろうか?
情報の取り扱いが学問になるためには,それを定量的に表現しなくてはならない.次節か ら,情報を定量的に取り扱う方法を述べる.
A君とB君は,全く同じメッセージをC君から受け取った.しかし,A君はすでに知っている 内容で,A君の情報量は全く増加しない.それに対して,このメッセージでB君はとてつも なく大きな情報を得たことになる.
それでは,情報の大きさの大小関係を考えてみよう.先ほどの例から,次のようなことが 分かるだろう.
メッセージを受け取ることにより,何かを知ることになる.「驚き」の多いメッセージ ほど,大きな情報量がある.今まで無かった情報を得たときに,人間は驚く.まったく,知識が無いことを得ると驚き は大きくなる.今のところ,情報量を「驚き」というような,およそ学問とは関係なさそ うな人間の感情で表している.あとで,分かるがこれを手がかりに情報量を定量的に評価 してする.
大小関係が分かったので,次の節から情報量を定量的に定義する.
教科書のp.39の内容をまとめると,次のようになる.
先ほどの例(A君とB君,C君)から,受け取る情報量は
受け取る情報量 | (1) |
実は,式(1)が不便な場合がある.次のように2段階にメッセージが発 信された場合である.
それでは,(i)と(ii)の二つのメッセージで合計,どれだけの情報を受け取ったのであろ うか? と考えて良いだろうか? これはまずい.なぜならば,(i)と(ii)を あわせたメッセージは,先の(B)のメッセージと同じ内容である2.にもかかわらず,情報量が異なる.
解決の方法は,
受け取る情報量 | (2) |
(B)のメッセージの情報量 | (3) | |
(i)と(ii)のメッセージの情報量 | (4) |
ものいい ちょっと待った! (i)と(ii)の発言により得られる情報量を とすれば,式 (1)の定義でも良いのではないか? 確かに,2つの情報を得たときの 演算を乗算で定義すれば,情報量を式(1)のように定義しても矛盾は ない.しかし,情報は加えることができる--と言うことを考えると,二つの情報は加算 を行う方がしっくりくる.一般に量は,加算ができる方がいろいろと便利である.どの ような量も二つの物を合計するときは加算の演算を行う.従って,加法性を受け入れる ならば,情報量は式(2)で定義すべきである. |
情報量 | (5) |
それでは,先の(B)のメッセージと(i)と(ii)を加えたメッセージで,この確率による情報 量を計算してみよう.
(B)のメッセージの情報量 | (6) |
(i)と(ii)のメッセージの情報量 | (7) |
一つのメッセージを受け取っ たときにいつも情報量が同じとは限らない.二つの場合について,メッセージに含まれる 平均情報量3,すなわちメッセージを受け取ることにより得られる情報量の期待値を
平均情報量 | (8) |
(9) |
日本史 00 | 東洋史 01 | 西洋史 10 | アメ リカ史 11 |
平均情報量 | ||
(10) |
日本史 0 | 世界史 1 |
平均情報量 | ||
(11) |
このように,受け取るメッセージの確率が異なる場合,受け取る平均情報量が2進数で符 号化した場合の桁数よりも小さくなることがある.一方,確率が等しい場合は,平均情報 量と2進数で符号化した場合の桁数は同一となる.このあたりは,教科書 [1] pp.43の図3.3を見よ.
コーヒーブレイク
平均情報量を表す式(8)に関して,ファインマンの教科書
[2]にはおもしろいことが書かれている.この式は,統計力学(熱
力学)のエントロピーの式とほとんど同じである--と言う知識を前提に,以下引用する.
シャノンはこの平均情報量を「情報のエントロピー」と呼んだが,これを大きな間違い だったと思う人がいる.というのは,これによって多くの人が情報理論と熱力学との関 連を強調しすぎることになったからである.また,次のようなことも書いてある. 言い伝えによれば,シャノンはこの用語を,数学者フォン・ノイマンの助言によって採 用した.フォン・ノイマンは「ともかく誰も実際にエントロピーが何なのかがわからな いのでこの用語によってシャノンは論争に優位に立つだろう」と公言したとい うことである. |
送受信のコストを下げるためには,できるだけ少ないデータ;2進数の桁数が小さいで,多 くの情報を送らなくては成らない.ここでの問題は,平均情報量が分かった場合,必要な 2進数符号の桁数は? どのようにすれば2進数符号の桁数を最小にできるか?である.
メッセージを2進数で符号化する.種類目のメッセージの符号の桁数を とする.この場合,平均符号長は,
平均符号長 | (12) |
これがデータ圧縮の限界を表す.教科書の例はハフマン符号化を行い,平均符号長を平均 情報量に近づけている.
ハフマン符号化については,省略する.ただし,課題にそれがあるので調べよ.
(13) |
情報量 | ||
(14) |