2 情報の伝達と情報量

2.1 情報の伝達

諸君は，物やエネルギーの伝達はよく知っている．トラックや鉄道を使った工業製品の輸送(伝達)は説明するまでもなく，よく見る光景である．電線を使った電力の輸送(伝達)も理解しているだろう．前者はある定まった物が送られ，後者はエネルギーが送られる．

それに対して，携帯電話のメールで送られるものは何だろうか? 言うまでもなく，送られる物は情報である．これもある程度理解できるであろう．

問題は，送られる情報を定量的に取り扱う方法を見いだすことである．物の伝達であれば，質量や体積で取り扱うことができる．エネルギーであれば，ジュール(Jule)という単位で取り扱うことができる．情報はどのような単位で取り扱えばよりのだろうか?

情報の取り扱いが学問になるためには，それを定量的に表現しなくてはならない．次節から，情報を定量的に取り扱う方法を述べる．

**図 1:** 同じ情報でも，人により得る情報量が異なる．あらかじめそれを知っていたA 君が得る情報はゼロであるが，知らなかったB君は多くの情報を得る．
$\includegraphics[keepaspectratio, scale=0.7]{figure/info.eps}$

ものいいちょっと待った! (i)と(ii)の発言により得られる情報量を $4/3\times 3/1$ とすれば，式 (1)の定義でも良いのではないか? 確かに，2つの情報を得たときの演算を乗算で定義すれば，情報量を式(1)のように定義しても矛盾はない．しかし，情報は加えることができる--と言うことを考えると，二つの情報は加算を行う方がしっくりくる．一般に量は，加算ができる方がいろいろと便利である．どのような量も二つの物を合計するときは加算の演算を行う．従って，加法性を受け入れるならば，情報量は式(2)で定義すべきである．

2.2.3 確率による定義

次に述べる確率による定義がもっとも一般的に情報量のとして使われる．確率

で起きる事実を知ったときに得られる情報量は，

情報量 $\displaystyle =-\log_2p\quad[\mathrm{bit}]$

(5)

である．

それでは，先の(B)のメッセージと(i)と(ii)を加えたメッセージで，この確率による情報量を計算してみよう．

(B)の場合．アメリカ史が出題される確率は1/4であった．(B)のメッセージにより，出題内容はアメリカ史に限定された．

(B)のメッセージの情報量 $\displaystyle =-\log_2\left(\frac{1}{4}\right)=2\quad\mathrm{[bit]}$ (6)
(i)と(ii)の場合．(i)の「世界史を出題する」は3/4の確率の事実である．(ii)の「アメリカ史に限る」はそのときは1/3の確率である．

(i)と(ii)のメッセージの情報量 $\displaystyle = -\log_2\left(\frac{3}{4}\right)-\log_2\left(\frac{1}{3}\right)=2\quad\mathrm{[bit]}$ (7)

2.3 平均情報量

次にメッセージを受け取ったときに得る情報量を計算しよう．これは，後で述べる情報の圧縮と密接に関わっている．

一つのメッセージを受け取ったときにいつも情報量が同じとは限らない．二つの場合について，メッセージに含まれる平均情報量³，すなわちメッセージを受け取ることにより得られる情報量の期待値を

平均情報量 $\displaystyle =-\sum_i p_i\log_2p_i$

(8)

計算してみよう．ここで，

はメッセージ

が生じる確率である．当然，

$\displaystyle \sum_i p_i=1$

(9)

となる．

2.3.0.1 等確率の場合

受け取る情報が，「日本史」か「東洋史」，「西洋史」，「世界史」の4通りでそれぞれ等確率の場合を考える．このとき，受け取るメッセージを次のように符号化する．

日本史 $\Rightarrow$ 00

東洋史 $\Rightarrow$ 01

西洋史 $\Rightarrow$ 10

アメリカ史 $\Rightarrow$ 11

この場合，メッセージに含まれる平均情報量は

平均情報量	$\displaystyle =-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4}$
	$\displaystyle =2\,\mathrm{[bit]}$	(10)

となる．符号化の2進数の桁数と同じ．

2.3.0.2 等確率でない場合

受け取る情報が，「日本史」か「世界史(東洋史・西洋史・アメリカ史)」の二通りで，確率は1/4と3/4である．受け取るメッセージは，次のように符号化する．

日本史 $\Rightarrow$ 0

世界史 $\Rightarrow$ 1

この場合，メッセージに含まれる平均情報量は

平均情報量	$\displaystyle =-\frac{1}{4}\log_2\frac{1}{4}-\frac{3}{4}\log_2\frac{3}{4}$
	$\displaystyle =0.5+0.311$
	$\displaystyle =0.811\,\mathrm{[bit]}$	(11)

となる．平均的に受け取るメッセージは，符号化の2進数の桁数よりも小さくなる．「日本史」は2[ $\mathrm{bit}$ ]の情報があるが，「世界史」の情報は0.415[ $\mathrm{bit}$ ]である．

このように，受け取るメッセージの確率が異なる場合，受け取る平均情報量が2進数で符号化した場合の桁数よりも小さくなることがある．一方，確率が等しい場合は，平均情報量と2進数で符号化した場合の桁数は同一となる．このあたりは，教科書 [1] pp.43の図3.3を見よ．

コーヒーブレイク平均情報量を表す式(8)に関して，ファインマンの教科書 [2]にはおもしろいことが書かれている．この式は，統計力学(熱力学)のエントロピーの式とほとんど同じである--と言う知識を前提に，以下引用する．
シャノンはこの平均情報量を「情報のエントロピー」と呼んだが，これを大きな間違いだったと思う人がいる．というのは，これによって多くの人が情報理論と熱力学との関連を強調しすぎることになったからである．
また，次のようなことも書いてある．
言い伝えによれば，シャノンはこの用語を，数学者フォン・ノイマンの助言によって採用した．フォン・ノイマンは「ともかく誰も実際にエントロピーが何なのかがわからないので $\cdots$ この用語によってシャノンは論争に優位に立つだろう」と公言したということである．

平均符号長 $\displaystyle =\sum_ip_i\ell_i$

(12)

となる．この平均符号長さは，そのメッセージの平均情報量は

ビットを超えることができない．なぜならば，

桁の2進数;符号長で表すことのできる最大情報量は

ビットであるからである．

これがデータ圧縮の限界を表す．教科書の例はハフマン符号化を行い，平均符号長を平均情報量に近づけている．

ハフマン符号化については，省略する．ただし，課題にそれがあるので調べよ．

2.5 2進数の桁数と情報量の関係

0と1が同じ確率で発生するメッセージの場合，2進数の桁数と情報量が同じであることを示そう．0と1の発生確率が同じ

桁の2進数の場合，ある特定のパターンの2進数が発生する確率

は，

$\displaystyle p=\frac{1}{2^N}$

(13)

である．従って，どのようなパターンのメッセージを受け取っても，得られる情報は

情報量	$\displaystyle =-\sum_{i=1}^{2^N} p\log_2 p$
	$\displaystyle =-\sum_{i=1}^{2^N} \frac{1}{2^N}\log_2\frac{1}{2^N}$
	$\displaystyle =\sum_{i=1}^{2^N} \frac{N}{2^N}$
	$\displaystyle =2^N \frac{N}{2^N}$
	$\displaystyle =N\,\mathrm{[bit]}$	(14)

となる．この場合，2進数の桁数と情報量が同一となる．
ホームページ: Yamamoto's laboratory
著者: 山本昌志

Yamamoto Masashi
平成19年12月7日

(B)のメッセージの情報量	$\displaystyle =\log_2\left(\frac{4}{1}\right)=2$	(3)
(i)と(ii)のメッセージの情報量	$\displaystyle =\log_2\left(\frac{4}{3}\right)+\log_2\left(\frac{3}{1}\right)=2$	(4)

2 情報の伝達と情報量

2.1 情報の伝達

2.2 情報の大きさ--情報量

2.2.1 情報の大きさに関して

2.2.2 場合数の変化

2.2.3 確率による定義

2.3 平均情報量

2.3.0.1 等確率の場合

2.3.0.2 等確率でない場合

2.4 符号化と情報量

2.4.1 符号化

2.4.2 データの圧縮

2.5 2進数の桁数と情報量の関係