KL ダイバージェンス最小化(最尤推定)の確率論的な意味

統計的推論では多くの場合、最尤推定という方法が用いられます。それにもかかわらず、最尤推定の確率的な意味について書かれた教科書は多くありません。実は最尤推定を考案したフィッシャー自身、尤度について「”合理的な信念の尺度”として役に立つ」と述べているものの、確率論的に明確な意味を与えなかったことが赤池氏によって指摘されています [A2]

勉強を進めると、尤度の代わりに KL ダイバージェンス (カルバック・ライブラーダイバージェンス) が導入され、尤度の最大化と KL ダイバージェンスの最小化が同じことであることが説明されます。尤度は (単一の) 確率モデルのパラメーターに対して定義される一方、KL ダイバージェンスは (同じ空間上の) 任意の確率分布に対して定義されます。よって、KL ダイバージェンスにはモデルに依存しない確率的な意味を持つことが期待されます。

しかし多くの場合 KL ダイバージェンスの性質について、確率分布が一致すれば $0$、一致しなければ $0$ より大きい値をとることのみ説明され、その値の大きさが持つ意味について説明されることはありません。

この疑問に対する明確な答えを与えるのが、stein の補題と、大偏差原理の一種である sanov の定理です。本記事ではこれらを用いて、KL ダイバージェンスの最小化の意味を説明します。

少し数学的に難しいところがあるかもしれませんが、そこを読み飛ばしても大まかな流れは理解できるように書くつもりです。

※ 本記事では測度という言葉を避けるため、確率測度と確率分布とを区別せず書いています。また、確率密度関数 $q(x)$ が定める確率分布を、記号の濫用で $q$ と表します。

準備

確率モデル、尤度、KL ダイバージェンスに関する基本的な事項を簡単にまとめます。別の記事

機械学習と統計的推定の数学的な枠組み

により詳しく書いているので、こちらもご参照ください。

確率モデル

データ $\{x_1, \dots, x_d\}$ がある空間 $M \subset \mathbb{R}^n$ 上の点の集まりとして与えられているとし、これらは確率密度関数 $q(x)$ が定める分布 (真の分布と呼ぶ) に従ってサンプルされたものとします。このとき、パラメータ空間 $W$ から $M$ 上の確率分布全体 $\mathcal{P}(M)$ への写像 $\tau: W \to \mathcal{P}(M)$ を確率モデルと言います。一般に、$q \in \tau(W)$ であることは仮定しません。

尤度

$x \in M$, $w \in W$ に対して $p_w(x) = \tau(w)(x)$ とおいたとき、尤度は

\begin{align}L(w) &= \prod_{i = 1}^d p_w(x_i) \\ & = p_w(x_1)p_w(x_2) \cdots p_w(x_d)\end{align}

と定義されます。

KL ダイバージェンス

$M$ 上の確率密度関数 $p_1(x), p_2(x)$ に対して、KL ダイバージェンス $D_{KL}(p_1 || p_2)$ は

$$D_{KL}(p_1 || p_2) = \int_X \log \left(\frac{p_1(x)}{p_2(x)} \right) p_1(x)dx$$

と定義されます。だだし、$p_1(x) > 0$, $p_2(x) = 0$ を満たす点 $x \in X$ が存在する場合は $D_{KL}(p_1 || p_2) = \infty$ であるとします。

$F(t) = t + e^{-t} -1$ とおくと、$F(t)$ の 2 階微分は $F^{\prime\prime}(t) = e^{-t} > 0$ なので狭義凸関数です。1 階微分は $F^{\prime}(t) = 1 -e^{-t}$ なので $t = 0$ で最小値を取ります。$F(0) = 0$ なので、$F(t) \geq 0$ かつ $F(t) = 0 \Leftrightarrow t = 0$ であることがわかります。ここで、

\begin{align} & \int_X F \left( \log\frac{p_1(x)}{p_2(x)}\right) p_1(x)dx \\ = \ & \int_X \log \left(\frac{p_1(x)}{p_2(x)}\right) p_1(x)dx + \int_X \frac{p_2(x)}{p_1(x)} p_1(x)dx -\int_X p_1(x)dx \\ = \ & \int_X \log \left(\frac{p_1(x)}{p_2(x)}\right) p_1(x)dx + 1 -1 \\ = \ & D_{KL}(p_1 || p_2) \end{align}

なので、$D_{KL}(p_1 || p_2) \geq 0$ であり、$D_{KL}(p_1 || p_2) = 0$ であることと任意の $x \in X$ に対して $p_1(x) = p_2(x)$ が成り立つことが同値であることがわかります。

尤度と KL ダイバージェンスの関係

$D_{KL}(q(x) || p_w(x))$ を計算すると、

\begin{align} & D_{KL}(q(x) || p_w(x)) \\ = \ & \int_X \log \left( \frac{q(x)}{p_w(x)} \right) q(x) dx \\ = \ & \int_X \log (q(x)) q(x) dx \ -\int_X \log (p_w(x)) q(x)dx \end{align}

となります。第1項は定数であり、第2項については、$\tilde{q}(x) = \frac{1}{d}\sum_{i=1}^d \delta_{x_i}(x)$ とおいたとき、

\begin{align} & \int_X \log (p_w(x))\tilde{q}(x)dx \\ = \ & \frac{1}{d}\sum_{i=1}^n \log p_w(x_i) \\ = \ & \frac{1}{d} \log L(w) \end{align}

なので尤度の対数の $\frac{1}{d}$ 倍に一致します。大数の法則から

$$\lim_{d \to \infty} \int_X \log (p_w(x)) \tilde{q}(x) dx = \int_X \log (p_w(x)) q(x)dx$$

が成り立つので、尤度を最大化することは、近似的に $D_{KL}(q || p_w(x))$ の最小化をしていることになります。

sanov の定理と stein の定理

この節では、sanov の定理と stein の定理について説明します。sanov の定理は大偏差原理の一種です。大偏差原理とは大数の法則、中心極限定理に次ぐ確率論の基本法則であり、中心から外れたところでの漸近挙動について述べたものです。統計的推論において、確率モデルは真の分布を含むことを仮定しないので、中心から外れたところでの解析が必要になります。

stein の補題は、2 つの分布に対する仮説検定において、ある条件のもとで最適な検定を行なった場合の誤り確率の極限に関する定理です。その極限は、KL ダイバージェンスを用いて表されます。

sanov の定理と stein の補題の正確な主張と証明は以下の記事に載せていますが、数学的な難易度は高めです。

sanov の定理の証明

ネイマン・ピアソンの補題と仮説検定の漸近挙動

sanov の定理

$M$ を可分完備距離空間 ($\mathbb{R}^n$ や多様体、有限集合を想定してください) とします。データ $\{x_1, \dots, x_d\} \subset M$ が与えられたとし、そのデータは確率分布 $p$ に従ってサンプルされたとします。経験分布

$$\frac{1}{d} \sum_{i = 1}^d \delta_{x_i}$$

が、$M$ 上の確率分布全体 $\mathcal{P}(M)$ の部分集合 $K \subset \mathcal{P}(M)$ に含まれる確率を $Q^p_d(K)$ とします。このとき、$K$ が “良い” 集合であれば

$$\lim_{d \to \infty} \frac{1}{d} \log Q^p_d(K) = -\inf_{r \in K}D_{KL}(r || p)$$

が成り立ちます。これを sanov の定理と言います (集合 $K$ が持つべき性質については本記事では触れないこととします)。

上記の等式を書き換えると

$$Q^p_d(K) = e^{-d\inf_{r \in K}D_{KL}(r || p) + \omicron(d)}$$

となります。もし $p \notin K$ であれば $\inf_{r \in K}D_{KL}(r || p) > 0$ なので、$Q^p_d(K)$ は $d$ を大きくすれば $0$ に収束します。さらに $Q^p_d(K)$ は $d$ に関して指数的に減少し、$\inf_{q \in K}D_{KL}(q || p)$ が大きいほど速く減少します。

データ $\{x_1, \dots, x_d\}$ が $p$ に従ってサンプルされているので、経験分布 $\frac{1}{d} \sum_{i = 1}^d \delta_{x_i}$ は大数の法則により $p$ に収束します。従って $p \notin K$ であれば、経験分布が $K$ に含まれるのは非常に稀なことになります。

sanov の定理は、非常に稀な現象が起きる確率が指数関数的に減少すること、そしてその速さが $D_{KL}(\cdot || p)$ という関数で与えられることを示しています。

stein の補題

$p$, $q$ を $M$ 上の確率分布とします。データ $\{x_1, \dots, x_d\} \subset M$ が $p$ に従って生成されたのか、$q$ に従って生成されたのかを統計的に判断するのに、仮説検定という手法が取られます。仮説検定とは、部分集合 $A \subset M^d$ を一つ定め、$(x_1, \dots, x_d) \in A$ ならば $p$ に従っている、$(x_1, \dots, x_d) \notin A$ ならば $q$ に従っていると判断する手法です。(わかりにくいと思った方は「統計的仮説検定とクラメールの定理」の序盤をご一読ください。)

この設定において、仮説検定の誤り方は 2 通りあります。本当はデータが $q$ に従っているのに $p$ と判断してしまう誤りと、本当は $p$ に従っているのに $q$ と判断してしまう誤りです。本当は $q$ に従っているのに $p$ と判断してしまう誤りが発生する確率を $\alpha_d$、もう一方誤りが発生する確率を $\beta_d$ とおきます。$\alpha_d$ を一定以下に抑えるという条件のもと、$\beta_d$ は $d$ を大きくしたときにどのくらい速く $0$ になるか、という問に答えるのが stein の補題です。stein の補題は、最良の検定を行えば、$\lim_{n \to \infty} \frac{1}{d} \log \beta_d$ が $-D_{KL}(q || p)$ に限りなく近づくという主張です。

sanov の定理と stein の補題の関係

部分集合 $K \subset \mathcal{P}(S)$ に対して

$$A_d = \{x \in S^d \mid \frac{1}{d} \sum_{i = 1}^d \delta_{x_i} \in K\}$$

とおくと、任意の $d$ に対して仮説検定を行うことができます。$(x_1, \dots, x_d) \in A_d$ ならば $p$ に従っている、そうでなければ $q$ に従っていると判断することとします。

$p \in K$ かつ $q \in K$ としてしまうと、$\{x_1, \dots, x_d\}$ が $p$ に従っていても $q$ に従っていても、大数の法則から、$d$ を大きくしたときに $\frac{1}{d} \sum_{i = 1}^d \delta_{x_i} \in K$ となる確率が大きくなってしまい、仮説検定がうまくいきません。よって $p \in K$ かつ $q \notin K$ であるとします。

データ $\{x_1, \dots, x_d\} \subset M$ が $q$ に従って生成されたとします。このとき、経験分布 $\frac{1}{d} \sum_{i = 1}^d \delta_{x_i}$ は大数の法則により $q$ に収束します。よって $d$ を大きくすれば $\frac{1}{d} \sum_{i = 1}^d \delta_{x_i} \notin K$ となる確率が大きくなることが期待されます。逆に $\frac{1}{d} \sum_{i = 1}^d \delta_{x_i} \notin K$ であったとして、それが $p$ に従っていないことを保証するには、データ $\{x_1, \dots, x_d\}$ が $p$ に従って生成されたと仮定した場合に $\frac{1}{d} \sum_{i = 1}^d \delta_{x_i} \notin K$ を満たす確率 (つまり $\beta_d$) が十分小さい (つまり稀な現象である) ことを示す必要があります。

定義から $\beta_d = Q^p_d(K^c)$ であり、sanov の定理から

$$\lim_{d \to \infty} \frac{1}{d} \log \beta_d = -\inf_{r \in K^c}D_{KL}(r || p)$$

となります。$q \in K^c$ なので

$$-\inf_{r \in K^c}D_{KL}(r || p) \geq -D_{KL}(q || p)$$

となりますが、stein の定理から、検定の集合をうまく取ることで $\lim_{d \to \infty} \frac{1}{d} \log \beta_d$ を $-D_{KL}(q || p)$ に限りなく近づけることができます。

stein の補題の証明に sanov の定理は必要ありませんが、sanov の定理を知っておくと KL ダイバージェンスが現れる理由が納得できます。

KL ダイバージェンス最小化の意味

sanov の定理と stein の補題から、KL ダイバージェンス最小化の意味を考えましょう。データ $\{x_1, \dots, x_d\}$ が $q$ に従っているとし、それを統計モデル $p_w$ により推定するという状況を考えます。stein の補題から

$$\beta_d = e^{-dD_{KL}(q || p_w) + \omicron(d)}$$

となるので、$D_{KL}(q || p_w)$ を最小化する $w$ を選ぶということは、$\beta_n$ が最も緩やかに減少する (つまり最も大きい) $w$ を選ぶということになります。$\beta_n$ は仮説検定の文脈において、データが $p$ に従っているのに $q$ に従っていると判断する誤りの確率のことでした。$q$ が真の分布であることと知っている状況においては $\beta_d$ が小さいことに意味があり、もう一方の誤りの確率である $\alpha_n$ は無視して良いです。そして $\beta_n$ が小さいほど、$q$ と $p_w$ の違いが判断しやすいと言えます。

サンプル数 $d$ を大きくしたときに、データが $p_w$ から発生したと考えるには稀なデータが得られたときほど $\beta_d$ は小さく、そうでないほど $\beta_d$ は大きくなります。$\beta_d$ が大きいほど $D_{KL}(q || p_w)$ は小さくなるので、$D_{KL}(q || p_w)$ を最小化する $w$ を選ぶということは、$q$ を最もよくシミュレートする $p_w$ を選ぶ、あるいは $q$ を $p_w$ と偽っても最もバレるのが遅い $p_w$ を選ぶと言えます。

具体例

赤色の球が 8個、白色の球が 2個入っている箱があるとします。これを A さんに、赤と白が 5 : 5 で入っているはずだから、球を箱から一個ずつ取り出して (その後球を箱に戻して) 確かめて欲しいと依頼した場合と、赤と白が 2 : 8 で入っているはずだから確かめて欲しいと依頼した場合で、どちらが先におかしいと気づくでしょうか。明らかに 2 : 8 のときの方が速く気づかれます。このとき KL ダイバージェンスは、5 : 5 のとき

\begin{align} & \frac{8}{10}\log \frac{\frac{8}{10}}{\frac{5}{10}} + \frac{2}{10}\log \frac{\frac{2}{10}}{\frac{5}{10}} \\ = \ & \frac{4}{5} \log 8 + \frac{1}{5} \log 2 -\log5 \\ = \ & \frac{13}{5} \log 2 -\log5 \\ \fallingdotseq \ & 0.19274 \end{align}

であり、2 : 8 のとき

\begin{align} & \frac{8}{10}\log \frac{\frac{8}{10}}{\frac{2}{10}} + \frac{2}{10}\log \frac{\frac{2}{10}}{\frac{8}{10}} \\ = \ & \frac{6}{5} \log2 \\ \fallingdotseq \ & 0.83178 \end{align}

なので、2 : 8 のときの方が KL ダイバージェンスが大きいです。

次に、A さんにはすべて赤い球が入っていると言って渡してみましょう。このとき、白い球が出てくれば、その時点でおかしいと気づくので、嘘がバレる速さは $\infty$ であると解釈できます。このとき、KL ダイバージェンスは

$$\frac{8}{10}\log \frac{\frac{8}{10}}{1} + \frac{2}{10}\log \frac{\frac{2}{10}}{0} = \infty$$

となります。

逆に箱に赤い玉しか入っていない状況で、赤と白が 5 : 5 で入っているから確かめて欲しいと伝えたとします。このとき、球を取り出すたびに疑惑が増すことはあっても、どこかの時点で確信するということはありません。このとき KL ダイバージェンスは

$$\log \frac{1}{\frac{5}{10}} = \log 2$$

で与えられます。

そういえば昔おめシスさんが、ジャンケンに勝ち続けたらどうなるのかというドッキリをしてましたね。これは箱に赤い玉しか入っていない状況と似ています。

まとめ

KL ダイバージェンス最小化 (最尤推定) の確率論的な意味を、sanov の定理と stein の補題を用いて説明しました。そしてそれは、真の分布 $q$ を最もよくシミュレートする $p_w$ を選択すること、あるいは $q$ を $p_w$ と偽ってもバレるのが最も遅いものを選ぶことであることを示しました。

ちなみに [A2] では、頻度主義 vs ベイズ主義、あるいは客観確率 vs 主観確率という対立が、 KL ダイバージェンス ([A2] ではエントロピーと呼んでいる) の確率的な意味、つまり推定された分布の近似の良さの客観的な評価、に関する理解の欠如により発生していることを指摘しており、一読の価値があります。

参考文献

[A1] 赤池 弘治. エントロピーとモデルの尤度

[A2] 赤池 弘治. 統計的推論のパラダイムの変遷について

[K1] 黒木 玄. 2017-06-03 Kullbck-Leibler情報量に関するSanovの定理の意味.pdf