ネイマン・ピアソンの補題と仮説検定の漸近挙動

$S$ を集合とし、$S$ 上の $n$ 個のデータ $\{x_1, \dots, x_n\}$ が与えられたとします。このデータを生成した分布の候補が $2$ つあるとし、それぞれ $P$, $Q$ とおくこととします。データが分布 $P$ から生成されたのか、$Q$ から生成されたのか、それを統計的に判断するある意味で最適な方法を与えるのが、ネイマン・ピアソンの補題です。

また、データが $Q$ によって生成されているとしたとき、データが $P$ から生成されていないことを統計的に判断するには、$n$ をどのくらい大きくすれば良いのか、という問に漸近的な答えを与えるのが stein の補題です。stein の補題を証明した後、stein の補題の観点から KL ダイバージェンス最小化の意味について軽く触れます。

仮説検定については以下の記事でより詳しく解説していますので、馴染みがなければご参照ください。

統計的仮説検定とクラメールの定理

ネイマン・ピアソンの補題について

$(S, \mathfrak{M})$ を可測空間とし、$P$, $Q$ をその上の確率測度とします。サンプルデータ $\{x_1, \dots, x_n\} \subset S$ が与えられたとき、これが $P$ に従っているのか、$Q$ に従っているのかを知りたいとします。

この問は、仮説検定により統計的に答えることができます。仮説検定とは、可測集合 $A \subset S^n$ をうまく与えて、$(x_1, \dots, x_n) \in A$ ならばデータは $P$ に従っている、$(x_1, \dots, x_n) \notin A$ ならば $Q$ に従っていると判断する方法のことでした。$A$ を仮説 $Q$ の棄却域または、仮説 $P$ の受容域と言います。

ネイマン・ピアソンの補題は、$Q$ の棄却域 $A \subset S^n$ の (ある意味で) 最適な取り方を与えるものです。

尤度比検定

$P$ は $Q$ に対し絶対連続であるとし、$\frac{d P}{d Q}$ をラドン・ニコディム微分とします。$\lambda > 0$ に対して、

$$A_{\lambda} = \{x \in S^n \mid \prod_{i = 1}^n \frac{d P}{d Q}(x_i) > \lambda\}$$

を $Q$ の棄却域とする検定を、$\lambda$ を閾値とする尤度比検定と言います。

$P^n$ を $P$ の $n$ 個の直積測度、$Q^n$ を $Q$ の $n$ 個の直積測度としたとき、

$$\frac{d P^n}{d Q^n}(x) = \prod_{i = 1}^n \frac{d P}{d Q}(x_i)$$

であることは、$E = E_1 \times \cdots \times E_n$ の形の集合上での積分の値が一致することと直積測度の構成方法からわかります。よって不等式の部分を

$$\frac{d P^n}{d Q^n}(x) > \lambda$$

に置き換えることができます。

尤度比検定という名前は、パラメータ付けされた確率モデル $P(x, w)$ に対し、$P(x) = P(x, w_1)$、$Q = P(x, w_2)$ とおき、$S$ における別の測度 $\nu$ により

\begin{align} p(x, w_1) &= \frac{d P}{d \nu} \\ p(x, w_2) &= \frac{d Q}{d \nu} \\ \end{align}

と表されるとき、

$$ \prod_{i = 1}^n \frac{d P}{d Q}(x_i) = \frac{\prod_{i = 1}^n p(x_i, w_1)}{\prod_{i = 1}^n p(x_i, w_2)} $$

と尤度の比で表されるからです。

ネイマン・ピアソンの補題

仮説検定において、棄却されることを想定して立てられる仮説を帰無仮説、もう一方の仮説を対立仮説と言います。

データが分布 $Q$ により生成されているとする仮説を帰無仮説とし、$P$ により生成されているとする仮説を対立仮説とします。このとき、帰無仮説が真なのに棄却してしまう誤り (つまり本当は $Q$ なのに $P$ と判断してしまう) を第 1 種誤り、対立仮説が真なのに棄却してしまう誤り (本当は $P$ なのに $Q$ と判断してしまう誤り) を第 2 種誤りと言います。

部分集合 $A \subset S^n$ を帰無仮説の棄却域とする仮説検定を $T = \{A, A^{c}\}$ と表すこととし、第 1 種誤り確率を $\alpha(T)$、第 2 種誤り確率を $\beta(T)$ とおくと、

\begin{align} \alpha(T) &= Q^n(A), \\ \beta(T) &= P^n(A^c) \end{align}

となります。

ネイマン・ピアソンの補題の主張は以下の通りになります。

ネイマン・ピアソンの補題

$P, Q$ を $(S, \mathfrak{M})$ 上の確率測度とする. 任意の $0 \leq \varepsilon \leq 1$ に対して、$A \in \mathfrak{M}$ を $Q$ の棄却域とする仮説検定 $T = \{A, A^{c}\}$ で

$$\alpha(T) \leq \varepsilon$$

を満たし、他の任意の仮説検定 $T^{\prime}$ に対して

$$\alpha(T^{\prime}) \leq \alpha(T) \Rightarrow \beta(T^{\prime}) \geq \beta(T)$$

を満たすものが存在する. さらに $P$ が $Q$ に対して絶対連続である場合, $\lambda \in \mathbb{R}$ が存在して,

$$A_{\lambda} = \{x \in S^n \mid \prod_{i = 1}^n \frac{d P}{d Q}(x_i) > \lambda\}$$

により, $T = \{A_{\lambda}, A_{\lambda}^c\}$ で与えられる.$\Box$

つまり、第 1 種誤り確率を一定以下に抑える条件のもとで第 2 種誤り確率を最小にする検定が存在し、$P$ が $Q$ に対して絶対連続である場合は、それが尤度比検定で与えられるということです。

帰無仮説と対立仮説を入れ替えると第 1 種誤りと第 2 種誤りも入れ替わるので、それにネイマン・ピアソンの補題を適用することで、第 2 種誤り確率を一定以下に抑える条件のもとで第 1 種誤り確率を最小にする検定が存在することがわかります。さらに、$Q$ が $P$ に対して絶対連続である場合は、それは $\lambda \in \mathbb{R}$ に対して

$$B_{\lambda} = \{x \in S^n \mid \prod_{i = 1}^n \frac{d Q}{d P}(x_i) > \lambda\}$$

とおいたとき、棄却域を $B_{\lambda}^c$ とする尤度比検定で与えられます。

ネイマン・ピアソンの補題の証明

$P$ が $Q$ に対して絶対連続である場合

まず、$\lambda > 0$ に対して第 1 種誤り確率 $Q(A_{\lambda})$ の値を評価します。$\lambda$ を一つ固定します。$A_{\lambda}$ 上で $\frac {d P^n}{d Q^n} > \lambda > 0$ なので、任意の $E \subset A_{\lambda}$ に対して

\begin{align}P^n(E) &= \int_E \frac{d P^n}{d Q^n} dQ^n \\ &\geq \lambda Q^n(E)\end{align}

となります。よって $P^n(E) = 0$ ならば $Q^n(E) = 0$ となります。従って $A_{\lambda}$ において $Q^n$ は $P^n$ に対して絶対連続になります。ここで

\begin{align} \int_{A_{\lambda}} 1 d P^n &= P^n(A_{\lambda})\\ &= \int_{A_{\lambda}} \frac{d P^n}{d Q^n} d Q^n \\ &= \int_{A_{\lambda}} \frac{d P^n}{d Q^n} \frac{d Q^n}{d P^n} d P^n \end{align}

なので、

$$\frac{d Q^n}{d P^n} = \left( \frac{d P^n}{d Q^n} \right)^{-1}$$

となります。従って、

$$Q^n(A_{\lambda}) = \int_{A_{\lambda}} \frac{d Q^n}{d P^n} d P^n < \frac{1}{\lambda} P^n(A_{\lambda})$$

を満たします。特に、$\lambda \to \infty$ で $Q^n(A_{\lambda}) \to 0$ となります。

次に、$Q(A_{\lambda}) < \varepsilon$ を満たす $\lambda$ を求めます。閾値 $\lambda$ を

$$\lambda = \inf \{\lambda^{\prime} \mid \lambda^{\prime} > 0, \ Q^n(A_{\lambda^{\prime}}) \leq \varepsilon \}$$

とおくと、$\lambda$ に収束する任意の減少列 $\{\lambda_{k}\}$ に対して、

$$A_{\lambda} = \bigcup_{k = 1}^{\infty} A_{\lambda_k}$$

が成り立つので、

\begin{align} Q^n(A_{\lambda}) &= Q^n( \bigcup_{k = 1}^{\infty} A_{\lambda_k}) \\ &= \lim_{k \to \infty} Q^n(A_{\lambda_k}) \\ & \leq \varepsilon \end{align}

を満たします。

最後に、他の検定との比較をします。つまり、$B \in \mathfrak{M}$ が $Q^n(B) \leq Q^n(A_{\lambda})$ を満たすときに、$P^n(B^c) \geq P^n(A_{\lambda}^c)$ であることを示します。

\begin{align} & P^n(A_{\lambda}^c) \\ = \ & P^n(A_{\lambda}^c \cap B) + P^n(A_{\lambda}^c \cap B^c) \\ = \ & P^n(B) -P^n(A_{\lambda} \cap B) + P^n(A_{\lambda}^c \cap B^c) \end{align}

ですが、

\begin{align} P^n(A_{\lambda}^c \cap B^c) &= \int_{A_{\lambda}^c \cap B^c} \frac{d P^n}{d Q^n} d Q^n \\ & \leq \int_{A_{\lambda}^c \cap B^c} \lambda d Q^n \\ &= \lambda Q^n(A_{\lambda}^c \cap B^c) \end{align}

であることと、

\begin{align} Q^n(A_{\lambda} \cap B) &= \int_{A_{\lambda} \cap B} \frac{d Q^n}{d P^n} d P^n \\ & \leq \int_{A_{\lambda} \cap B} \frac{1}{\lambda} d Q^n \\ &= \frac{1}{\lambda} P^n(A_{\lambda} \cap B) \end{align}

を用いると、

\begin{align} P^n(A) = \ & P^n(B) -P^n(A_{\lambda} \cap B) + P^n(A_{\lambda}^c \cap B^c) \\ \leq \ & P^n(B) -\lambda Q^n(A_{\lambda} \cap B) + \lambda Q^n(A_{\lambda}^c \cap B^c)\\ = \ & P^n(B) -\lambda(Q^n(B) -Q^n(A_{\lambda}^c \cap B)) \\ & \qquad +\lambda(Q^n(A_{\lambda}^c) -Q^n(A_{\lambda}^c \cap B)) \\ = \ & P^n(B) -\lambda Q^n(B) + \lambda Q^n(A_{\lambda}) \\ \leq \ & P^n(B) \end{align}

となります。よって $P^n(A_{\lambda}) \leq P^n(B)$ が成り立ちます。以上から、$T = \{A_{\lambda}, A_{\lambda}^c\}$ とおけば、$\alpha[T^{\prime}] \leq \alpha[T^{\prime}]$ を満たす任意の検定 $T^{\prime}$ に対して $\beta[T^{\prime}] \geq \beta[T]$ を満たすことがわかりました。

$P$ が $Q$ に対して絶対連続でない場合

$P$ が $Q$ に対して絶対連続でない場合、ラドン・ニコディムの定理から、$P^n$ は $Q^n$ に対して絶対連続な測度 $P^n_{ac}$ と $Q^n$ に対して特異な測度 $P^n_s$ により

$$P^n = P^n_{ac} + P^n_s$$

と表されます。特異の定義から、$N \in \mathfrak{M}$ で、$Q^n(N) = 0$ かつ $P^n_s(N^c) = 0$ を満たすものが存在します。絶対連続の定義から $P^n_{ac}(N) = 0$ です。

$P^n = P^n_s$ のとき、$T^{\prime\prime} = \{N, N^c\}$ とおくと、

\begin{align} \alpha[T^{\prime\prime}] &= Q^n(N) = 0, \\ \beta[T^{\prime\prime}] &= P^n(N^c) = P^n_s(N^c) = 0 \end{align}

なので、$T^{\prime\prime}$ が求めたかったものになります。

$P^n \neq P^n_s$ のときは、$N^c$ において $P$ は $Q$ に対して絶対連続なので、閾値 $\lambda$ をうまく取って

$$A^{\prime}_\lambda = \{x \in N^c \mid \frac{d P^n}{d Q^n}(x) > \lambda\}$$

を $Q(A^{\prime}_\lambda) \leq \varepsilon$ を満たすようにできます。$T = \{N \cup A^{\prime}_\lambda, (N \cup A^{\prime}_\lambda)^c\}$ に対して

\begin{align} \alpha[T] &= Q^n(N \cup A^{\prime}_\lambda) = Q^n(A^{\prime}_\lambda), \\ \beta[T] &= P^n(N^c \cap {A^{\prime}_\lambda}^c) = P^n_{ac}({A^{\prime}_\lambda}^c) \end{align}

なので、命題の条件を満たします。

以上で、ネイマン・ピアソンの補題が証明されました。

仮説検定の漸近挙動

ネイマン・ピアソンの補題ではサンプル数 $n$ を固定して考えていました。データが $Q$ に従って生成されているとすると、サンプル数を多くすれば経験分布 $\frac{1}{n} \sum_{i = 1}^n \delta_{x_i}$ は $Q$ に収束するので、棄却域をよほど変にとらなければ、第 1 種誤り確率、第 2 種誤り確率ともに $0$ に近づきます。では、サンプル数に対して第 1 種誤り確率、第 2 種誤り確率はどのくらい速く $0$ に近づくでしょうか。

誤りが 2 種類あるので、問題の設定がいくつか考えられます。例えば、

  1. 片方の誤り確率を一定以下に抑える条件のもと、もう一方の確率が $0$ に近く速さを考える
  2. 片方の誤り確率が $0$ に収束する速さが一定以上である条件のもと、もう一方の確率の $0$ に近く速さを考える
  3. 2 種の誤り確率の和が $0$ に近づく速さを考える

などが挙げられます。第 1 種誤り確率を一定以下に抑える条件のもと、第 2 種誤り確率が最も小さくなるように棄却域を選択するという方針をネイマン・ピアソンの基準というようです。本記事では、ネイマン・ピアソンの基準に従った場合に第 2 種誤り確率が $0$ に近づく速さ、つまり第 1 種誤り確率を一定以下に抑える条件のもと、第 2 種誤り確率が $0$ に近づく速さを考えます。

本節では仮説検定 $T$ の定義を拡張して、任意の $n \in \mathbb{N}$ に対して $Q$ の棄却域 $A_n \subset S^n$ を選び、それらの組 $T = \{\{A_n, A_n^c\}\}_{n=1}^{\infty}$ を改めて仮説検定と呼びます。$T_n = \{A_n, A_n^c\}$ とおき、$\alpha_n$ を $T_n$ の第1種誤り確率、$\beta_n$ を $T_n$ の第2種誤り確率とします。

そして、$0 < \varepsilon < 1$ を固定したとき、$\alpha_n < \varepsilon$ という条件のもと仮説検定 $T$ をうまく取り、$\beta_n$ をどのくらい速く $0$ にできるかを考えます。ネイマン・ピアソンの補題から、各 $T_n$ は尤度比検定に限定して問題ありません。

前置き

証明の仮定で sanov の定理 (の拡張版) を用いるため、$S$ を可分完備距離空間 (ポーランド空間) とします。ただし、後で補足しますが、以下で示す 2 つの定理のメインの主張は、sanov の定理を用いなくてもクラメールの定理を用いれば証明できますので、sanov の定理を知らない場合は適当に読み飛ばしてください。それぞれの定理の証明は以下の記事に載せています。

sanov の定理の拡張とクラメールの定理

1次元のクラメールの定理の証明

閾値がサンプル数によらない場合の漸近挙動

$P$ は $Q$ に絶対連続であるとし、

\begin{align} y_0 &= \int_S \log \frac{d P}{d Q} d Q, \\ y_1 &= \int_S \log \frac{d P}{d Q} d P = D_{KL}(P ||Q) \end{align}

とおきます。Jensen の不等式から

$$y_0 \leq \log \int_S \frac{d P}{d Q} dP = 0$$

であり、KL ダイバージェンスは非負なので、$y_0 \leq 0 \leq y_1$ です。$Q$ が $P$ に絶対連続であれば、

\begin{align} y_0 &= \int_S \log \frac{d P}{d Q} d Q\\ &= \int_S -\log \frac{d Q}{d P} d Q \\ &= -D_{KL}(Q ||P) \end{align}

となります。$\varphi = \log \frac{d P}{d Q}$ とおき、$\varphi$ に対して

\begin{align} \hat{\varphi} : \mathcal{P}(S) \ni \nu &\mapsto \int_S \varphi d \nu \in \mathbb{R}, \\ \end{align}

とおきます。このとき、$\hat{\varphi}(Q) = y_0$、$\hat{\varphi}(P) = y_1$ となります。

$\varphi_* P$、$\varphi_* Q$ のキュムラント母関数をそれぞれ $\Theta_P$、$\Theta_Q$ とおき、そのルジャンドル変換をそれぞれ $\Theta_P^*$、$\Theta_Q^*$ とおきます。$\varphi$ が $Q$ について可積分であれば、つまり $y_0 > -\infty$ であれば、sanov の定理の拡張から

$$\Theta_Q^*(y) = \inf_{\nu \in \hat{\varphi}^{-1}(y)} D_{KL}(\nu || Q)$$

が成り立ちます。$P$ についても同様に、$y_1 < \infty$ であれば

$$\Theta_P^*(y) = \inf_{\nu \in \hat{\varphi}^{-1}(y)} D_{KL}(\nu || P)$$

が成り立ちます。

次の補題が成り立ちます。

補題. (閾値が一定の場合の漸近挙動)

$P$ は $Q$ に絶対連続であるとする. また, 閾値 $\lambda_n$ に対して

$$\gamma = \frac{1}{n}\log \lambda_n$$

が $n$ によらないとする. このとき, $\gamma \in (y_0 , y_1)$ ならば

\begin{align} \lim_{n \to \infty} \frac{1}{n} \log \alpha_n &= -\Theta_Q^*(\gamma) \\ \lim_{n \to \infty} \frac{1}{n} \log \beta_n &= \gamma -\Theta_Q^*(\gamma) \end{align}

が成り立つ. さらに $y_0 > -\infty$ であれば,

\begin{align} \lim_{n \to \infty} \frac{1}{n} \log \alpha_n &= -\inf_{\nu \in \hat{\varphi}^{-1}(\gamma)} D_{KL}(\nu || Q) \\ \lim_{n \to \infty} \frac{1}{n} \log \beta_n &= \gamma -\inf_{\nu \in \hat{\varphi}^{-1}(\gamma)} D_{KL}(\nu || Q) \end{align}

が成り立つ.

証明)$\lambda > 0$ に対して

$$A_{\lambda, n} = \{x \in S^n \mid \prod_{i = 1}^n \frac{d P}{d Q}(x_i) > \lambda\}$$

とおくと、第 1 種誤り確率、第 2 種誤り確率は

\begin{align} \alpha_n & = Q^n(A_{\lambda, n}), \\ \beta_n &= P^n(A_{\lambda, n}^c) \end{align}

で与えられます。$\alpha_n$ について、

\begin{align} \alpha_n = \ & Q^n(A_{\lambda, n}) \\ = \ & Q^n(\{x \in S^n \mid \prod_{i = 1}^n \frac{d P}{d Q}(x_i) > \lambda\}) \\ = \ & Q^n(\{x \in S^n \mid \frac{1}{n}\sum_{i = 1}^n \log \frac{d P}{d Q}(x_i) > \frac{1}{n} \log \lambda\}) \\ = \ & Q^n(\{x \in S^n \mid \frac{1}{n}\sum_{i = 1}^n \varphi(x_i) > \gamma\}) \end{align}

となります。$K = (\gamma, \infty)$ とおくと

\begin{align} \alpha_n &= Q^n(\{x \in S^n \mid \frac{1}{n}\sum_{i = 1}^n \varphi(x_i) \in K\}) \\ &= (\mu_*Q)^n(\{y \in \mathbb{R}^n \mid \frac{1}{n}\sum_{i = 1}^n y_i \in K\}) \end{align}

となります。ここで、

\begin{align} \Theta_Q(s) &= \log \int_\mathbb{R} e^{sx} d (\varphi_*Q)\\ &= \log\int_S e^{s \log \frac{dP}{dQ}} d Q \\ &= \log\int_S \left(\frac{dP}{dQ} \right)^s dQ \end{align}

なので $\Theta_Q(s)$ は $[0, 1]$ で有界であり、$(0, 1)$ で滑らかで、

$$\frac{d}{ds}\Theta_Q(s) = \frac{ \int_S \left(\frac{dP}{dQ} \right)^s \log \frac{dP}{dQ} dQ}{\int_S \left(\frac{dP}{dQ} \right)^s dQ}$$

となります。また、

\begin{align} \lim_{s \to 0+0}\frac{d}{ds}\Theta_Q(s) &= y_0, \\ \lim_{s \to 1-0}\frac{d}{ds}\Theta_Q(s) &= y_1 \end{align}

となります。従って任意の $0 < \delta < y_1 -\gamma$ に対して、$\overline{s}_{\delta} \in (0, 1)$ で $\gamma +\delta = \frac{d}{ds}\Theta_Q(\overline{s}_{\delta})$ を満たすものが存在します。このとき、

$$\Theta_Q^*(\gamma + \delta) = \overline{s}_{\delta}(\gamma + \delta) -\Theta_Q(\overline{s}_{\varepsilon}) < \infty$$

を満たします。$\gamma + \delta \in K$ なので、クラメールの定理から

$$\lim_{n \to \infty}\frac{1}{n}\log\alpha_n = -\inf_{y \in K}\Theta_Q^*(y)$$

が成り立ちます。ここで、$\lim_{s \to 0+0}\frac{d}{ds}\Theta_Q(s) = y_0$ から

\begin{align} \lim_{y \to y_0+0}\Theta_Q^*(y) &= \lim_{\substack{y \to y_0+0, \\ s \to 0+0}}s y -\Theta_Q(s)\\ &=0 \end{align}

が成り立つので、$\Theta_Q^*$ が非負凸関数であることから、

$$-\inf_{y \in K}\Theta_Q^*(y) = -\Theta_Q^*(\gamma)$$

が成り立ちます。よって

$$\lim_{n \to \infty}\frac{1}{n}\log\alpha_n = -\Theta_Q^*(\gamma)$$

となります。$\beta_n$ についても、

\begin{align} \Theta_P(s) &= \log\int_{\mathbb{R}} e^{sx} d (\varphi_* P) \\ &= \log \int_{S} e^{s \log \frac{d P}{d Q}} dP \\ &= \log \int_{S} \left(\frac{d P}{d Q}\right)^s dP \\ &=\log \int_{S} \left(\frac{d P}{d Q}\right)^s \frac{dP}{dQ} dQ \\ &= \Theta_Q(s + 1) \end{align}

であることから同様に

$$\lim_{n \to \infty}\frac{1}{n}\log\beta_n = -\Theta_P^*(\gamma)$$

が成り立ちます。

ここで、

\begin{align} \Theta_P^*(\gamma) = \ & \sup_{s \in \mathbb{R}} \{s\gamma -\Theta_P(s)\} \\ = \ & \sup_{s \in \mathbb{R}} \{s\gamma -\Theta_Q(s+1)\} \\ = \ & \sup_{s \in \mathbb{R}} \{s\gamma -\Theta_Q(s+1)\} \\ = \ & -\gamma + \sup_{s \in \mathbb{R}} \{(s + 1)\gamma -\Theta_Q(s+1)\} \\ = \ & -\gamma + \Theta^*_Q(\gamma) \end{align}

となります。従って、

\begin{align} \lim_{n \to \infty} \frac{1}{n} \log \beta_n &= \gamma -\Theta_Q^*(\gamma) \end{align}

が成り立ちます。

最後に、$y_1 < \infty$ の場合、$y_1 = \int_S \varphi d Q$ なので $\varphi$ は $Q$ に関して可積分です。よって sanov の定理 (の拡張) から、任意の $y \in \mathbb{R}$ に対して

$$\Theta_Q^*(y) = \inf_{\nu \in \hat{\varphi}^{-1}(y)} D_{KL} (\nu || Q)$$

が成り立ちます。従って

\begin{align} \lim_{n \to \infty} \frac{1}{n} \log \alpha_n &= -\inf_{\nu \in \hat{\varphi}^{-1}(\gamma)} D_{KL}(\nu || Q) \\ \lim_{n \to \infty} \frac{1}{n} \log \beta_n &= \gamma -\inf_{\nu \in \hat{\varphi}^{-1}(\gamma)} D_{KL}(\nu || Q) \end{align}

となります。$\Box$

第 2 種誤り確率の漸近挙動

次に、各 $n$ に対して $\alpha_n < \varepsilon$ を満たすように閾値 $\lambda_n$ を任意にをとり、$\beta_n$ がどれだけ速く $0$ に収束するかを調べます。閾値を大きくとれば $\alpha_n$ は大きく、$\beta_n$ は小さくなります。よって閾値は $\alpha_n < \varepsilon$ を満たす条件のもと可能な限り大きなものをとることを想定し、

$$\beta_n^{\varepsilon} = \inf_{\substack{\lambda_n > 0, \\ \alpha_n < \varepsilon} } \beta_n$$

とおきます。このとき、以下の定理が成り立ちます。

定理. (Stein の補題)

任意の $\varepsilon > 0$ に対して

$$\lim_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} = -D_{KL}(Q || P)$$

が成り立つ.

証明)$P$ は $Q$ に絶対連続であるとします。閾値を $\lambda_n$ とすると、

\begin{align} \beta_n &= P^n(A_{n, \lambda_n}^c)\\ &= \int_{S^n} 1_{\{\frac{dP^n}{dQ^n}(x) \leq \lambda_n\}} d P^n \\ &= \int_{S^n} 1_{\{\frac{dP^n}{dQ^n}(x) \leq \lambda_n\}} \frac{d P^n}{d Q^n} d Q^n \\ & \leq \lambda_n \end{align}

となります。先ほどの補題から、任意の $y_0 < \gamma < 0$ に対して閾値を $\frac{1}{n} \log \lambda_n = \gamma$ を満たすようにとれば、

$$\lim_{n \to \infty}\alpha_n = e^{-n \Theta_Q^*(\gamma)}$$

となります。よって $N_{\gamma} > 0$ を十分大きくとれば、$n > N_{\gamma}$ のとき $\alpha_n < \varepsilon$ を満たします。このとき、

$$\frac{1}{n} \log \beta_n^{\varepsilon} \leq \frac{1}{n} \log \beta_n \leq \gamma$$

が任意の $y_0 < \gamma < 0$ に対して成り立つので、

$$\limsup_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} \leq y_0$$

が成り立ちます。

$y_0 = -\infty$ の場合、

$$\limsup_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} = -\infty$$

となります。

$y_0 > -\infty$ の場合、閾値 $\lambda_n$ に対して $\gamma_n = \frac{1}{n} \log \lambda_n$ とおき、$U_n: S^n \to \mathbb{R}$ を

$$U_n(x) = \frac{1}{n}\sum_{i=1}^n \log \frac{dP}{dQ}(x_i)$$

とおきます。もし $\liminf_{n \to \infty} \gamma_n < y_0$ を満たすとすると、大数の弱法則から任意の $\delta > 0$ に対して

$$\lim_{n \to \infty}Q^n(\{x \in S^n \mid \big| y_0 -U_n(x) \big| < \delta\}) = 1$$

が成り立つので、

\begin{align} \limsup_{n \to \infty} \alpha_n &= \limsup_{n \to \infty} Q^n(\{x \in S^n \mid U_n > \gamma_n\})\\ &= 1 \\ \end{align}

となり、仮定に反します。よって

$$\liminf_{n \to \infty}\gamma_n \geq y_0$$

として良いです。再び大数の法則から、任意の $\eta > 0$ と任意の $\delta > 0$ に対して $N > 0$ が存在して、

$$Q^n(\{x \in S^n \mid U_n(x) \geq y_0 -\eta\}) > 1 -\delta$$

が成り立ちます。このとき

\begin{align} & Q^n(\{x \in S^n \mid U_n(x) \geq y_0 -\eta\}) \\ = \ & Q^n(\{x \in S^n \mid y_0 -\eta \leq U_n(x) \leq \gamma_n)\}) + \alpha_n \end{align}

なので、

\begin{align} Q^n(\{x \in S^n \mid y_0 -\eta \leq U_n(x) \leq \gamma_n)\}) &> 1 -\delta -\alpha_m \\ &> 1 -\delta -\varepsilon \end{align}

となります。$\delta$ は任意なので、

$$\liminf_{n \to\infty} Q^n(\{x \in S^n \mid y_0 -\eta \leq U_n(x) \leq \gamma_n)\} \geq 1 -\varepsilon$$

が成り立ちます。このとき、

\begin{align} \beta_n &= \int_{A_{n, \lambda_n}^c}d P^n \\ &= \int_{A_{n, \lambda_n}^c} \frac{d P^n}{d Q^n} dQ^n \\ &= \int_S 1_{U_n \leq \gamma_n} e^{n U_n} dQ^n \\ & \geq \int_S 1_{y_0 -\eta \leq U_n \leq \gamma_n} e^{n U_n} dQ^n \\ & \geq e^{n(y_0 -\eta)} Q^n(\{x \in S^n \mid y_0 -\eta \leq U_n(x) \leq \gamma_n)\} \end{align}

なので、

$$\frac{1}{n} \log \beta_n \geq y_0 -\eta +\frac{1}{n} \log Q^n(\{x \in S^n \mid y_0 -\eta \leq U_n(x) \leq \gamma_n\})$$

が成り立ちます。よって

$$\liminf_{n \to \infty} \frac{1}{n} \log \beta_n \geq y_0 -\eta $$

であり、右辺は閾値 $\lambda_n$ によらないことと、$\eta > 0$ が任意であることから、

$$\liminf_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} \geq y_0$$

が成り立ちます。従って

$$\lim_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} = y_0 = -D_{KL}(Q||P)$$

となります。

最後に $P$ が $Q$ に絶対連続でない場合を考えます。$P$ を $Q$ に関して絶対連続な測度 $P_{ac}$ と特異な測度 $P_s$ に分解し、$N \subset S$ を $Q(N) = 0$ を満たし、任意の $E \subset S \setminus N$ に対して $P_s(E) = 0$ を満たすものとします。

$P_{ac}(S) = 0$ のとき、$P_s(S \setminus N) = 0$ かつ $Q(S \setminus N) = 1$ なので、

$$D_{KL}(Q || P) = D_{KL}(Q || P_s) = \infty$$

となります。$T_n = \{N, N^c\}$ とおけば、$\alpha_n = Q^n(N) = 0$、$\beta_n = P^n(N^c) = 0$ なので、$\beta_n^{\varepsilon} = 0$ となります。よって

$$\lim_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} = -\infty$$

となります。

$P_{ac}(S) \neq 0$ のとき、$P_{ac}(S) = a$ とおき、$\overline{P} = \frac{1}{a} P_{ac}$ とおくと $\overline{P}$ は確率測度になります。$Q$ を帰無仮説、$\overline{P}$ を対立仮説とする検定 $\overline{T}_n$ における第1種誤り確率を $\overline{\alpha}_n$、第2種誤り確率を $\bar{\beta}_n$ とおき、

$$\overline{\beta}_n^{\varepsilon} = \inf_{\substack{\lambda_n > 0, \\ \overline{\alpha}_n < \varepsilon}} \overline{\beta}_n$$

とおくと、$\overline{P}$ は $Q$ に絶対連続なので

$$\lim_{n \to \infty} \frac{1}{n} \log \overline{\beta}_n^{\varepsilon} = -D_{KL}(Q||\overline{P})$$

が成り立ちます。$\overline{T}_n = \{A, A^c\}$ に対して、$T_n = \{A \cup N, A^c \cap N^c\}$ とおくと、

\begin{align} \alpha_n &= Q^n(A \cup N) \\ &= Q^n(A) \\ &= \overline{\alpha}_n, \\ \\ \beta_n &= P^n(A^c \cap N^c) \\ &= P_{ac}^n(A^c)\\ &= a^n \overline{P}^n(A^c)\\ &= a^n \overline{\beta}_n \end{align}

が成り立ちます。ネイマン・ピアソンの補題から、$\overline{T}_n$ は尤度比検定に限定してよく、$T_n$ は上記の取り方をして問題ありません (こう取らなければ、$P_s$ の分 $\beta_n$ が大きくなります)。よって

$$\lim_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} = \log a + \lim_{n \to \infty} \frac{1}{n} \log \overline{\beta}_n^{\varepsilon}$$

が成り立ちます。

$D_{KL}(Q || \overline{P}) = \infty$ のとき、

$$\lim_{n \to \infty} \frac{1}{n} \log \overline{\beta}_n^{\varepsilon} = -\infty$$

なので

$$\lim_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} = -\infty$$

となります。

$D_{KL}(Q || \overline{P}) < \infty$ のとき、任意の $A \in \mathcal{B}_S$ に対して

\begin{align} \int_A \frac{d Q}{d \overline{P}} d \overline{P} &= \int_A dQ \\ &= \int_A \frac{d Q}{d P_{ac}} d P_{ac} \\ &= \int_A a\frac{d Q}{d P_{ac}} d \overline{P} \\ \end{align}

なので、$\frac{d Q}{d \overline{P}} = a\frac{d Q}{d P_{ac}}$ が成り立ちます。よって

\begin{align} D_{KL}(Q || \overline{P}) &= \int_S \log \frac{d Q}{d \overline{P}} dQ \\ &= \int_S \log a \frac{d Q}{d P_{ac}} dQ \\ &= \log a +\int_S \log \frac{d Q}{d P_{ac}} dQ \\ \end{align}

となります。ここで、任意の $A \in \mathcal{B}_S$ に対して

\begin{align} Q(A) &= \int_A \frac{d Q}{d P} dP \\ &= \int_A \frac{d Q}{d P} dP_{ac} + \int_A \frac{d Q}{d P} dP_{s} \\ &= \int_A \frac{d Q}{d P} dP_{ac} + \int_{A \cap N} \frac{d Q}{d P} dP_{s} \\ \end{align}

となりますが、$Q(N) = 0$ なので $N$ 上で $\frac{d Q}{d P} = 0$ です。よって $P_{ac}$-a.e で $\frac{d Q}{d P_{ac}} = \frac{d Q}{d P}$ となります。$Q$ は $P_{ac}$ に対して絶対連続なので、$Q$-a.e でも $\frac{d Q}{d P_{ac}} = \frac{d Q}{d P}$ となります。よって

\begin{align} D_{KL}(Q || \overline{P}) &= \log a +\int_S \log \frac{d Q}{d P_{ac}} dQ\\ &= \log a +\int_S \log \frac{d Q}{d P} dQ \\ &= \log a + D_{KL}(Q || P) \end{align}

が成り立ちます。従って

\begin{align} \lim_{n \to \infty} \frac{1}{n} \log \beta_n^{\varepsilon} &= \log a + \lim_{n \to \infty} \frac{1}{n} \log \overline{\beta}_n^{\varepsilon} \\ &= \log a -D_{KL}(Q || \overline{P}) \\ &= -D_{KL}(Q || P) \end{align}

が成り立ちます。以上で定理が示されました。$\Box$

KL ダイバージェンス最小化の意味

統計的推論においては、$Q$ を真の分布、$P_{w}$ をパラメータ付けされた確率分布としたとき、KL ダイバージェンス $D_{KL}(Q || P_w)$ を最小化する $w$ を選択するという方針を取られます。これを stein の補題を元に考察すると、$Q$ を帰無仮説、$P_w$ を対立仮説とする仮説検定のうち、第1種誤り確率を一定以下に抑える条件 ($\alpha_n < \varepsilon$) のもとで第2種誤り確率が最も小さいもの (つまり $\beta_n^{\varepsilon}$) を選んだときに、第2種誤り確率の収束の速さが最も遅い $w$ を選ぶ、ということになります。補足すると、stein の補題から

$$\beta_n^{\varepsilon} = e^{-n D_{KL}(Q || P) +\omicron(n)}$$

なので、$D_{KL}(Q || P)$ が大きいほど $\beta_n^{\varepsilon}$ は小さく、逆に $D_{KL}(Q || P)$ が小さいほど $\beta_n^{\varepsilon}$ は大きくなります。よって $D_{KL}(Q || P)$ が小さいほど $\beta_n^{\varepsilon}$ はゆっくり $0$ に収束します。

ここで、真の分布 $Q$ を帰無仮説とするのは少し不自然と思われるかもしれませんが、仮説検定において $P$ と $Q$ の扱いは数学的には対称的であり、どちらを帰無仮説とするかは統計学における便宜上の問題でしかありません。第1種誤り、第2種誤りの意味を考えるとスッキリすると思います。第1種誤りは、本当は $Q$ なのに $P$ と判断してしまう誤りのことで、$Q$ が正しいとわかっている状況においては無視して問題ありません。第2種誤りは、本当は $P$ なのに $Q$ と判断してしまう誤りのことで、この確率が十分小さくないと、検定が正しくなされたとは言えません。逆に言えば、第2種誤りが十分小さければ、$P$ が真の分布ではないと判断することができます。

$P$ が真の分布ではないと判断する、つまり第2種誤りを十分小さくするのに、サンプル数がたくさん必要な分布ほど良い分布であるという考えが、KL ダイバージェンス最小化により分布を決定する根拠になります。標語的には、$Q$ を最もよくシミュレートする $P_w$ を選択する、あるいは $P_w$ を $Q$ と偽ってもバレるのが最も遅い $P_w$ を選択するということができます。

まとめ

ネイマン・ピアソンの補題と stein の補題を証明し、KL ダイバージェンス最小化の意味を仮説検定の漸近挙動の観点から説明しました。仮説検定の漸近挙動は平均から外れたところでの漸近挙動を扱うので、大偏差原理が本質的に関わってきます。stein の補題の証明自体はクラメールの定理のみで十分ですが、クラメールの定理のみだと KL ダイバージェンスが現れる理由が理解しがたいです。KL ダイバージェンスは $S$ 上の確率測度全体 $\mathcal{P}(S)$ において定義されるものであり、その根拠は $\mathcal{P}(S)$ 上の大偏差原理である sanov の定理 (とその拡張) にあります。問題設定を変えて、第1種誤り確率が $0$ に収束する速さが一定以上であるという条件のもと第2種誤り確率をどれだけ小さくできるか、という問題 (Hoeffding 型の問題) を考えると、sanov の定理が必要になります [YC]

sanov の定理の証明は以下の記事に書いていますので、興味があればご一読ください。

参考文献

[AO] Amir Dembo, Ofer Zeitouni. Large Deviations Techniques and Applications

[H] Clifford Hurvich. THE NEYMAN-PEARSON LEMMA

[YC] Pengfei Yang, Biao Chen. Robust Kullback-Leibler Divergence and Universal Hypothesis Testing for Continuous Distributions

[wiki] ネイマン・ピアソンの補題