統計的仮説検定とクラメールの定理

統計的仮説検定は、仮説を正しいとした場合の期待値と実際の期待値のずれ具合により、仮説が正しいかどうかを検証する手法です。大偏差原理は期待値から外れる確率の漸近的な挙動を記述するものであり、仮説検定に応用できるのではないかと思いました。本記事では大偏差原理の一番簡単な例であるクラメールの定理を応用できるケースを紹介します。

クラメールの定理の証明は測度論の知識を仮定します。測度論が気になる方は以下の記事をご一読ください。

【ルベーグ積分】測度論が難しいのは全体像を俯瞰しにくいからではないか?

統計的仮説検定

統計的仮説検定とは

$\Omega = (\Omega, \mathfrak{F}, P)$ を確率空間とします。つまり、$P(\Omega) = 1$ を満たす測度空間とします。

統計的仮説検定 (あるいは、統計的検定、仮説検定) とは、$\Omega$ の分割

$$\Omega = A \cup (\Omega \setminus A) \quad (A \in \mathfrak{F} \setminus \{\emptyset, \Omega\})$$

を与える事です。もう少し説明すると、ある仮説 $\mathcal{H}$ があったとして、それが正しい場合に低確率でしか発生しないであろう事象 $A$ $(\in \mathfrak{F})$ を一つ固定し、事象 $A$ が発生すれば仮説 $\mathcal{H}$ は正しくない、とする事です。$A$ を仮説を棄却する領域という意味で棄却域と言います。

場合によっては $A$ の取り方だけでなく確率空間 $(\Omega, \mathfrak{F}, P)$ 自体も問題に応じて決める必要があります。

また、$A$ が発生した場合に、仮説が正しくないことは言えますが、$A$ が発生しなかったからといって仮説が正しいとは言えません。

この説明だけでは、何が何だかわからないと思うので、具体例を考えましょう。

コイン投げ

あるコインを投げて、表が出る確率と裏が出る確率が同じであることを統計的に調べる方法を考えましょう。

まずは状況を数学的に表現しましょう。コインの表が出ることを $H$ (headの略)、裏が出ることを $T$ (tailの略) とし、$\Omega = \{H, T\}$ とします。$\mathfrak{F} = 2^{\Omega}$ (= $\Omega$ の部分集合全体の集合) とし、表が出る確率を $P(\{H\}) = p$ 、裏が出る確率を $P(\{T\}) = 1 -p$ とおくと、$(\Omega, \mathfrak{F}, P)$ は確率空間になります。

ここで、

$$\textrm{仮説} : p = 0.5$$

として、この仮説を検定しましょう。発生確率が低い事象 $A \in \mathfrak{F}\setminus \{\emptyset, \Omega\}$ を選びたいのですが、$A$ の候補としては $\{H\}$, $\{T\}$ しかなく、どちらも確率が $0.5$ なので不適切です。そこで、コインを $n$ 回投げることを考えましょう。

$n$ 回のコイン投げ

コインを $n$ 回投げることは、それぞれが独立であると仮定すれば、$\Omega$ の $n$ 個の直積

$$\Omega^n = (\prod_{i = 1}^n \Omega, 2^{(\prod_{i = 1}^n \Omega)}, P^{\otimes n})$$

を考えることに対応します。例えば $n=3$ として、コインが表、裏、裏と出ることは、

$$\omega = (H, T, T) \in \Omega^3$$

に対応し、その確率は

$$P^{\otimes 3}(\omega) = P(H)P(T)P(T) = p(1-p)^2$$

となります。

確率変数 $X_n: \Omega^n \to \mathbb{R}$ を

$$X_n(\omega) = \frac{\# \{i \mid \omega_i = H\}}{n} $$

と定義します。ここで $\omega_i$ は $i$ 回目のコインの表裏の値であり、$\#$ は集合の濃度を表します。つまり、$X_n$ は $(\textrm{表が出た回数}) / n$ を意味します。

棄却域 $A$ の取り方

仮説: $p = 0.5$ が正しければ、$X_n$ はおおよそ $0.5$ に近い値になることが期待されます。よって、

$$A = \{\omega \in \Omega^{20} \mid |X_n(\omega) -0.5 | \geq \varepsilon \}$$

とおいてみましょう。仮説: $p = 0.5$ の元で、$P^{\otimes n}(A)$ が十分小さくなって欲しいです。$\varepsilon$ を大きくすれば確率 $P^{\otimes n}(A)$ は小さくなりますが、どのくらい大きくすれば良いでしょうか。

とりあえず $n=20$ とし、$P^{\otimes 20}(A) \leq 0.05$ となるように $\varepsilon$ を求めてみましょう。唐突ですが、仮説: $p = 0.5$ の元で 20 回コインを投げて 15 回以上表が出る確率は

\begin{align} & \frac{ {}_{20}C_{20} + {}_{20}C_{19} + {}_{20}C_{18} + {}_{20}C_{17} + {}_{20}C_{16} + {}_{20} C_{15}}{2^{20}} \\ =& \frac{1 + 20 + 190 + 1140 + 4845 + 15504}{1048576} \\ < & 0.0207 \end{align}

となります。表が5回以下しか出ない確率も同様で、合わせて $0.05$ 以下です。この時、

$$|X_{20}(\omega) -0.5 | \ge \frac{15}{20} -0.5 = 0.25$$

なので、$\varepsilon = 0.25$ とおけば十分です。

整理すると、コインを 20 回投げたとして、仮説: $p = 0.5$ が正しければ、15 回以上表が出るまたは表が 5 回以下しかでない確率は 5 %以下となります。これを言い換えると、

$$A = \{\omega \in \Omega^{20} \mid |X_{20}(\omega) -0.5 | \geq 0.25\}$$

に対して $P(A) < 0.05$ となります。

仮説: $p = 0.5$ の検定

統計的検定はこの状況において、もしコインを 20 回投げて、15 回以上表が出たまたは表が5回以下しかでなかった場合、つまり $\omega \in A$ だった場合は、(5 %しか起きない事象が発生したので) 仮説: $p = 0.5$ を棄却する、という手続きを意味します。

ここで、5 %という値には特に理論的な意味はありません。仮説: $p = 0.5$ が正しくても、検定の時にたまたま 5 %を引いてしまう可能性があります。状況に即して適切な値を決めれば良いです。また、棄却域の確率 $P^{\otimes n}(A)$ が十分小さいだけでは、検定が妥当であるとはいえません。例えば、

$$A^{\prime} = \{\omega \in \Omega^{20} \mid X_{20} = \frac{3}{10}\}$$

とおくと、$A^{\prime}$ は表がちょうど 6 回出る事象を表し、$P(A^{\prime}) < 0.05$ を満たしますが、仮説: $p = 0.5$ を検定するのに適切ではありません。$p=1$ の場合、つまり必ず表が出るコインに対して仮説を棄却できないからです。

検出力

統計的検定の良さを評価するにおいて、正しい仮説を棄却しないことはもちろん重要ですが、間違った仮説を棄却できるかどうかも重要な観点です。間違った仮説が棄却される確率を検出力と言います。

先ほどの例において、実は $p = 0.6$ だったとします。このとき仮説: $p = 0.5$ が棄却される確率を計算すると、

\begin{align} & \sum_{k = 0}^5 {}_{20}C_{k}p^{k}(1-p)^{20-k} + \sum_{k = 15}^{20} {}_{20}C_{k}(1-p)^{k}p^{20 -k} \\ \fallingdotseq \ & 0.1272 \end{align}

なので検出力は 12.7% 程度しかありません。このとき、二つの問いが考えられます。

  1. $\Omega^{20}$ における棄却域 $A$ を取り替えることで検出力を上げられるか。
  2. $\Omega^{20}$ を取り替えることで検出力を上げられるか。

1. については本記事では触れないことにします。2. については、コイン投げの回数 $n$ を大きくすることが考えられますが、どのくらい大きくすれば十分でしょうか。それに答えるために、クラメールの定理を用います。

クラメールの定理

クラメールの定理は大偏差原理と呼ばれるものの一種であり、期待値から外れたところでの確率の漸近的な振る舞いを記述するものです。統計的検定は期待値からのはずれ具合を尺度とするので、大偏差原理を応用できます。

以下しばらく、クラメールの定理のための準備をします。

モーメント母関数

$\mathfrak{B}(\mathbb{R})$ を $\mathbb{R}$ 上のボレル集合族とし、$\mu$ を $(\mathbb{R}, \mathfrak{B}(\mathbb{R}))$ 上の確率測度とします。まずはモーメントを定義します。

定義. モーメント母関数

$S \subset \mathbb{R}$ を集合とし, 任意の $s \in S$ で以下の積分

$$\int_{\mathbb{R}} e^{sx} d\mu(x)$$

が有限であるとする. このとき, $\mu$ のモーメント母関数 $M_{\mu}: S \to \mathbb{R}$ を

$$M_{\mu}(s) = \int_{\mathbb{R}} e^{sx} d\mu(x)$$

と定義する. $\Box$

$M_{\mu}(0) = 1$ であり、常に $0 \in S$ として良いです。開区間 $(a, b)$ の各点でモーメント母関数が有限であるならば、$s \in (a, b)$ において $\infty$ 回微分が可能です。それを確認しましょう。まず 1 回微分について、

$$\frac{d}{ds} e^{sx} = x e^{sx}$$

なので、$|x e^{sx}|$ が非負可積分関数により上から抑えられれば、ルベーグの収束定理より

$$\frac{d}{ds} M_{\mu}(s) = \int_{\mathbb{R}} xe^{sx} d\mu(x)$$

であることがわかります。よって $|x e^{sx}| \leq g(x)$ を満たす非負可積分関数を構成します。

まず事実として、任意の多項式 $f(x)$ と任意の $\varepsilon > 0$ に対して以下が成り立ちます。

  1. ある $x^{\prime} > 0$ が存在して $x > x^{\prime}$ ならば $|f(x)| < e^{\varepsilon x}$.
  2. ある $x^{\prime \prime} < 0$ が存在して $x < x^{\prime \prime}$ ならば $|f(x)| < e^{-\varepsilon x}$.

$\varepsilon > 0$ を $s + \varepsilon < b$ 満たすようにとれば、十分大きな $x^{\prime} > 0$ に対して

$$|x e^{sx}| < e^{(s + \varepsilon)x} \quad (x > x^{\prime})$$

が成り立ちます。また、$\varepsilon^{\prime}> 0$ を $a < s -\varepsilon^{\prime}$ を満たすようにとれば、十分小さい $x^{\prime\prime} < 0$ に対して

$$|x e^{sx}| < e^{(s -\varepsilon^{\prime})x} \quad (x < x^{\prime\prime})$$

が成り立ちます。仮定から $e^{s + \varepsilon}x$, $e^{s -\varepsilon^{\prime}}x$ は可積分であり、$\sup_{x^{\prime\prime} \leq x \leq x^{\prime}} |xe^{sx}|$ は有限なので、

$$g(x) = \begin{cases} e^{(s + \varepsilon)x} & (x > x^{\prime}) \\ \sup_{x^{\prime\prime} \leq x \leq x^{\prime}} |xe^{sx}|& (x^{\prime\prime} \leq x \leq x^{\prime}) \\ e^{(s -\varepsilon^{\prime})x} & (x < x^{\prime\prime}) \end{cases}$$

とおくと、$g(x)$ は $|x e^{sx}| \leq g(x)$ を満たす非負可積分関数です。よってモーメント母関数の 1 階微分が存在します。任意の階数の微分も同様の議論で存在が証明できます。

ちなみに、$M_{\mu}^{\prime}(0) = \int_{\mathbb{R}} x d\mu(x)$ は $\mu$ の期待値なので、$0$ の近傍でモーメント母関数が有限であれば、$\mu$ の期待値が存在します。

( 補足: $\varphi_{\mu}(t) := M_{\mu}(it)$ を特性関数と言います。$|e^{itx}| \leq 1$ なので、特性関数は常に存在します。特性関数は測度の (符号が異なる) フーリエ変換であり、モーメント母関数は (両側) ラプラス変換です。特性関数が一致すれば元の確率測度も一致することが知られています。モーメント母関数に対しても同様の事実が成り立つようですが、条件を精査できていないので省略します。)

キュムラント母関数

$\mu$ を $(\mathbb{R}, \mathfrak{B}(\mathbb{R}))$ 上の確率測度とします。

定義. キュムラント母関数

$S \subset \mathbb{R}$ の各点で $\mu$ のモーメント母関数 $M_\mu$ が有限であるとする. このとき, キュムラント母関数 $\psi_{\mu}: S \to \mathbb{R}$ を

$$\psi_{\mu}(s) = \log(M_\mu(s))$$

とする. $\Box$

$S = \mathbb{R}$ とします。$\psi_{\mu}$ の微分を計算しましょう。1 階微分は

\begin{align} \frac{d}{ds} \psi_{\mu}(s) &= \frac{\int_{\mathbb{R}} x e^{sx} d\mu(x)}{M_{\mu}(s)} \end{align}

となります。2 階微分は

\begin{align} \frac{d^2}{ds^2} \psi_{\mu}(s) &= \frac{\int_{\mathbb{R}} x^2 e^{sx} d\mu(x)}{M_{\mu}(s)} -\frac{(\int_{\mathbb{R}} xe^{sx} d\mu(x))^2}{M_{\mu}(s)^2} \end{align}

となります。$E \in \mathfrak{B}(\mathbb{R})$ に対して

$$\mu_{s}(E) = \int_E \frac{e^{sx}}{M_{\mu}(s)} d\mu(x)$$

とおくと、$\mu_{s}$ は確率測度であり、

$$\frac{d}{ds} \psi_{\mu}(s) = \int_{\mathbb{R}} x d \mu_s(x)$$

\begin{align} \frac{d^2}{ds^2} \psi_{\mu}(s) & = \int_{\mathbb{R}} x^2 d \mu_s(x) -\left(\int_{\mathbb{R}} x d \mu_s(x) \right)^2 \\ & = \int_{\mathbb{R}} x^2 d \mu_s(x) -2 \int_{\mathbb{R}} x d \mu_s(x) \int_{\mathbb{R}} y d \mu_s(y) + \left(\int_{\mathbb{R}} y d \mu_s(y) \right)^2 \\ & = \int_{\mathbb{R}} \left(x -\int_{\mathbb{R}} y d\mu_s(y) \right)^2 d\mu_s(x) \end{align}

となります。特に $\frac{d^2}{ds^2} \psi_{\mu}(s) \geq 0$ であり、$\psi_{\mu}(s)$ は凸関数になります。

クラメールの定理

クラメールの定理の主張を述べる前に、少し言葉の準備をします。$\Omega = (\Omega, \mathfrak{F}, P)$ を確率空間とします。$\Omega$ 上の確率変数とは $\mathfrak{B}(\mathbb{R})$ 可測写像 $X: \Omega \to \mathbb{R}$ のことです。また、確率変数 $X$ による像測度 $\mu = X_{*} P$ を分布と言います。つまり、$\mu$ は $A \in \mathfrak{B}(\mathbb{R})$ に対して、

$$\mu(A) = P(X^{-1}(A))$$

と定められる $\mathbb{R}$ 上の測度です。

$\{X_k\}_{k=1}^n$ を独立同分布な $\Omega$ 上の確率変数とし、その分布を $\mu$ とします。また、$\Omega$ の $n$ 個の直積を $\Omega^n$、その確率分布を $P^{\otimes n}$ とおきます。このとき、$Y_n = \sum_{k=1}^n X_k / n$ は $\Omega^n$ 上の確率変数であり、その分布を $\mu_n$ $(= {Y_n}_{*} P^{\otimes n})$ とおきます。

定理. クラメールの定理

$(\Omega, \mathfrak{F}, P)$ を確率空間, $X: \Omega \to \mathbb{R}$ を確率変数とし, $\mu$ を $X$ の分布とする. また, $\mu$ のモーメント母関数が任意の $s \in \mathbb{R}$ で有限であるとする. このとき, キュムラント母関数 $\psi_{\mu}(s)$ のルジャンドル変換を

$$I(x) = \sup_{s \in \mathbb{R}}\{sx -\psi_{\mu}(s)\}$$

とおくと, 任意の開集合 $A \in \mathbb{R}$ に対して

$$\lim_{n \to \infty} \frac{1}{n} \log \mu_n(A) = -\inf_{x \in A} I(x)$$

が成り立つ. $\Box$

ルジャンドル変換について補足すると、以下が成り立ちます。

  • $\psi_{\mu}(s)$ が滑らかな凸関数なので $I(x)$ は滑らかな凸関数になる。
  • 右辺の $\sup$ を達成するのは $x = \psi^{\prime}(s)$ を満たす $s$ のみである。
  • $p = \int_{\mathbb{R}} x d\mu(x)$ とおくと $I(p)$ を達成するのは $s = 0$ のときであり、そのとき $I(p) = 0$ が成り立つ。
  • $I^{\prime}(x)$ は $x$ において $\sup$ を達成する $s$ と一致するので、$I(x)$ は $x = p$ で最小値を取り、$I(x) \geq 0$ となる。

ルジャンドル変換のこれらの性質については以下の記事に証明を書いています。

【情報幾何学】m測地線は確率モデルと独立に定まらないのか

証明の前に定理の意味を説明すると、$n$ を大きくすると $\mu_n(A)$ が概ね

$$e^{-n \inf_{x \in A} I(x)}$$

に従うということです。$p \in A$ ならば $I(x) = 0$ なので上記の値は $1$ になります。$p \notin A$ ならば上記の値は $n$ が大きくなるほど小さくなりますが、小さくなる速さが $\inf_{x \in A} I(x)$ で与えられます。そしてその速さは $I(x)$ のある $1$ 点の値で定まっています。

クラメールの定理は次の方針で証明します。まず、任意の $A \in \mathfrak{B}(\mathbb{R})$ に対して、$A^{\circ}$ を $A$ の内点集合、$\bar{A}$ を $A$ の閉包として

$$-\inf_{x \in A^{\circ}} I(x) \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n(A) \leq \limsup_{n \to \infty} \frac{1}{n} \log \mu_n(A) \leq -\inf_{x \in \bar{A}} I(x)$$

を示します。$A$ が開集合なら、$I(x)$ が連続であることから

$$\inf_{x \in A^{\circ}} I(x) = \inf_{x \in \bar{A}} I(x)$$

なので、定理の主張が示されます。実は $A$ が開集合であるという条件は弱めることができます。

以下、クラメールの定理の証明を行います。

クラメールの定理の証明

[上からの評価]:

$$\limsup_{n \to \infty} \frac{1}{n} \log \mu_n(A) \leq -\inf_{x \in \bar{A}} I(x)$$

を示します。まず $p \in A$ の場合、(右辺) $= 0$ であり、左辺は常に $0$ 以下なので上記の式が成り立ちます。以下、$p \notin A$ とします。$p < a$ として $A = [a, \infty)$ の場合、$I(x)$ が凸関数で $x = p$ で最小値 $0$ をとることから、

$$\inf_{x \in A} I(x) = I(a)$$

です。また、任意の $s > 0$ に対して

$$\mu_n(A) = P^{\otimes n}(X > a) = P^{\otimes n}(e^{sX} > e^{sa})$$

なので、マルコフの不等式から

\begin{align} P^{\otimes n}(e^{sX} > e^{sa}) & \leq \frac{\int_{\Omega^n} e^{sX} dP^{\otimes n}}{e^{sa}} \\ &= e^{-sa} \int_{\Omega^n} e^{s(\frac{X_1 + \cdots + X_n}{n})} dP^{\otimes n} \\ &= e^{-sa} (\int_{\Omega} e^{s \frac{X_1}{n}} dP)^n \\ &= e^{-sa} (\int_{\mathbb{R}} e^{\frac{s}{n}x} d\mu(x))^n \\ &= e^{-sa} e^{n \psi_{\mu}(\frac{s}{n})} \\ &= e^{-n(\frac{s}{n}a -\psi_{\mu}(\frac{s}{n}))} \end{align}

が成り立ちます。$p < a$ から $0 = I^{\prime}(p) < I^{\prime}(a)$ なので

$$\sup_{s \in \mathbb{R}}\{sa -\psi_{\mu}(s)\} = \sup_{s > 0}\{sa -\psi_{\mu}(s)\} = I^{\prime}(a)a -\psi_{\mu}(I^{\prime}(a))$$

が成り立ち、$\frac{s}{n} = I^{\prime}(a)$ とすることで

$$\mu(A) \leq e^{-nI(a)} = e^{-n \inf_{x \in A}I(x)}$$

となります。$A = (-\infty, b]$, $(b < p)$ の場合も適当に符号を置き換えることで同様に示せます。

一般の $p$ を含まない閉集合 $A$ に対しては、$b < p < a$ を満たす $a, b$ が存在し、$A \subset (-\infty, b] \cup [a, \infty)$ が成り立つので、$A = (-\infty, b] \cup [a, \infty)$ として示せば十分です。このとき、

$$\mu_n(A) \leq e^{-n I(b)} + e^{-n I(a)} $$

ですが、

\begin{align} -\min\{I(b), I(a)\} = \ & \frac{1}{n} \log (\max\{e^{-nI(b)}, e^{-nI(a)}\}) \\ \leq \ & \frac{1}{n} \log(e^{-n I(b)} + e^{-n I(a)}) \\ \leq \ & \frac{1}{n} \log (2 \max\{e^{-nI(b)}, e^{-nI(a)}\}) \\ = \ & -\min\{I(b), I(a)\} + \frac{1}{n}\log(2) \end{align}

なので

$$\lim_{n \to \infty} \frac{1}{n} \log(e^{-n I(b)} + e^{-n I(a)}) = -\min\{I(b), I(a)\} = -\inf_{x \in A}I(x)$$

が成り立ちます。よって

$$\limsup_{n \to \infty} \frac{1}{n}\log \mu_n(A) \leq -\inf_{x \in A}I(x)$$

が成り立ちます。一般の $A \in \mathfrak{B}(\mathbb{R})$ に関しては $\bar{A}$ に対して同様の議論により示されます。

[下からの評価]:

$$-\inf_{x \in A^{\circ}} I(x) \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n(A)$$

を示します。そのためには、任意の $x \in A^{\circ}$ と任意の $\delta > 0$ に対して

$$-I(x) \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((x -\delta, x + \delta))$$

が成り立つことを示せば十分です。それを確認しましょう。左辺の $\inf$ を達成する $x$ が $A^{\circ}$ に存在する場合は明らかです。$\inf$ を達成する $x$ が $A^{\circ}$ に存在しなくても、$I(x)$ が連続な凸関数なので境界 $\partial A$ に $\inf$ を達成する $x$ が存在します。その $x$ に対してある $\delta > 0$ が存在して $(x, x + \delta) \subset A^{\circ}$ または $(x -\delta, x) \subset A^{\circ}$ が成り立ちます。$(x, x + \delta) \subset A^{\circ}$ の場合、任意の $\varepsilon > 0$ に対して十分小さい $\delta > 0$ が存在して

$$-I(x) \leq -I(x+ \frac{\delta}{2}) + \varepsilon \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((x, x + \delta)) + \varepsilon$$

が成り立ちますが、$\varepsilon$ は任意なので

\begin{align} -I(x) & \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((x, x + \delta)) \\ & \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n(A) \end{align}

が成り立ちます。$(x -\delta, x) \subset A^{\circ}$ の場合も同様です。

また、任意の $x \in \mathbb{R}$ に対して、確率変数を $Y = X -x$ に置き換えると、$Y$ のキュムラント母関数は

\begin{align} \psi_Y(s) &= \log \int_{\mathbb{R}} e^{s(y-x)} d\mu(y) \\ &= -sx +\log \int_{\mathbb{R}} e^{sy} d\mu(y) \\ &= \psi(s) -sx \end{align}

で与えられ、そのルジャンドル変換は

$$I_Y(y) = \sup_{s \in \mathbb{R}}\{sy -\psi(s) +sx\} = I(x + y)$$

となります。このとき $Y$ の分布を $\nu$ とおくと、

\begin{align} && -I_Y(0) &\leq \liminf_{n \to \infty} \frac{1}{n} \log \nu_n((-\delta, \delta)) \\ & \Longleftrightarrow & -I(x) &\leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((x -\delta, x +\delta)) \end{align}

となるので、

$$-I(0) \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta)) \tag{*}$$

を示せば十分です。

式 $(*)$ を示します。任意の $s \in \mathbb{R}$ に対して

\begin{align} & \mu_n((-\delta, \delta)) \\ = \ & P^{\otimes n}(|X| < \delta) \\ = \ & \int_{\{|X(\omega)| < \delta\}} 1 d P^{\otimes n}(\omega) \\ \geq \ & \int_{\{|X(\omega)| < \delta\}} \frac{e^{n s X}}{e^{n s \delta}} d P^{\otimes n}(\omega) \\ = \ &e^{-n s \delta} \int_{\{|X(\omega)| < \delta\}} e^{s \sum_{i=1}^n X_i} d P^{\otimes n}(\omega) \\ = \ & e^{-n s \delta} \int_{\{|\frac{1}{n}\sum_{i=1}^n y_i | < \delta\}} e^{s \sum_{i=1}^n y_i} d \mu_n \end{align}

となります。$E \in \mathfrak{B}(\mathbb{R})$ に対して $\mu_{s}(E) = \int_E \frac{e^{y s}}{e^{\psi_{\mu}(s)}}d \mu(y)$ とおくと、$\mu_{s}$ は確率測度であり、$\mu_{s}$ の $n$ 個の直積を $\mu_{s}^{\otimes n}$ とおくと、

\begin{align} & e^{-n s \delta} \int_{\{|\frac{1}{n}\sum_{i=1}^n y_i| < \delta\}} e^{s \sum_{i=1}^n y_i} d \mu_n \\ = \ & e^{-n s \delta +n \psi_{\mu}(s)} \int_{\{|\frac{1}{n}\sum_{i=1}^n y_i | < \delta\}} 1 d \mu_{s}^{\otimes n} \\ = \ &e^{-n (s \delta -\psi_{\mu}(s))} \mu_{s}^{\otimes n}(\{|\frac{1}{n}\sum_{i=1}^n y_i | < \delta\}) \end{align}

となります。よって

\begin{align} & \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta)) \\ \geq & -s\delta + \psi_{\mu}(s) + \liminf_{n \to \infty}\frac{1}{n} \log \left(\mu_{s}^{\otimes n}(\{|\frac{1}{n}\sum_{i=1}^n y_i| < \delta\})\right) \end{align}

となります。ここで、$\mu_{s}$ はモーメントを計算すると、

\begin{align} M_{\mu_s}(s^{\prime}) &= \int_S e^{s^{\prime}} d\mu_s \\ &= \int_S e^{s^{\prime}} \frac{e^s}{e^{\psi_{\mu}(s)}} d\mu \\ &= e^{-\psi_{\mu}(s)}M_{\mu}(s^{\prime} +s) \\ & < \infty \end{align}

なので、$\int_{\mathbb{R}} y^2 \mu_{s} < \infty$ であり、有限の分散を持ちます。

$I(x) = -\psi_{\mu}(\bar{s})$ を満たす $\bar{s} \in \mathbb{R}$ が存在するとします。$\mu_s$ の期待値を計算すると、

\begin{align} \int_{\mathbb{R}} y d \mu_{\bar{s}}(y) &= \int_{\mathbb{R}} \frac{y e^{y \bar{s}}}{e^{\psi_{\mu}(\bar{s})}}d \mu(y) \\ &= \psi_{\mu}^{\prime}(\bar{s}) \\ &= 0\end{align}

が成り立ちます (最後の等式はルジャンドル変換の性質から導かれます)。大数の法則から

$$\lim_{n \to \infty} \mu_{\bar{s}}^{\otimes n} (\{|\frac{1}{n}\sum_{i=1}^n y_i | < \delta\} ) = 1$$

が成り立つので、

$$\liminf_{n \to \infty}\frac{1}{n} \log \left(\mu_{\bar{s}}^{\otimes n}(\{|\frac{1}{n}\sum_{i=1}^n y_i | < \delta\})\right) = 0$$

が成り立ちます。よって

\begin{align} & \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta)) \\ \geq \ & -\bar{s}\delta + \psi_{\mu}(\bar{s})\\ = \ & -I(0) -\bar{s}\delta \end{align}

が成り立ちます。$\delta > 0$ は任意なので、$\delta > \varepsilon > 0$ で置き換えて

\begin{align} & -I(0) -\varepsilon \bar{s} \\ \leq \ & \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\varepsilon, \varepsilon)) \\ \leq \ & \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta)) \end{align}

となりますが、$\varepsilon \to 0$ とすれば

$$-I(0) \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta))$$

となります。よって $I(0) = -\psi_{\mu}(\bar{s})$ を満たす $\bar{s} \in \mathbb{R}$ が存在するとき、式 $(*)$ が示されました。

$\bar{s}$ が存在する条件を考えてみましょう。$\mu((0, \infty)) > 0$ とすると、ある $\delta > 0$ と $\epsilon > 0$ が存在して、

$$\mu((\delta, \infty)) > \varepsilon$$

を満たします。任意の $M > 0$ に対して、$s > \frac{1}{\delta} \log \frac{M}{\varepsilon}$ を満たすようにとれば、

$$\int_{\mathbb{R}} e^{sx} d\mu > \int_{x > \delta} \frac{M}{\varepsilon} > M$$

を満たすので、$s \to \infty$ で $\psi_{\mu}(s) \to \infty$ となります。$\mu((0, \infty)) < 0$ のときも同様にして、$s \to -\infty$ で $\psi_{\mu}(s) \to \infty$ であることがわかります。よって $\mu((0, \infty)) > 0$ かつ $\mu((-\infty, 0)) < 0$ のとき、$\psi^{\prime}(\bar{s}) = 0$ を満たす $\bar{s}$ が存在します。これが $I(0) = -\psi_{\mu}(\bar{s})$ を満たします。

よってあとは、$\mu((0, \infty)) = 0$ または $\mu((-\infty, 0)) = 0$ のときに式 $(*)$ を示せば十分です。両方が $0$ のときは、$\mu(\{0\}) = 1$ であり、従って $\mu_n(\{0\}) = 0$ です。また、任意の $s \in \mathbb{R}$ で $\psi(s) = 0$ であり、$I(x)$ は $x = 0$、それ以外で $\infty$ となります。よって式 $(*)$ が成り立ちます。

$\mu((0, \infty)) = 0$、 $\mu((-\infty, 0)) > 0$ とします。このとき、$(-\infty, 0)$ において $e^{sx}$ は $s$ に関して単調に減少し、$1_{\{0\}}$ に収束するので、ルベーグの収束定理から

$$\lim_{s \to \infty} \int_{\mathbb{R}} e^{sx} d\mu = \int_{\mathbb{R}} 1_{\{0\}} d\mu = \mu(\{0\})$$

となり、

$$\inf_{s \in \mathbb{R}} \psi(s) = \log \mu(\{0\})$$

となります。このとき、

\begin{align} -I(0) &= -\sup_{s \in \mathbb{R}} \{-\psi(s)\} \\ &= \inf_{s \in \mathbb{R}} \psi(s) \\ &= \log \mu(\{0\}) \\ &= \frac{1}{n} \log \mu(\{0\})^n \\ &= \frac{1}{n} \log \mu_n(\{0\}) \\ & \leq \frac{1}{n} \log \mu_n((-\delta, \delta)) \end{align}

となり、式 $(*)$ が成り立ちます。

$\mu((0, \infty)) > 0$、 $\mu((-\infty, 0)) = 0$ のときも同様に、$(*)$ が成り立つことがわかります。

以上でクラメールの定理が示されました。

検定のコイン投げの回数

コイン投げの検定の話に戻りましょう。仮説: $p = 0.5$ が正しいときに棄却される確率が $0.05$ 以下であることを保ちながら、$p = 0.4$ または $p = 0.6$ のときに棄却される確率が $0.95$ 以上になるように $n$ を大きくしたいです。どのくらい $n$ を大きくすれば十分でしょうか。

$\Omega = \{H, T\}$, $\Omega^n$ を $\Omega$ の $n$ 個の直積、$P$ を $P(\{H\}) = p$, $P(\{T\}) = 1-p$ とし $P^{\otimes n}$ を $P$ の $n$ 個の直積、確率変数 $X_n$ をコインを $n$ 回投げて表が出た数割る $n$ としていたのでした。棄却域を $A$ をとりあえず

$$A = \{\omega \in \Omega^n \mid |X_n(\omega) -0.5| > 0.05\}$$

とおきましょう。クラメールの定理 (の証明で示した内容) から

$$ P^{\otimes n}(A) \leq e^{-n\inf_{x \in \bar{A}} I(x)}$$

なので、$I(0.55)$ の値で $P^{\otimes n}(A)$ を評価できます。そこで、$I(x)$ を計算しましょう。まず、$X_1$ の分布 $\mu = (1 -p) \delta_{0} + p\delta_{1} dx$ なので、キュムラント母関数を $\psi_p(s)$ とおくと、

\begin{align} \psi_p(s) &= \log \int_{\mathbb{R}} e^{sx} ((1 -p) \delta_{0} + p\delta_{1}) dx \\ &= \log(pe^s + 1 -p) \end{align}

です。$I_p(x) = -\inf_s \{sx -\psi_p(s)\}$ とおくと、$\inf$ を取るのは $x = \psi_p^{\prime}(s)$ のときなので、計算すると $\inf$ を取るのは、$p \neq 0$ ならば

$$s = \log \frac{x(1 -p)}{(1 -x) p}$$

のときになります。よって

\begin{align} I_p(x) =& \ x\log \frac{x(1 -p)}{(1 -x) p} -\psi_p(s) \\ =& \ x \log\frac{x}{p} + (1 -x)\log\frac{1 -x}{1 -p} \end{align}

となります。$x = 0.55$, $p = 0.5$ の場合を計算すると、$I_{0.5}(0.55) \fallingdotseq 0.005008$ ですが、$p = 0.5$ のとき

$$P^{\otimes n}(A) \leq e^{-n I_{0.5}(0.55)} < 0.05$$

を満たす $n$ の条件は

$$n > -\log(0.05) / I_{0.5}(0.55) \fallingdotseq 598.14$$

となります。なので $n = 599$ とすれば仮説 $p = 0.5$ が棄却される確率が $0.05$ 以下になります。同様に $p = 0.6$ のとき

$$P^{\otimes n}(\Omega \setminus A) < P^{\otimes n}((-\infty, 0.55]) < e^{-n I_{0.5}(0.55)} < 0.05$$

を満たす $n$ の条件は

$$n > -\log(0.05) / I_{0.6}(0.55) \fallingdotseq 582.13$$

なので、$n = 599$ 回コイン投げをすれば十分です。

ちなみに [T] の第6章では中心極限定理を用いて同様の計算をしており、$p = 0.6$ のときの検出力は $0.9$ としていますが、$n = 260$ 回と計算されます。条件を合わせて検出力を $0.95$ とすると $n = 451$ となり、クラメールの定理を用いるよりも精度が良いです。

まとめ

クラメールの定理を用いて統計的仮説検定を行うときの試行回数を概算しました。

クラメールの定理は確率変数にしか適用できないので、例えばサイコロの各目が偏りなく出ることを検定する場合には (不可能ではないと思いますが) 不便です。サイコロの偏りの検定は確率分布全体における検定を行っていると考えられるため、その観点で今回と同様の計算を行うためには確率分布全体の空間における大偏差原理を必要とします。余裕があればそれについての記事も書きたいと思います。

参考文献

[T] 竹内 啓. 数理統計学―データ解析の方法

[K] 小谷 眞一. 測度と確率

[F] 藤原 彰夫. 情報幾何学の基礎: 情報の内的構造を捉える新たな地平

[TC] 田村 要造, 千代延 大造. 大偏差原理

[AO] Amir Dembo, Ofer Zeitouni. Large Deviations Techniques and Applications