1次元のクラメールの定理の証明

クラメールの定理は以下の記事

統計的仮説検定とクラメールの定理

で証明していますが、この記事ではキュムラント母関数が任意の点で有限であることを仮定していました。本記事では、キュムラント母関数の値が $\infty$ となる点が存在する場合のクラメールの定理を証明します。動機は sanov の定理の適用範囲を拡張することです。それについては以下の記事に記載しています。

sanov の定理の拡張とクラメールの定理

クラメールの定理の主張

クラメールの定理の主張は以下のとおりです。

定理. $\mathbb{R}$ 上のクラメールの定理

$\{X_1, X_2, \cdots\}$ を独立同分布 ($\mathbb{R}$ 値) 確率変数とし, その分布を $\mu$ とする. $\mu_n$ を確率変数 $1 / n(\sum_{i=1}^n X_i)$ の分布とし, $\mu$ のキュムラント母関数 $\psi: \mathbb{R} \to \mathbb{R}$ を

$$\psi(s) = \log \int_{\mathbb{R}} e^{sx} d \mu(x)$$

と定め, そのルジャンドル変換を

$$I(x) = \sup_{s \in \mathbb{R}} \{sx -\psi(s)\}$$

とおく. このとき, $\{\mu_n\}_{n=1}^{\infty}$ は $I$ を rate function として大偏差原理を満たす. つまり,

  1. (下からの評価) 任意の開集合 $U \subset \mathbb{R}$ に対して
    $$-\inf_{x \in U}I(x) \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n(U)$$
  2. (上からの評価) 任意の閉集合 $F \subset \mathbb{R}$ に対して
    $$\limsup_{n \to \infty} \frac{1}{n} \log \mu_n(F) \leq -\inf_{x \in F}I(x)$$

が成り立つ. また, $K$ が $\overline{K^{\circ}} = \overline{K}$ を満たし, $K^{\circ}$ が $I(x) < \infty$ となる点 $x$ を含むとき,

$$\lim_{n \to \infty} \frac{1}{n} \log \mu_n(K) = -\inf_{x \in K} I(x)$$

が成り立つ. $\Box$

キュムラント母関数とそのルジャンドル変換の性質

まずはキュムラント母関数 $\psi$ の性質及びそのルジャンドル変換 $I$ の性質を確認します。

キュムラント母関数の性質

$\psi$ が有界な範囲

任意の $s \in \mathbb{R}$ と任意の $x \in \mathbb{R}$ に対して $e^{sx} > 0$ なので、$\int_{\mathbb{R}} e^{sx} d \mu > 0$ であり、従って

$$\psi(s) = \log \int_{\mathbb{R}} e^{sx} d \mu > -\infty$$

です。$\psi$ が有限の値を取る範囲を

$$\mathcal{D} = \{s \in \mathbb{R} \mid \psi(s) < \infty\}$$

とおきます。

$$\psi(0) = \log \int_{\mathbb{R}} e^0 d\mu = \log 1 = 0$$

なので、$0 \in \mathcal{D}$ です。

ある $s > 0$ が $s \in \mathcal{D}$ であるとします。このとき、任意の $0 < s^{\prime} < s$ に対して、$x \geq 0$ ならば $e^{sx} \geq e^{s^{\prime}x}$ かつ $x < 0$ ならば $e^{s^{\prime}x} < 1$ なので、

\begin{align} \psi(s^{\prime}) &= \int_{\mathbb{R}} e^{s^{\prime}x} d \mu \\ &\leq \int_{x \geq 0} e^{sx} d \mu + \int_{x < 0} 1 d\mu\\ &\leq \psi(s) + 1 \\ &< \infty \end{align}

となり、$[0, s] \subset \mathcal{D}$ となります。同様に $s < 0$ が $s \in \mathcal{D}$ であるとき、任意の $s < s^{\prime} < 0$ に対して、

\begin{align} \psi(s^{\prime}) &\leq \int_{x \leq 0} e^{sx} d \mu + \int_{x > 0} 1 d\mu \\ &\leq \psi(s) + 1 \\ &< \infty \end{align}

なので、$[s, 0] \subset \mathcal{D}$ となります。

$\psi$ の凸性

任意の $s, s^{\prime} \in \mathbb{R}$ と任意の $0 \leq t \leq 1$ に対して、ヘルダーの不等式から

\begin{align} & \int_{\mathbb{R}} e^{(ts + (1 -t)s^{\prime})x } d\mu \\ = \ & \int_{\mathbb{R}} (e^{sx})^t (e^{s^{\prime}x})^{(1 -t)} d\mu \\ \leq \ & \left( \int_{\mathbb{R}} e^{sx}d\mu \right)^t \left(\int_{\mathbb{R}} e^{s^{\prime}x} d\mu \right)^{(1 -t)} \end{align}

が成り立ちます。最左辺、最右辺の $\log$ をとると、それぞれ

$$\log \int_{\mathbb{R}} e^{(ts + (1 -t)s^{\prime})x } d\mu = \psi(ts + (1 -t)s^{\prime}),$$

$$\log \left( \int_{\mathbb{R}} e^{sx}d\mu \right)^t \left(\int_{\mathbb{R}} e^{s^{\prime}x} d\mu \right)^{(1 -t)}= t\psi(s) + (1 -t)\psi(s^{\prime})$$

なので、

$$ \psi(ts + (1 -t)s^{\prime}) \leq t\psi(s) + (1 -t)\varphi(s^{\prime})$$

が成り立ちます。つまり、$\psi$ は凸関数です。

$\psi$ の連続性と微分可能性

$\psi$ が $\mathcal{D}$ の内点集合 $\mathcal{D}^{\circ}$ において連続であることは、$\mathbb{R}$ の開集合上の凸関数が連続であることからわかります。$\psi$ が微分可能であることは $\mathcal{D} = \mathbb{R}$ の場合に別の記事で証明しています。$\mathcal{D} \neq \mathbb{R}$ の場合も同様に証明できます。

$I$ の性質

$I$ が rate function であること

ルジャンドル変換の性質から、$I$ は下半連続な凸関数です。$\psi(0) = 0$ なので、任意の $x \in \mathbb{R}$ に対して

\begin{align} I(x) &= \sup_{s \in \mathbb{R}} \{sx -\psi(s)\} \\ & \geq 0x -\psi(0) \\ & = 0 \end{align}

が成り立ちます。よって $I$ は rate function です。

$\mathcal{D} = \{0\}$ のときの $I$ の性質

$\mathcal{D} = \{0\}$ のとき、$s \neq 0$ で $-\psi(s) = -\infty$ なので、任意の $x \in \mathbb{R}$ に対して

\begin{align} I(x) &= \sup_{s \in \mathbb{R}} \{sx -\psi(s)\} \\ &= 0x -\psi(0) \\ &= 0 \end{align}

となります。

$I$ の下限が $0$ であること

$\mathcal{D} = \{0\}$ のときは明らかなので、$\mathcal{D} \neq \{0\}$ とします。Jensen の不等式から、任意の $s \in \mathbb{R}$ に対して

\begin{align} \psi(s) &= \log \int_{\mathbb{R}} e^{sx} d\mu \\ & \geq \log e^{\int_{\mathbb{R}} sx d\mu } \\ & = \int_{\mathbb{R}} sx d\mu \end{align}

が成り立ちます。$\bar{x} = \int_{\mathbb{R}} x d\mu$ とおくと、

\begin{align} s \bar{x} -\psi(s) & \leq 0 && (-\infty < \bar{x} < \infty), \\ \psi(s) & = \infty & & (\bar{x} = \infty \textrm{ かつ } s > 0), \\ \psi(s) & = \infty & & (\bar{x} = -\infty \textrm{ かつ } s < 0) \\ \end{align}

となることがわかります。

$0 < s \in \mathcal{D}$ のとき、$\psi(s) < \infty$ なので

$$\bar{x} < \frac{\psi(s)}{s} < \infty$$

となります。$\bar{x} > -\infty$ のとき、

\begin{align} I(\bar{x}) &= \sup_{s \in \mathbb{R}} \{s \bar{x} -\psi(s)\} \leq 0 \end{align}

となりますが、任意の $x \in \mathbb{R}$ に対して $I(x) \geq 0$ なので、$I(\bar{x}) = 0$ となります。

$\bar{x} = -\infty$ とします。任意の $x \in \mathbb{R}$ と $s > 0$ に対して、チェビシェフの不等式から

\begin{align} \mu([x, \infty)) &= \mu(\{y \in \mathbb{R} \mid e^{s y} \geq e^{s x}\})\\ & \leq \frac{1}{e^{s x}} \int_{\mathbb{R}} e^{s y} d \mu(y) \\ &= e^{-(sx -\psi(s))} \end{align}

が成り立ちます。$s = 0$ のとき最左辺は $1$ なので、$s = 0$ のときも成り立ちます。両辺 $\log$ を取り、最右辺の $s$ に関する $\inf$ を取ると、

\begin{align} \log \mu([x, \infty)) &\leq \inf_{s \geq 0} \{-sx +\psi(s)\} \\ & = -\sup_{s \geq 0} \{sx -\psi(s)\} \end{align}

となります。$s < 0$ で $\psi(s) = \infty$ なので

$$\sup_{s \geq 0} \{sx -\psi(s)\} = I(x)$$

であり、従って

\begin{align} I(x) & \leq -\log \mu([x, \infty)) \end{align}

となります。よって

$$0 \leq \lim_{x \to -\infty} I(x) \leq -\lim_{x \to -\infty} \log \mu([x, \infty)) = 0$$

となり、下限が $0$ であることがわかりました。

$0 > s \in \mathcal{D}$ のときも同様に下限が $0$ であることがわかります。

連続性

$I$ が有限の値をとる範囲を

$$\mathcal{D}_* = \{x \in \mathbb{R} \mid I(x) < \infty\}$$

とおきます。$I$ が $\mathcal{D}_*$ において連続であることを確認しましょう。

まず、$\mathcal{D}_*$ の性質を簡単に確認します。$-\infty < \bar{x} < \infty$ のとき、$I(\bar{x}) = 0$ なので $\bar{x} \in \mathcal{D}_*$ です。$\bar{x} = \infty$ または $\bar{x} = -\infty$ のとき、$\lim_{x \to \bar{x}} I(x) = 0$ なので、$\mathcal{D}_* \neq \varnothing$ です。$x_1, x_2 \in \mathcal{D}_*$ で、$x_1 < x_2$ とします。このとき、$I$ が凸関数であることから、任意の $0 \leq t \leq 1$ に対して

$$I(t x_1 + (1 -t)x_2) \leq tI(x_1) + (1 -t)I(x_2)$$

なので、$[x_1, x_2] \subset \mathcal{D}_*$ です。よって $\mathcal{D}_*$ が一点集合でなければ、$\mathcal{D}_*^{\circ} \neq \varnothing$ です。

$\mathcal{D}_*$ が一点集合の場合、$I$ の連続性は明らかなので、$\mathcal{D}_*$ は一点集合でないとします。

$\mathcal{D}_*^{\circ}$ における連続性

開区間上の凸関数は連続なので、 $I$ は $\mathcal{D}_*^{\circ}$ において連続です。

$\mathcal{D}_*$ の端点における連続性

$b \in \partial \mathcal{D}_* \cap \mathcal{D}_*$ とし、$x > b$ に対して $x \notin \mathcal{D}_*$ であるとします。また、

$$\lim_{x \to b-0} I(x) = A$$

とおきます。もし $A > I(b)$ であるとすると、ある $\delta > 0$ が存在して、任意の $x \in [b -\delta, b)$ に対して

$$-\frac{A -I(b)}{2} < I(x) -A < \frac{A -I(b)}{2}$$

を満たします。このとき、

\begin{align} \frac{1}{4} I(b -\delta) + \frac{3}{4} I(b) &< \frac{3A +5I(b)}{8} \\ &< \frac{A +I(b)}{2} \\ &< I(b -\frac{1}{4}\delta) \\ \end{align}

なので、$I$ が凸であることに反します。よって $A \leq I(b)$ が成り立ちます。$A < I(b)$ とすると、

$$\{x \in \mathbb{R} \mid I(x) \leq \frac{A +I(b)}{2}\}$$

は $b$ を含まず、十分小さい $\delta > 0$ に対して $(b -\delta, b)$ を含みます。よって上記の集合は閉集合でなく、$I$ が下半連続であることに反します。従って $A = I(b)$ つまり

$$\lim_{x \to b-0} I(x) = I(b)$$

が成り立ちます。

任意の $b > x$ に対して $x \notin \mathcal{D}_*$ であるときも同様の議論によって連続であることがわかります。

クラメールの定理の証明

以下、クラメールの定理の証明を行います。キュムラント母関数が有限である場合の証明と重複する部分は、適宜別記事を参照します。

上からの評価

まずは上からの評価を示しましょう。$F \subset \mathbb{R}$ を閉集合とします。$\inf_{x \in F} I(x) = 0$ のときは明らかに成立します。特に $\mathcal{D} = \{0\}$ のときは常に成立します。

次に、$a \in \mathbb{R}$ に対して $F = [a, \infty)$ と表される場合を考えます。$\bar{x} \in F$ のときは明らかなので、$\bar{x} < a$ とします。任意の $s \in \mathbb{R}$ に対し、Jensen の不等式から

$$\psi(s) \geq s \bar{x}$$

が成り立つので、$s < 0$ の場合

$$s a -\psi(s) \leq s(a -\bar{x}) \leq 0$$

となります。$I(a) \geq 0$ なので、

\begin{align} I(a) &= \sup_{s \in \mathbb{R}}\{s a -\psi(s)\} \\ &= \sup_{s \geq 0} \{s a -\psi(s)\} \\ &= \sup_{s \geq 0} \{\frac{s}{n} a -\psi \left(\frac{s}{n} \right)\} \end{align}

となります。ここで、マルコフの不等式から任意の $s > 0$ に対して

$$\mu_n(F) \leq e^{-n (\frac{s}{n}a -\psi(\frac{s}{n}))}$$

が成り立ちます ( $\psi(0) = 0$ なので、この不等式は $s = 0$ でも成り立ちます)。従って任意の $n$ に対して

\begin{align} \frac{1}{n} \log \mu_n(F) &\leq \inf_{s \geq 0} \{-\left(\frac{s}{n}a -\psi \left(\frac{s}{n} \right) \right)\} \\ & = -\sup_{s \geq 0} \{\frac{s}{n}a -\psi \left(\frac{s}{n} \right)\} \\ & = -I(a) \\ & = -\inf_{x \in F} I(x) \end{align}

が成り立ちます。最後の等式は $I$ が凸関数であることと、$\bar{x}$ で最小値を取ることから従います。左辺の $\limsup$ をとると、

$$\limsup_{n \to \infty} \frac{1}{n} \log \mu_n(F) \leq-\inf_{x \in F} I(x)$$

が成り立ちます。$F = (-\infty, b]$ の場合も同様です。

最後に $F$ が一般の閉集合の場合を考えます。$-\infty < \bar{x} < \infty$ の場合、$\bar{x} \not \in F$ とすると、$b < \bar{x} < a$ を満たす実数 $a, b \in \mathbb{R}$ が存在して、$J \subset (-\infty, b] \cup [a, \infty)$ が成り立ちます。よって $J = (-\infty, b] \cup [a, \infty)$ の場合に示せば十分です。これは任意の $s \in \mathbb{R}$ でキュムラント母関数が有限である場合の証明と同様です。

$\bar{x} = -\infty$ の場合、$F$ が下限を持つ場合は $F \subset [a, \infty)$ を満たす実数 $a \in \mathbb{R}$ が存在します。この場合はすでに示しました。$F$ が下限を持たない場合、$\lim_{x \to -\infty} I(x) = 0$ なので

$$\inf_{x \in F}I(x) = 0$$

であり、下からの評価が成り立ちます。$\bar{x} = \infty$ の場合も同様です。

以上で、任意の閉集合 $F$ に対して下からの評価が成り立つことが示されました。

下からの評価

下からの評価が成り立つことを示すには、キュムラント母関数が有限である場合の証明と同様に、任意の $\delta > 0$ に対して

$$-I(0) \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta)) \tag{*}$$

が成り立つことを示せば十分です。

$\mu((0, \infty)) = 0$ の場合、$\psi(s)$ は $s$ に関して単調減少し、ルベーグの収束定理から

\begin{align} \lim_{s \to \infty} \psi(s) &= \lim_{s \to \infty} \log \int_{\mathbb{R}} e^{sx} d \mu(x) \\ &= \log \int_{\mathbb{R}} 1_{\{0\}} d \mu(x) \\ &= \log \mu(\{0\}) \end{align}

となり、$\inf_{s \in \mathbb{R}} \psi(s) = \log \mu({0})$ となります。このとき、

\begin{align} -I(0) &= -\sup_{s \in \mathbb{R}}\{-\psi(s)\}\\ &= \log \mu({0}) \\ &= \frac{1}{n} \log \mu_n(\{0\}) \\ & \leq \frac{1}{n} \log \mu_n((-\delta, \delta)) \end{align}

となり、式 $(*)$ が成り立ちます。$\mu((-\infty, 0)) = 0$ の場合も同様です。

よって以下では、$\mu((0, \infty)) > 0$ かつ $\mu((-\infty, 0)) > 0$ であるとします。もし実数 $M > 0$ が存在して、$\mu([-M, M]) =1$ を満たすならば、任意の $s \in \mathbb{R}$ に対して $e^{sx}$ は $x \in [-M, M]$ 上有界なので、$\psi(s) < \infty$ となります。この場合は別の記事ですでに示されています。

$\mu([-M, M]) =1$ を満たす実数が存在しない場合、$\mu((-M, 0)) > 0$ かつ $\mu((0, M)) > 0$ を満たす実数 $M > 0$ を一つ固定します。確率変数 $X$ の定義域を $(\Omega, \mathcal{F}, P)$ とし、

$$\Omega_M = \{\omega \in \Omega \mid X(\omega) \leq M\}$$

とおきます。確率変数 $X_M$ を

$$X_M = X|_{\Omega_M}$$

と定め、その分布を

$$\nu^M = {X_M}_* P(\, \cdot \, | \Omega_M)$$

とおきます。ここで、$P(\, \cdot \, | \Omega_M)$ は条件付き確率を意味します。$\nu^M$ のキュムラント母関数は

\begin{align} \psi_{\nu^M}(s) &= \log \int_{\mathbb{R}} e^{sx} d\nu^M \\ &= \log \left( \frac{1}{\mu((-M, M))} \int_{-M}^M e^{sx} d\mu \right)\\ &= \log \int_{-M}^M e^{sx} d\mu -\log \mu((-M, M)) \end{align}

で与えられます。また、任意の $\delta > 0$ に対して

\begin{align} & \nu^M_n((-\delta, \delta)) \\ = \ & {\nu^M}^{\otimes n}\big(\big\{(x_1, \cdots, x_n) \in \mathbb{R}^n \mid \big|\frac{1}{n}\sum_{i=1}^n x_n \big| < \delta \big\}\big) \\ \leq \ &\frac{1}{\mu((-M, M))^n}{\mu}^{\otimes n} \big( \big\{(x_1, \cdots, x_n) \in \mathbb{R}^n \mid \big| \frac{1}{n}\sum_{i=1}^n x_n \big| < \delta \big\}\big) \\ = \ & \frac{1}{\mu((-M, M))^n}\mu_n((-\delta, \delta)) \end{align}

となります。ここで、${\nu^M}^{\otimes n}$, $\mu^{\otimes n}$ は直積測度を意味します。$\nu^M$ は $\nu^M((-M, M)) = 1$ を満たすので、式 $(*)$ が成り立ちます。つまり、任意の $\delta > 0$ に対して

$$\inf_{s \in \mathbb{R}} \psi_{M}(s) \leq \liminf_{n \to \infty} \frac{1}{n} \log \nu^M_n((-\delta, \delta))$$

が成り立ちます。よって

\begin{align} & \inf_{s \in \mathbb{R}} \left\{ \log \int_{-M}^M e^{sx} d\mu \right\} \\ \leq \ & \liminf_{n \to \infty} \frac{1}{n} \log \nu^M_n((-\delta, \delta)) +\log \mu((-M, M)) \\ \leq \ & \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta)) \end{align}

となります。ここで、

\begin{align} \psi^M(s) &= \log \int_{-M}^M e^{sx} d\mu \ , \\ I_M &= -\inf_{s \in \mathbb{R}} \{ \psi^M(s) \} \ , \\ I^* &= \limsup_{M \to \infty} I_M \end{align}

とおきます。このとき、

$$-I^* \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu_n((-\delta, \delta))$$

となります。よって $\psi(s_0) \leq -I^*$ を満たす $s_0 \in \mathbb{R}$ が存在すれば、式 $(*)$ が示されます。

定義から

$$I_M \geq -\psi^M(0) \geq -\psi(0) = 0$$

なので、$I^* \geq 0$ です。また、$M_0 > 0$ を $\mu((-M_0, 0)) > 0$ かつ $\mu((0, M_0)) > 0$ を満たすものとし、$M > M_0$ とすると、

$$\int_{-M}^M e^{sx} d\mu > 0$$

なので $\psi^M(s) > -\infty$ であり、$|s| \to \infty$ で $\psi^M(s) \to \infty$ となります。従って、$-\psi(s_M) = I_M$ を満たす $s_M \in \mathbb{R}$ が存在します。また、$\psi^M(s)$ は $M$ に関して非減少なので、$I_M$ は $M$ に関して非増加です。従って

$$I^* \leq I_M < \infty$$

となります。 よって

$$L_M = \{s \in \mathbb{R} \mid \psi^M(s) \leq -I^*\}$$

は空集合でない有界閉集合になります。また、$M^{\prime} > M$ に対して $L_{M^{\prime}} \subset L_M$ となります。よって

$$\bigcap_{M > M_0} L_M$$

は空集合ではありません。$s_0 \in \bigcap_{M > M_0} L_M$ を一つ取ると、ルベーグの収束定理から

$$\psi(s_0) = \lim_{M \to \infty} \psi^M(s_0) \leq -I^*$$

が成り立ちます。これで式 $(*)$ が示されました。

等式が成り立つこと

最後に、$K \subset \mathbb{R}$ が $\overline{K^{\circ}} = \overline{K}$ を満たし、$K \cap \mathcal{D} \neq \varnothing$ の場合、

$$\lim_{n \to \infty} \frac{1}{n} \log \mu_n(\overline{K}) = -\inf_{x \in K} I(x)$$

が成り立つことを示します。

上からの評価から、

\begin{align} \limsup_{n \to \infty} \frac{1}{n} \log \mu(K) & \leq \limsup_{n \to \infty} \frac{1}{n} \log \mu(\overline{K}) \\ &\leq -\inf_{x \in \overline{K}} I(x) \end{align}

が、下からの評価から、

\begin{align} -\inf_{x \in K^{\circ}} I(x) & \leq \liminf_{n \to \infty} \frac{1}{n} \log \mu(K^{\circ}) \\ &\leq \liminf_{n \to \infty} \frac{1}{n} \log \mu(K) \end{align}

が成り立ちます。ここで、$\mathcal{D} \cap K^{\circ} \neq \varnothing$ であることと、$I$ が連続であることから、

$$\inf_{x \in K^{\circ}}I(x) = \inf_{x \in \overline{K^{\circ}}}I(x) = \inf_{x \in \overline{K}}I(x)$$

となります。よって

\begin{align} & \limsup_{n \to \infty } \frac{1}{n} \log \mu(K) \\ \leq \ & -\inf_{x \in \overline{K}} I(x) \\ = \ & -\inf_{x \in K^{\circ}} I(x) \\ \leq \ & \liminf_{n \to \infty} \frac{1}{n} \log \mu(K) \end{align}

が成り立ち、

$$\lim_{n \to \infty} \frac{1}{n} \log \mu(K) = -\inf_{x \in K^{\circ}} I(x)$$

となります。

$$\inf_{x \in \overline{K}} I(x) \leq \inf_{x \in K} I(x) \leq \inf_{x \in K^{\circ}} I(x) = \inf_{x \in \overline{K}} I(x) $$

なので、

$$\lim_{n \to \infty} \frac{1}{n} \log \mu(K) = -\inf_{x \in K} I(x)$$

が成り立ちます。

参考文献

[AO] Amir Dembo, Ofer Zeitouni. Large Deviations Techniques and Applications