大偏差原理の基礎 (sanovの定理の証明の準備として)

本記事では sanov の定理の証明を行う準備として、大偏差原理の基礎をまとめます。本記事は [TC] の内容を大いに参考にしており、概ね [TC] に沿って述べていますが、一部補完、省略、順番の変更等しています。

本記事は基本的に他の記事と独立して読むことができますが、一部他の記事を参照する部分があります。その場合はリンクを貼ります。

sanov の定理の証明は以下の記事で書いています。

sanov の定理の証明

大偏差原理とは

下半連続関数について

$X$ を位相空間とします。

定義. 下半連続

関数 $f: X \to \mathbb{R} \cup \{-\infty, \infty\}$ は, 任意の $\alpha \in \mathbb{R}$ に対して

$$\{x \in X \mid f(x) \leq \alpha\}$$

が閉集合であるとき, 下半連続であるという.$\Box$

$f: X \to \mathbb{R}$ が連続関数であれば、$f^{-1}((-\infty, \alpha])$ は閉集合なので下半連続です。また、$f$ が下半連続関数ならば、$f^{-1}((-\infty, \alpha]) \in \mathfrak{B}_{\mathbb{R}}$ なので Borel 可測関数です。

$f$ が下半連続で $\alpha = \infty$ または $\alpha = -\infty$ のとき、

$$\{x \in X \mid f(x) \leq \alpha\}$$

は自動的に閉集合になります。実際、

$$\{x \in X \mid f(x) \leq \infty\} = X$$

なので $\alpha = \infty$ のときは明らかで、

\begin{align} & \{x \in X \mid f(x) \leq -\infty\} \\ = \ & \{x \in X \mid f(x) = -\infty\} \\ = \ & \bigcap_{\alpha \in \mathbb{R}}\{x \in X \mid f(x) \leq \alpha\} \end{align}

なので $\alpha = -\infty$ のときも閉集合になります。

$-f$ が下半連続であるとき、$f$ は上半連続であるといいます。

関数 $f$ が下半連続であることは以下の条件とそれぞれ同値です。

  1. $f(x_0) \neq \infty$ を満たす任意の $x_0 \in X$ と任意の $\varepsilon > 0$ に対して、$x_0$ の開近傍 $U$ が存在し、任意の $x \in U$ に対して $$f(x) \geq f(x_0) -\varepsilon$$ を満たす。また、$f(x_0) = \infty$ を満たす任意の $x_0 \in X$ と任意の $N > 0$ に対して$x_0$ の開近傍 $U$ が存在し、任意の $x \in U$ に対して $$f(x) \geq N$$ を満たす。
  2. 以下の集合は閉集合。
    $$\{(x, \alpha) \in X \times \mathbb{R} \mid f(x) \leq \alpha\}$$

1 から、$f$ が下半連続であるとは、ざっくり言うと $x$ の近くの点での $f$ の値が $f(x)$ に近いかまたは大きいことを意味するといえます。

条件 1 との同値性

$f$ が下半連続であることと条件 1 が同値であることは次のようにしてわかります。

( $\Rightarrow$ ) $f$ が下半連続であるとします。$x_0 \in X$ が $f(x_0) \in \mathbb{R}$ を満たす場合は、任意の $\varepsilon > 0$ に対して

$$U = \{x \in X \mid f(x) > f(x_0) -\varepsilon\}$$

が $x_0$ の開近傍になります。$f(x_0) = \infty$ の場合は、任意の $N$ に対して

$$U = \{x \in X \mid f(x) > N\}$$

が $x_0$ の開近傍になります。$f(x_0) = -\infty$ の場合は、任意の $x \in X$ に対して条件 1 の不等式が成り立ちます。

( $\Leftarrow$ ) 逆に条件 1 が成り立つとします。$\alpha \in \mathbb{R}$ に対し

$$U_\alpha = \{x \in X \mid f(x) > \alpha\}$$

とおき、$U_{\alpha}$ が開集合であることを示します。$x_0 \in U_\alpha$ が $f(x_0) < \infty$ を満たすとします。このとき $0 < \varepsilon < f(x_0) -\alpha$ を満たすように $\varepsilon$ をとると、ある開近傍 $x_0 \in U$ が存在し、$U$ の任意の元 $x$ に対し

$$f(x) \geq f(x_0) -\varepsilon > \alpha$$

を満たします。

$x_0 \in U_\alpha$ が $f(x_0) = \infty$ を満たすとします。このとき $N > \alpha$ をとると、ある開近傍 $x_0 \in U$ が存在し、$U$ の任意の元 $x$ に対し

$$f(x) \geq N > \alpha$$

を満たします。よって $U \subset U_\alpha$ であり、$U_\alpha$ は開集合になります。

条件 2 との同値性

$f$ が下半連続であることと条件 2 が同値であることは次のようにしてわかります。

( $\Rightarrow$ ) $f$ が下半連続であるとし、

$$D = \{(x, \alpha) \in X \times \mathbb{R} \mid f(x) \leq \alpha\}$$

とおいて $D$ が閉集合であることを示します。そのために、$(x_0, \alpha_0) \in X \times \mathbb{R} \setminus D$ に対して $D$ と交わらない開近傍 $(x_0, \alpha_0) \in U$ が存在することを示します。

$0 < \varepsilon < f(x_0) -\alpha_0$ を 1 つ固定します。$x_0$ の $X$ における開近傍 $U$ で、任意の $x \in U$ に対して

$$f(x) \geq f(x_0) -\frac{\varepsilon}{2}$$

を満たすものを取ると、

\begin{align} U^{\prime} & = U \times (\alpha_0 -\varepsilon/2, \alpha_0 +\varepsilon/2)\\ & = (U \times \mathbb{R}) \cap (X \times (\alpha_0 -\varepsilon/2, \alpha_0 +\varepsilon/2) ) \end{align}

は $(x_0, \alpha_0)$ を含む開集合となります。このとき、任意の $(x, \alpha) \in U^{\prime}$ に対して

\begin{align} f(x) -\alpha & \geq f(x_0) -\varepsilon / 2 -\alpha \\ & > f(x_0) -\varepsilon / 2 -(\alpha_0 + \varepsilon / 2) \\ & = f(x_0) -\alpha_0 -\varepsilon \\ & > 0 \end{align}

なので、$U^{\prime} \subset X \setminus D$ となります。よって $D$ は閉集合です。

( $\Leftarrow$ ) 逆に $D$ が閉集合であるとします。射影 $\pi: X \times \mathbb{R} \to \mathbb{R}$ は連続なので $\pi^{-1}(\alpha) = X \times \{\alpha\}$ は閉集合であり、$D \cap \pi^{-1}(\alpha)$ も閉集合です。自然な同相 $X \times \{\alpha\} \simeq X$ により、

$$D \cap \pi^{-1}(\alpha) \simeq \{x \in X \mid f(x) \leq \alpha\}$$

は閉集合になります。よって $f$ は下半連続です。

大偏差原理

$E$ を距離空間とします。

定義. rate function

$E$ 上の下半連続関数 $I: E\to [0, \infty]$ を rate function という. また, 任意の $\alpha \in \mathbb{R}$ に対して

$$\{x \in E \mid f(x) \leq \alpha\}$$

がコンパクトであるとき, $I$ を good rate function という.$\Box$

距離空間はハウスドルフなので、コンパクト集合は閉集合になります。よって good rate function は rate function になります。

$\mathfrak{B}_{E}$ を $E$ のボレル $\sigma$-加法族とします。

定義. 大偏差原理

$(E, \mathfrak{B}_{E})$ 上の確率測度の族 $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が大偏差原理を満たすとは, ある rate function $I$ が存在して以下を満たすことをいう.

  1. (下からの評価)任意の開集合 $U \subset E$ に対して
    $$-\inf_{x \in U} I(x) \leq \liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(U)$$
    が成り立つ.
  2. (上からの評価)任意の閉集合 $F \subset E$ に対して
    $$\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(F) \leq -\inf_{x \in F} I(x)$$
    が成り立つ.

確率測度の列 $\{Q_n\}_{n = 1}^{\infty}$ に対しても, $\varepsilon = 1 / n$ とおいて条件 1, 2 を満たすとき, 大偏差原理を満たすという. また, 条件 1 と以下の条件

  • (弱い上からの評価)任意のコンパクト集合 $K \subset E$ に対して
    $$\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K) \leq -\inf_{x \in K} I(x)$$
    が成り立つ.

を満たすとき, 弱い意味で大偏差原理を満たすという. $\Box$

条件 1, 2 は、任意の $A \in \mathfrak{B}_{E}$ に対して

$$-\inf_{x \in A^{\circ}} I(x) \leq \liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(A) \leq \limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(A) \leq -\inf_{x \in \overline{A}} I(x)$$

を満たすことと同値です。以下の記事

統計的仮説検定とクラメールの定理

で示したクラメールの定理は、( $\mathbb{R}$ 値 ) 確率変数 $Y$ の確率分布が $\mu$ であるとき、$\mu$ が $\mathbb{R}$ 全体でモーメント母関数を持てば、$Y$ と同分布かつ独立な $n$ 個の確率変数の和の確率分布を $\mu_n$ とおくと、確率分布の族 $\{\mu_n\}$ が大偏差原理を満たすということです。そのとき、キュムラント母関数が rate function になります (連続なので下半連続)。

rate function の定義の補足

rate function の値域が $[0, \infty]$ ( $0$ 以上) であることと、下半連続であることについて補足します。

条件 1 において $U = E$ とおくと、$\inf_{x \in E} I(x) \geq 0$ となります。rate function の値域が $[0, \infty]$ である理由はこれです。

下半連続であることは以下の理由によります。もし下半連続でない関数 $I$ が条件 1, 2 を満たしたとします。このとき

$$I^{\prime}(x) = \inf \{\liminf_{n \to \infty} I(x_n) \mid \{x_n\}_{n =1}^{\infty} \textrm{ は } x \textrm{ に収束する点列 }\}$$

とおくと、$I^{\prime}(x) \leq I(x)$ が成り立ちます。よって任意の $A \subset E$ に対して

$$-\inf_{x \in A} I(x) \leq -\inf_{x \in A} I^{\prime}(x)$$

が成り立ち、$I^{\prime}$ も大偏差原理の条件 2 を満たします。また、任意の開集合 $U$ と任意の $x_0 \in U$ に対して、点列 $\{x_n\}_{n=1}^{\infty}$ が $x_0$ に収束するとすれば、$N > 1$ を十分大きくとれば、$n > N$ のときに $x_n \in U$ なので、

$$I^{\prime}(x_0) \geq \inf_{x \in U} I(x) $$

が成り立ちます。よって

$$-\inf_{x \in U} I^{\prime}(x) \leq -\inf_{x \in U} I(x)$$

となり、$I^{\prime}$ の大偏差原理の条件 1 も満たすので、$I$ を $I^{\prime}$ に置き換えても大偏差原理の成立には影響がありません。

ここで、$I^{\prime}$ が下半連続であることを確認しましょう。$x_0 \in E$ を 1 つ固定します。$f(x_0) < \infty$ とすると、$I^{\prime}$ の定義から、任意の $\varepsilon > 0$ に対してある $\delta > 0$ が存在して、$x_0$ を中心とする半径 $\delta$ の開球 $B_{\delta}(x_0)$ 上の任意の点 $x$ に対して

$$I(x) \geq I^{\prime}(x_0) -\varepsilon \quad (x \in B_{\delta}(x_0))$$

を満たします。このとき $B_{\delta}(x_0)$ は開集合なので、$x \in B_{\delta}(x_0)$ に収束する任意の点列 $\{x_n\}_{n=1}^{\infty}$ に対して

$$\liminf_{n \to \infty} I(x_n) \geq I^{\prime}(x_0) -\varepsilon$$

が成り立ち、

$$I^{\prime}(x) \geq I^{\prime}(x_0) -\varepsilon \quad (x \in B_{\delta}(x_0))$$

となります。

$f(x_0) = \infty$ とすると、$I^{\prime}$ の定義から、$x_0$ に収束する任意の点列に対し $I(x_0) = -\infty$ となります。よって任意の $N > 0$ に対してある $\delta > 0$ が存在して、$B_{\delta}(x_0)$ 上の任意の点 $x$ に対して

$$I(x) \geq N \quad (x \in B_{\delta}(x_0))$$

を満たします。このとき、$B_{\delta}(x_0)$ が開集合なので、

$$I^{\prime}(x) \geq N \quad (x \in B_{\delta}(x_0))$$

となります。よって $I^{\prime}$ は下半連続です。

rate function の一意性

大偏差原理における評価関数を下半連続なものに限定することで、rate function の一意性が成り立ちます。

$\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が rate function $I$ で大偏差原理を満たすとします。もし $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が別の rate function $J$ でも大偏差原理を満たしたとすると、$I = J$ が成り立ちます。これを確認しましょう。

もし $I \neq J$ だとすると、ある $x_0 \in E$ で、$I(x_0) \neq J(x_0)$ を満たします。ここで、$I(x_0) > J(x_0)$ としても一般性を失いません。$I$ の下半連続性から、任意の $\gamma > 0$ に対して、ある $\delta > 0$ が存在して、$x_0$ の $\delta$-近傍 $B_{\delta}(x_0)$ において

$$\inf_{x \in B_{\delta}(x_0)} I(x) \geq I(x_0) -\gamma$$

を満たします。このとき、$\delta / 2$-近傍 $B_{\delta / 2}(x_0)$ においては

$$\inf_{x \in \overline{B_{\delta / 2}(x_0)}} I(x) \geq I(x_0) -\gamma$$

が成り立ちます。$\gamma < I(x_0) -J(x_0)$ となるように $\gamma$ を選べば、

$$\inf_{x \in \overline{B_{\delta / 2}(x_0)}} I(x) > J(x_0)$$

が成り立ちます。大偏差原理を満たすことから、

\begin{align} -J(x_0) & \leq -\inf_{x \in B_{\delta / 2}(x_0)} J(x) \\ & \leq \liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B_{\delta / 2}(x_0)) \\ & \leq \limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(\overline{B_{\delta / 2}(x_0)}) \\ & \leq -\inf_{x \in \overline{B_{\delta / 2}(x_0)}} I(x) \\ & < -J(x_0) \end{align}

となり、$J(x_0) < J(x_0)$ が成り立つので矛盾します。よって $I = J$ となります。

大偏差原理を満たすための十分条件

$E$ を距離空間とし、$E$ 上の Borel 確率測度全体を $\mathcal{P}(E)$ とおきます。

この節では、$\mathcal{P}(E)$ の族 $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が大偏差原理を満たすための十分条件を考えます。流れとしては、まず $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ から rate function $I$ を構成し、それがある条件を満たすときに弱い意味で大偏差原理を満たすことを示します。その後、弱い意味で大偏差原理から大偏差原理が導かれるための十分条件を与えます。

rate function の構成

$B_r(x) \subset E$ を $x \in E$ を中心とする半径 $r > 0$ の開球とし、それらの集合を

$$\mathcal{B} = \{B_r(x) \mid x \in E, r > 0\}$$

とします。このとき、

$$I(x) := \sup_{x \in B, B \in \mathcal{B}} \left\{-\liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B) \right\}$$

とおくと、$I$ は rate function となります。

これを確認しましょう。

$$\mathcal{L}(B) = – \liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B)$$

とおくと、$I(x) = \sup_{x \in B, B \in \mathcal{B}} \mathcal{L}(B)$ となります。定義から任意の $x \in E$ に対して

$$I(x) \geq \mathcal{L}(E) = 0$$

が成り立ちます。また、$a \in \mathbb{R}$ に対して $I(x) > a$ とすると、$B \in \mathcal{B}$ で $x \in B$ かつ $\mathcal{L}(B) > a$ を満たすものが存在します。このとき $y \in B$ ならば

$$I(y) \geq \mathcal{L}(B) > a$$

なので $B \subset I^{-1}((a, \infty])$ となり、任意の $x \in I^{-1}((a, \infty])$ に対してそれを含む開集合が存在するので $I^{-1}((a, \infty])$ は開集合です。よって $I^{-1}([0, a])$ は閉集合であり、$I$ は下半連続になります。従って $I$ は rate function になります。

下からの評価

族 $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が $I$ を rate function として大偏差原理の下からの評価を満たすことを示します。

$U \subset E$ を開集合とします。このとき任意の $x \in U$ に対して $x \in B \subset U$ を満たす $B \in \mathcal{B}$ が存在するので、

\begin{align} -\liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(U) & \leq -\liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B) \\ & = \mathcal{L}(B) \\ & \leq I(x) \end{align}

となり、下からの評価

$$-\inf_{x \in U}I(x) \leq \liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(U)$$

を満たします。

弱い意味での大偏差原理を満たすための条件

もし

$$I(x) = \sup_{x \in B, B \in \mathcal{B}}\left \{-\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B)\right\}$$

が成り立つとすると、$\{Q_{\varepsilon}\}_{\varepsilon > 0}$ は rate function $I$ で弱い意味での大偏差原理を満たします。これを確認しましょう。弱い上からの評価を示せば十分です。

$\delta > 0$ を 1 つ固定し、$K \subset E$ をコンパクト集合とします。仮定から、任意の $x \in K$ に対して $x \in B_x \in \mathcal{B}$ で

$$-\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon} (B_x) \geq I(x) -\delta$$

を満たすものが存在します。$K$ はコンパクトなので、有限個の $x_1, \dots, x_n$ が存在して $K \subset \bigcup_{i=1}^n B_{x_i}$ となり、

\begin{align} & \limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K) \\ \leq \ & \limsup_{\varepsilon \to 0} \varepsilon \log \left(\sum_{i=1}^n Q_{\varepsilon}(B_{x_i}) \right) \\ \leq \ & \max_{1 \leq i \leq n}\{\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B_{x_i})\} \\ \leq \ & -\min_{1 \leq i \leq n} I(x_i) + \delta \\ \leq \ & -\inf_{x \in K} I(x) + \delta \end{align}

がなりたちます (1 番目の不等式については非自明なので、すぐ後で補足します)。ここで $\delta$ は任意なので、弱い上からの評価が成り立ちます。よって $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ は $I$ を rate fuction として弱い意味での大偏差原理を満たします。

1 番目の不等式について補足します。用いたのは、$n$ 個の非負の数列 $\{a^i_{\varepsilon}\}_{\varepsilon > 0} \ (1 \leq i \leq n)$ に対して、

$$\limsup_{\varepsilon \to 0} \varepsilon \log \big( \sum_{i=1}^n a^i_{\varepsilon} \big) = \max_{1 \leq i \leq n} \{\limsup_{\varepsilon \to 0} \varepsilon \log a^i_{\varepsilon}\}$$

が成立することです。$n = 2$ のときに示せば十分です。$b_{\varepsilon} = \max \{a^1_{\varepsilon}, a^2_{\varepsilon} \}$ とおくと、

$$\varepsilon \log b_{\varepsilon} \leq \varepsilon \log \big(a^1_{\varepsilon} + a^2_{\varepsilon} \big) \leq \varepsilon (\log 2 + \log b_{\varepsilon})$$

なので、両辺 $\limsup$ をとれば

$$\limsup_{\varepsilon \to 0} \varepsilon \log \big( a^1_{\varepsilon} + a^2_{\varepsilon} \big) =\limsup_{\varepsilon \to 0} \varepsilon \log b_{\varepsilon}$$

となります。

$$\varepsilon \log b_{\varepsilon} = \max\{\varepsilon \log a^1_{\varepsilon}, \varepsilon \log a^2_{\varepsilon}\}$$

は明らかなので、$\max$ と $\limsup$ が可換であれば示したいことが示されます。その証明は省略します。

補足すると、もし任意の $B \in \mathcal{B}$ に対して $\lim_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B)$ が存在すれば、

\begin{align} I(x) &= \sup_{x \in B, B \in \mathcal{B}} \left\{-\liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B) \right\} \\ &= \sup_{x \in B, B \in \mathcal{B}} \left\{-\lim_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B) \right\} \\ &= \sup_{x \in B, B \in \mathcal{B}} \left\{-\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B) \right\} \\ \end{align}

なので最初の仮定を満たし、弱い意味での大偏差原理が成立します。

大偏差原理を満たすための条件

$\mathcal{P}(E)$ の族 $\{Q_{\varepsilon}\}_{\varepsilon>0}$ が exponentially tight であるとは、任意の $L \in (0, \infty)$ に対してコンパクト集合 $K_L \subset E$ が存在して、

$$\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K_L^{c}) \leq -L$$

が成り立つことです。ここで、$K_L^{c} = E \setminus K_L$ です。

族 $\{Q_{\varepsilon}\}_{\varepsilon>0}$ が exponentially tight であると、弱い意味での大偏差原理から通常の大偏差原理が従います。具体的には以下の命題が成り立ちます。

命題.

$\mathcal{P}(E)$ の族 $\{Q_{\varepsilon}\}_{\varepsilon>0}$ は exponentially tight であるとし, さらに rate function $I$ で弱い意味での大偏差原理を満たすとする. このとき, 以下が成り立つ.

  1. $I$ は good rate function である.
  2. $\{Q_{\varepsilon}\}_{\varepsilon>0}$ は good rate function $I$ で大偏差原理を満たす.$\Box$

これを証明しましょう。

まず、$I$ が good rate function であることを示しましょう。任意の $L \in (0, \infty)$ に対して $K^c_L$ は開集合なので、下からの評価から

\begin{align} \inf_{x \in K_{L+1}^c} I(x) & \geq -\liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K^c_{L+1}) \\ & \geq -\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K^c_{L+1}) \\ & \geq L + 1 \end{align}

となります。よって

$$\{x \in E \mid I(x) \leq L\} \subset K_{L+1}$$

であり、$\{x \in E \mid I(x) \leq L\}$ は閉集合なのでコンパクトです。

次に、$\{Q_{\varepsilon}\}_{\varepsilon>0}$ が大偏差原理を満たすことを確認します。$F \subset E$ を閉集合とします。このとき

$$Q_{\varepsilon}(F) \leq Q_{\varepsilon}(F \cap K_L) + Q_{\varepsilon}(K^c_L)$$

が成り立ち、$F \cap K_L$ はコンパクトなので、

\begin{align} & \limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(F) \\ \leq \ & \limsup_{\varepsilon \to 0} \varepsilon \log (Q_{\varepsilon}(F \cap K_L) + Q_{\varepsilon}(K^c_L) ) \\ \leq \ & \max\{\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(F \cap K_L) \\ & \qquad, \limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K^c_L)\} \\ \leq \ & -\min \{\inf_{x \in F \cap K_L} I(x), L\} \\ \leq \ & -\min\{\inf_{x \in F}I(x), L\} \end{align}

となります。$L$ は任意なので、$L \to \infty$ とすることで大偏差原理の上からの評価を満たします。

以上で命題が示されました。

まとめると、(条件が少し弱くなってますが) $\{Q_{\varepsilon}\}_{\varepsilon>0}$ が exponentially tight で、かつ任意の $B \in \mathcal{B}$ に対して $\lim_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B)$ が存在すれば、$\{Q_{\varepsilon}\}_{\varepsilon>0}$ は good rate function $I$ で大偏差原理を満たします。

Varadhan の定理

Varadhan の定理は Laplace の原理 (または Laplace の方法) と呼ばれるものの無限次元版と言われています。あまり詳しくないのですが、Laplace の原理とは、大きなパラメータを持つある種の指数関数の積分が、被積分関数の最大値付近のみで決まるという経験則のことを指すようです [F]

定理. Varadhan の定理

$\mathcal{P}(E)$ の族 $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が good rate function $I$ で大偏差原理を満たしているとし, $\Phi: E \to \mathbb{R}$ を有界連続関数とする. このとき

$$\lim_{\varepsilon \to 0} \varepsilon \log \int_{E} \exp \left(\frac{1}{\varepsilon} \Phi(x) \right) d Q_{\varepsilon}(x) = \sup_{x \in E} \{\Phi(x) -I(x)\}$$

を満たす. $\Box$

Varadhanの定理は、細かく分けると以下の形で成立します。

  1. (下からの評価) $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が rate function $I$ で大偏差原理の下からの評価を満たすとし、$\Phi$ は下半連続であるとする。このとき、以下が成立する。
    $$\liminf_{\varepsilon \to 0} \varepsilon \log \int_{E} e^{(1 / \varepsilon)\Phi} d Q_{\varepsilon} \geq \sup_{x \in E} \{\Phi(x) -I(x) \}$$
  2. (上からの評価) $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が good rate function で大偏差原理の上からの評価を満たすとし、$\Phi$ は有界かつ上半連続であるとする。このとき、以下が成立する。
    $$\limsup_{\varepsilon \to 0} \varepsilon \log \int_{E} e^{(1 / \varepsilon)\Phi} d Q_{\varepsilon} \leq \sup_{x \in E} \{\Phi(x) -I(x)\}$$

1, 2 が成立すれば最初に述べた形での Varadhan の定理が成り立つことは明らかでしょう。これらを証明します。

(下からの評価)任意の $\delta > 0$ を 1 つ固定します。$\Phi$ が下半連続なので、任意の $x_0 \in E$ に対して、$x_0$ の開近傍 $U$ で

$$\inf_{x \in U} \Phi(x) \geq \Phi(x_0) -\delta$$

を満たすものが存在します。このとき、

\begin{align} & \liminf_{\varepsilon \to 0} \varepsilon \log \int_E e^{(1/\varepsilon) \Phi} dQ_{\varepsilon} \\ \geq \ & \liminf_{\varepsilon \to 0} \varepsilon \log \int_E e^{\frac{\Phi(x_0) -\delta}{\varepsilon}} 1_U dQ_{\varepsilon} \\ \geq \ & \Phi(x_0) -\delta + \liminf_{\varepsilon} \varepsilon \log Q_{\varepsilon}(U) \\ \geq \ & \Phi(x_0) -\delta -\inf_{x \in U}I(x) \\ \geq \ & \Phi(x_0) -I(x_0) -\delta \end{align}

が成り立ちます。$\delta$ は任意なので、任意の点 $x \in E$ で

$$\liminf_{\varepsilon \to 0} \varepsilon \log \int_E e^{(1/\varepsilon) \Phi} dQ_{\varepsilon} \geq \Phi(x) -I(x)$$

が成り立ちます。よって

$$\liminf_{\varepsilon \to 0} \varepsilon \log \int_E e^{(1/\varepsilon) \Phi} dQ_{\varepsilon} \geq \sup_{x \in E} \{\Phi(x) -I(x) \}$$

となります。

(上からの評価)$\delta > 0$ を固定すると、$I$ は下半連続かつ $\Phi$ は上半連続なので、任意の $x_0 \in E$ に対してある開近傍 $U^{\prime}_{x_0}$ が存在して、

\begin{align} \inf_{x \in U^{\prime}_{x_0}} I(x) & \geq I(x_0) -\delta,\\ \inf_{x \in U^{\prime}_{x_0}} -\Phi(x) & \geq -\Phi(x_0) -\delta \end{align}

が成り立ちます。2 番目の不等式は

$$\sup_{x \in U^{\prime}_{x_0}} \Phi(x) \leq \Phi(x_0) +\delta$$

と書き換えられます。開近傍を小さく取り替えて改めて $U^{\prime}_{x_0}$ とおくと、

\begin{align} \inf_{x \in \overline{U^{\prime}_{x_0}} } I(x) & \geq I(x_0) -\delta,\\ \sup_{x \in \overline{U^{\prime}_{x_0}} } \Phi(x) & \leq \Phi(x_0) +\delta \end{align}

が成り立ちます。ここで、$I$ は good なので、任意の $L > 0$ に対して

$$K_L = \{x \in E \mid I(x) \leq L\}$$

はコンパクトです。よって有限個の $x_1, \dots, x_n \in K_L$ が存在して、$K_L \subset \bigcup_{i=1}^n U^{\prime}_{x_i}$ となります。このとき、$||\Phi||_{\infty} = \sup_{x \in E} \Phi(x)$ とおくと、仮定から $||\Phi||_{\infty} < \infty$ であり、

\begin{align} & \int_E e^{(1/\varepsilon) \Phi} d Q_{\varepsilon} \\ \leq \ & \sum_{i = 1}^n \int_{U^{\prime}_{x_i}} e^{(1/\varepsilon) \Phi} d Q_{\varepsilon} + \int_{(\bigcup_{i=1}^n U^{\prime}_{x_i})^c} e^{(1/\varepsilon) \Phi} d Q_{\varepsilon} \\ \leq \ & \sum_{i = 1}^n e^{(1/\varepsilon)(\Phi(x_i) + \delta)} Q(\overline{U^{\prime}_{x_i}}) + e^{(1/\varepsilon)||\Phi||_{\infty}} Q_{\varepsilon}((\bigcup_{i=1}^n U^{\prime}_{x_i})^c) \end{align}

が成り立ちます。ここで、大偏差原理の上からの評価から

\begin{align} \limsup_{\varepsilon \to 0} \varepsilon \log Q(\overline{U^{\prime}_{x_i}}) & \leq -\inf_{x\ \in \overline{U^{\prime}_{x_i}}} I(x) \\ & \leq -I(x_i) +\delta, \\ \limsup_{\varepsilon \to 0} \varepsilon \log Q((\bigcup_{i=1}^n U^{\prime}_{x_i})^c)) & \leq -\inf_{x \in (\bigcup_{i=1}^n U^{\prime}_{x_i})^c} I(x) \\ & \leq -L \end{align}

が成り立ちます。よって

\begin{align} & \limsup_{\varepsilon \to 0} \varepsilon \log \int_E e^{(1/\varepsilon) \Phi} dQ_{\varepsilon} \\ \leq \ & \limsup_{\varepsilon \to 0} \varepsilon \log \Big( \sum_{i = 1}^n e^{(1/\varepsilon)(\Phi(x_i) + \delta)} Q(\overline{U^{\prime}_{x_i}}) \\ & \qquad + e^{(1/\varepsilon)||\Phi||_{\infty}} Q_{\varepsilon}((\bigcup_{i=1}^n U^{\prime}_{x_i})^c) \Big) \\ \leq \ & \max_{1 \leq i \leq n} \Big\{ \limsup_{\varepsilon \to 0} \varepsilon \log\left( e^{(1/\varepsilon)(\Phi(x_i) + \delta)} Q(\overline{U^{\prime}_{x_i}}) \right),\\ & \qquad \limsup_{\varepsilon \to 0} \varepsilon \log \Big(e^{(1/\varepsilon)||\Phi||_{\infty}} Q_{\varepsilon}((\bigcup_{i=1}^n U^{\prime}_{x_i})^c) \Big)\ \Big\} \\ \leq \ & \max_{1 \leq i \leq n} \{ \Phi(x_i) -I(x_i) + 2\delta, ||\Phi||_{\infty} -L\} \\ \leq \ & \sup_{x \in E}\{\Phi(x) -I(x)\} + 2\delta \quad (L \to \infty) \end{align}

が成り立ちます。2 番目の不等式については弱い意味での大偏差原理を満たすための条件の証明で用いたものと同じです。$\delta > 0$ は任意なので、

$$\limsup_{\varepsilon \to 0} \varepsilon \log \int_E e^{(1/\varepsilon) \Phi} dQ_{\varepsilon} \leq \sup_{x \in E}\{\Phi(x) -I(x)\} $$

が成り立ちます。

ルジャンドル変換

ルジャンドル変換は別の記事でも解説しましたが、ここでは無限次元で、かつ微分可能でない場合を考えます。最初に Hahn-Banach の分離定理について述べます。

Hahn-Banach の分離定理

$X$ を $\mathbb{R}$ 上の局所凸空間とします。部分集合 $C \subset X$ が凸集合であるとは、任意の $c_1, c_2 \in C$ と任意の $0 \leq t \leq 1$ に対して

$$t c_1 + (1 -t) c_2 \in C$$

が成り立つことを言います。

$C, D \subset X$ を凸集合とします。$C$ がコンパクト、$D$ が閉集合で、$C \cap D = \varnothing$ を満たすとき、線型な連続写像 $\lambda: X \to \mathbb{R}$ と $s < t \in \mathbb{R}$ が存在し、

$$\lambda(x) < s < t < \lambda(y), \quad \forall x \in C, \ \forall y \in D$$

を満たします。これを Hahn-Banach の分離定理といいます。

証明は省略しますので、気になる方は [N] を参照してください。

ルジャンドル変換

$X$ を $\mathbb{R}$ 上の位相ベクトル空間とし、$X^*$ を $X$ の双対空間 (連続線形写像 $\lambda: X \to \mathbb{R}$ 全体) とします。$X^*$ には

$$\hat{x}: X^* \ni \lambda \mapsto \lambda(x) \in \mathbb{R}$$

が連続になる最弱の位相が入っているとします。$\hat{x}(\lambda)$ を $\langle \hat{x}, \lambda \rangle$ と書くこともあります。

$f: X \to (-\infty, \infty]$ を $X$ 上の関数とし、$f(x) < \infty$ を満たす $x$ が存在するとします。このとき、$g: X^* \to (-\infty, \infty]$ を

$$g(\lambda) = \sup_{x \in X} \{\langle\lambda, x\rangle -f(x)\}$$

と定義して、$f$ のルジャンドル変換といいます。このとき $g$ は下半連続かつ凸な関数となります。これを確認しましょう。

$g$ が下半連続であること

$g$ が下半連続であることを示すには、任意の $\alpha \in \mathbb{R}$ に対して

$$\{\lambda \in X^* \mid g(\lambda) \leq \alpha\}$$

が閉集合であることを示せば良いです。$g(\lambda) \leq \alpha$ のとき、任意の $x \in X$ に対して

$$\langle\lambda, x\rangle -f(x) \leq \alpha$$

となりますが、これを書き換えると、$\hat{x}(\lambda) \leq \alpha + f(x)$ となります。ここで

\begin{align} H_x &= \hat{x}^{-1}((-\infty, \alpha + f(x)]) \\ &= \{\lambda \in X^* \mid \hat{x}(\lambda) \leq \alpha + f(x)\} \end{align}

とおくと、$(-\infty, \alpha + f(x)]$ は閉集合なので $H_x$ は閉集合になります。任意の $x \in X$ に対して $\lambda \in H_x$ であることと、$\langle\lambda, x\rangle -f(x) \leq \alpha$ が成り立つことは同値なので、

$$\{\lambda \in X^* \mid g(\lambda) \leq \alpha\} = \bigcap_{x \in X} H_x$$

となり、示したいことが示されました。

$g$ が凸であること

$g$ が凸であることを示すには、任意 $\lambda_1, \lambda_2 \in X^*$ と任意の $0 \leq t \leq 1$ に対して

$$g(t\lambda_1+ (1 -t)\lambda_2) \leq tg(\lambda_1) + (1 -t) g(\lambda_2)$$

を満たすことを示せば良いです。左辺は

$$g(t\lambda_1+ (1 -t)\lambda_2) = \sup_{x \in X} \{\langle t\lambda_1+ (1 -t)\lambda_2, x \rangle -f(x)\}$$

となりますが、任意の $\varepsilon > 0$ に対して $x^{\prime} \in X$ が存在して

\begin{align} & g(t\lambda_1+ (1 -t)\lambda_2) -\varepsilon \\ \leq \ & \langle t\lambda_1+ (1 -t)\lambda_2, x^{\prime} \rangle -f(x^{\prime}) \\ = \ & t(\langle \lambda_1, x^{\prime}\rangle -f(x^{\prime})) + (1 -t)(\langle \lambda_2, x^{\prime}\rangle -f(x^{\prime})) \\ \leq \ & t \sup_{x \in X} \{\langle \lambda_1, x -f(x)\} + (1 -t) \sup_{x \in X} \{\langle \lambda_2, x -f(x)\} \\ = \ & tg(\lambda_1) + (1 -t)g(\lambda_2) \end{align}

となります。$\varepsilon$ は任意なので、示したい不等式が示されました。

ルジャンドル変換の双対性

$X$ が $\mathbb{R}$ 上の局所凸空間で、$f: X \to (-\infty, \infty]$ が下半連続かつ凸な関数であるとき、$f$ のルジャンドル変換 $g$ のルジャンドル変換は

$$f(x) = \sup_{\lambda \in X^*} \{\langle\lambda, x\rangle -g(\lambda)\}$$

を満たします。

これを確認しましょう。

$$h(x) := \sup_{\lambda \in X^*} \{\langle\lambda, x\rangle -g(\lambda)\}$$

とおいて、$h = f$ であることを示します。任意の $\varepsilon > 0$ に対して $\lambda^{\prime} \in X^*$ が存在して、

\begin{align} h(x) -\varepsilon & \leq \langle\lambda^{\prime}, x\rangle -g(\lambda^{\prime}) \\ & = \langle\lambda^{\prime}, x\rangle -\sup_{y \in X}\{\langle\lambda^{\prime}\, y\rangle -f(y)\} \\ & \leq \langle\lambda^{\prime}, x\rangle -(\langle\lambda^{\prime}\, x\rangle -f(x)) \\ & = f(x) \end{align}

が成り立つので、任意の $x \in X$ に対して $h(x) \leq f(x)$ となります。

逆の不等式を示すために、$h(x_0) < f(x_0)$ を満たす $x_0 \in X$ が存在すると仮定して矛盾を導きます。

$$D = \{(x, \alpha) \in X \times \mathbb{R} \mid f(x) \leq \alpha\}$$

とおくと、$f$ が凸なので $D$ は凸であり、$f$ が下半連続なので $D$ は閉集合になります。また、$(x_0, h(x_0)) \notin D$ です。よって一点集合 $\{(x_0, h(x_0))\}$ は $D$ と交わらないコンパクト凸集合であり、Hahn-Banach の分離定理から $\gamma \in \mathbb{R}$ と $\Lambda \in (X \times \mathbb{R})^*$ が存在し、

$$\Lambda(x, \alpha) < \gamma < \Lambda(x_0, h(x_0)) \quad \forall (x, \alpha) \in D$$

を満たします。$\Lambda \in (X \times \mathbb{R})^*$ なので、$\lambda \in X^*$ と $\beta \in \mathbb{R}$ により

$$\Lambda(x, \alpha) = \langle \lambda, x \rangle + \beta \alpha$$

と表され、上記の不等式は

$$\langle \lambda, x \rangle + \beta \alpha < \gamma < \langle \lambda, x_0 \rangle + \beta h(x_0) \quad \forall (x, \alpha) \in D$$

となります。もし $\beta > 0$ とすると、$x$ を固定し $\alpha$ を十分大きく取ることで不等式が成立しなくなるので、$\beta \leq 0$ となります。

$\beta = 0$ とすると、上記の不等式は

$$\langle \lambda, x \rangle < \gamma < \langle \lambda, x_0 \rangle \quad \forall x \in X, \ f(x) < \infty$$

となります。$f(x_0) < \infty$ ならば $\langle \lambda, x_0 \rangle < \gamma < \langle \lambda, x_0 \rangle$ となり矛盾します。$f(x_0) = \infty$ でも矛盾することが以下のようにわかります。$g(\mu) < \infty$ を満たす $\mu \in X^*$ を 1 つとると、任意の $a > 0$ に対して

\begin{align} g(\mu + a\lambda) &= \sup_{x \in X}\{\langle \mu + a\lambda, x \rangle -f(x)\} \\ &= \sup_{\substack {x \in X,\\ f(x) < \infty}} \{\langle \mu, x\rangle -f(x) + a\langle \lambda, x \rangle\} \\ &\leq \sup_{\substack {x \in X,\\ f(x) < \infty}}\{\langle \mu, x\rangle -f(x)\} + a \sup_{\substack {x \in X,\\ f(x) < \infty}} \{\langle \lambda, x \rangle\} \\ & = g(\mu) + a \sup_{\substack {x \in X,\\ f(x) < \infty}} \{\langle \lambda, x \rangle\} \end{align}

を満たすので

\begin{align} h(x_0) &\geq \langle \mu + a\lambda, x_0 \rangle -g(\mu + a\lambda) \\ & \geq \langle \mu + a\lambda, x_0 \rangle -g(\mu) -a \sup_{\substack {x \in X,\\ f(x) < \infty}} \{\langle \lambda, x \rangle\} \\ & = \langle \mu, x \rangle -g(\mu) + a(\overbrace{\langle \lambda, x_0 \rangle -\sup_{\substack {x \in X,\\ f(x) < \infty}} \{\langle \lambda, x \rangle\}}^{> 0}) \end{align}

となります。$a$ が掛かった括弧の中身は、分離定理から得られた不等式から $> 0$ なので、$a$ を大きく取ることで $h(x_0)$ をいくらでも大きくできます。よって矛盾します。

従って $\beta < 0$ となります。$-\beta$ で不等式を割ると、

$$-\frac{1}{\beta} \langle \lambda, x \rangle -\alpha < -\frac{\gamma}{\beta} < -\frac{1}{\beta} \langle \lambda, x_0 \rangle -h(x_0) \quad \forall (x, \alpha) \in D$$

となります。このとき

\begin{align} \left \langle -\frac{1}{\beta}\lambda, x_0 \right \rangle -h(x_0) & > \sup_{(x, \alpha) \in D} \left\{-\frac{1}{\beta}\langle \lambda, x \rangle -\alpha \right\} \\ &= \sup_{\substack {x \in X,\\ f(x) < \infty}} \left\{ -\frac{1}{\beta}\langle \lambda, x \rangle -f(x) \right\} \\ &= g\left(-\frac{1}{\beta} \lambda \right) \end{align}

となりますが、これは

$$h(x_0) < \left \langle -\frac{1}{\beta}\lambda, x_0 \right \rangle -g \left(-\frac{1}{\beta} \lambda \right)$$

を意味し、$h$ の定義に矛盾します。よって $h(x_0) < f(x_0)$ を満たす $x_0 \in X$ は存在せず、$h(x) \geq f(x)$ が常に成り立ちます。

したがって $h = f$ となります。

ルジャンドル変換と rate function

$f$ が rate function かつ $f(0) = 0$ あれば、$g$ も rate function で $g(0) = 0$ を満たします。

まずは $g(0) = 0$ を確認しましょう。

$$g(0) = \sup_{x \in X} \{-f(x)\} = -\inf_{x \in X}f(x) = 0$$

となります。

次に $g$ が rate function であることを示します。$g$ が下半連続であることはすでに示しているので、$g(\lambda) \geq 0$ を示せば良いです。任意の $x \in X$ と任意の $\lambda \in X^*$ に対して

$$g(\lambda) \geq \langle \lambda, 0 \rangle -f(0) = 0$$

が成り立ちます。

大偏差原理とルジャンドル変換

$X$ を局所凸空間とし、距離空間 $E$ が $X$ に埋め込まれているとします。また、$\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が $I$ を good rate function として大偏差原理を満たしているとします。このとき、もし $\lambda \in X^*$ に対して $\lambda: E \to \mathbb{R}$ が有界であれば、Varadhan の定理において $\Phi(x) = \lambda(x)$ とおくと、

$$\lim_{\varepsilon \to 0} \varepsilon \log \int_{E} e^{(1 / \varepsilon) \langle \lambda, x\rangle} dQ_{\varepsilon}(x) = \sup_{x \in E} \{\langle \lambda, x\rangle -I(x)\}$$

となり、$I$ のルジャンドル変換と似た式が得られます (ただし $\sup$ の範囲が異なる)。もし $I$ が凸関数であれば、さらにルジャンドル変換をとることで、$I$ と一致します。もしこれが正当化されれば、$I$ が未知の場合でも $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ から $I$ を求めることができます。

また、$\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が大偏差原理を満たしていなくても、左辺の極限が定義できさえすれば、大偏差原理の上からの評価を与えることができます。これは前に示した事実を補うものになっています。

この項ではこれらを証明します。

設定について

この節では、以下の設定で話を進めます。

  1. $X$ は $\mathbb{R}$ 上の局所凸空間である。
  2. $E \subset X$ は閉凸部分集合で、$X$ の位相と同値な距離 $\rho$ をもつ。

$X = E = \mathbb{R}^n$ とし、$\rho$ をユークリッド距離としたものは上記の条件を満たします。また、ポーランド空間 $(S, d)$ に対し $X = \mathcal{M}_{\mathbb{R}}(S)$ (符号付有限 Borel 測度全体)、$E = \mathcal{P}(S)$ とし、$\rho$ を Prokhorov 距離としたものも上記の条件を満たします。

rate function をルジャンドル変換により求める

前提条件

  • $\{Q_N\}_N$ は $I$ を good rate function として大偏差原理を満たしている
  • $I$ は凸関数である
  • 任意の $\lambda \in X^*$ に対して $\lambda: E \to \mathbb{R}$ は有界である

を満たすとします。このとき、Varadhan の定理から

$$\lim_{\varepsilon \to 0} \varepsilon \log \int_{E} e^{(1 / \varepsilon) \langle \lambda, x\rangle} dQ_{\varepsilon}(x) = \sup_{x \in E} \{\langle \lambda, x\rangle -I(x)\}$$

が成り立ちます。ここで

$$\Lambda(\lambda) = \lim_{\varepsilon \to 0} \varepsilon \log \int_{E} e^{(1 / \varepsilon) \langle \lambda, x\rangle} dQ_{\varepsilon}(x)$$

とおきます。$x \in E$ に対して

$$\Lambda^*(x) = \sup_{\lambda \in X^*}\{\langle \lambda, x\rangle -\Lambda(\lambda)\}$$

とおいたとき、$I = \Lambda^*$ が成り立つことを示します。

ルジャンドル変換との違いは $\sup$ をとる範囲が $E \subset X$ であることのみで、$\sup$ をとる範囲が $X$ のときのルジャンドル変換の双対性の証明をそのままなぞれば良いです。任意の $x \in E$ に対して

$$\Lambda^*(x) \leq I(x)$$

であることは $\sup$ の性質のみで示されます。逆の不等式を示すために $\Lambda^*(x_0) < I(x_0)$ を満たす $x_0$ が存在するとして矛盾を導きます。

$$D = \{(x, \alpha) \in E \times \mathbb{R} \mid I(x) \leq \alpha\}$$

とおくと、$I$ が凸なので $D$ は凸で、$I$ が閉集合なので $D$ は $E \times \mathbb{R}$ において閉集合です。$E \subset X$ が閉集合なので、$D$ は $X \times \mathbb{R}$ において閉集合です。よって Hahn-Banach の分離定理の仮定を満たします。それ以降は以前の証明をそのままなぞれば良いです。

上からの評価を与えること

$\mathcal{P}(E)$ の族 $\{Q_{\varepsilon}\}_{\varepsilon}$ が大偏差原理を満たしていなくても、上からの評価を与える rate function を構成できることを示します。

$\{Q_{\varepsilon}\}_{\varepsilon}$ が任意の $\lambda \in X^*$ に対して極限

$$\Lambda(\lambda) = \lim_{\varepsilon \to 0} \varepsilon \log \int_{E} e^{(1 / \varepsilon) \langle \lambda, x\rangle} dQ_{\varepsilon}(x)$$

をもつとします。また、$x \in E$ に対して

$$\Lambda^*(x) = \sup_{\lambda \in X^*}\{\langle \lambda, x \rangle -\Lambda(\lambda)\}$$

とおきます。このとき以下を満たします。

  1. $\Lambda$ は凸関数である。
  2. $\Lambda^*(x)$ は非負かつ下半連続な凸関数である。
  3. 弱い上からの評価が成り立つ。つまり、任意のコンパクト集合 $K \subset E$ に対し
    $$\limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K) \leq -\inf_{x \in K} \Lambda^*(x)$$
    が成り立つ。

これを確認しましょう。

$\Lambda$ が凸関数であること

$\lambda_1, \lambda_2 \in X^*$, $0 < t < 1$ とします。このとき

\begin{align} & \int_E e^{(1/\varepsilon) \langle t\lambda_1 +(1-t)\lambda_2, x \rangle} dQ_{\varepsilon}(x) \\ = & \int_E e^{(1/\varepsilon) \langle t\lambda_1, x \rangle}e^{(1/\varepsilon) \langle (1-t)\lambda_2, x \rangle} dQ_{\varepsilon}(x) \\ \leq & \left( \int_E \left(e^{(1/\varepsilon) \langle t\lambda_1, x \rangle}\right)^{\frac{1}{t}} dQ_{\varepsilon}(x) \right)^t \left( \int_E \left(e^{(1/\varepsilon) \langle (1 -t)\lambda_2, x \rangle}\right)^{\frac{1}{(1 -t)}} dQ_{\varepsilon}(x) \right)^{(1 -t)} \\ = & \left( \int_E e^{(1/\varepsilon) \langle \lambda_1, x \rangle} dQ_{\varepsilon}(x) \right)^t \left( \int_E e^{(1/\varepsilon) \langle \lambda_2, x \rangle} dQ_{\varepsilon}(x) \right)^{(1 -t)} \\ \end{align}

が成り立ちます。ここで、途中の不等式は Hölder の不等式によります。よって

$$\Lambda_{\varepsilon}(\lambda) = \varepsilon \log \int_{E} e^{(1 / \varepsilon) \langle \lambda, x\rangle} dQ_{\varepsilon}(x)$$

とおいて、上記の不等式の $\varepsilon \log$ を取ると、

\begin{align} \Lambda_{\varepsilon}(t\lambda_1 +(1-t)\lambda_2) = t \Lambda_{\varepsilon}(\lambda_1) + (1-t) \Lambda_{\varepsilon}(\lambda_2) \end{align}

が成り立ちます。両辺極限を取ると、$\Lambda$ が凸であることがわかります。

$\Lambda^*$ が非負かつ下半連続な凸関数であること

$\Lambda^*$ が下半連続な凸関数であることはルジャンドル変換の項で示した議論と全く同様に示すことができます。非負であることは、$\Lambda(0) = 0$ であることから

$$\Lambda^*(x) \geq \langle 0, x \rangle -\Lambda(0) = 0$$

となることによりわかります。

弱い上からの評価が成り立つこと

$\delta > 0$ を 1 つ固定します。このとき任意の $x \in E$ に対して、$\Lambda^*$ の定義から

$$\langle \lambda, x \rangle -\Lambda(\lambda) \geq \Lambda^*(x) -\delta / 2$$

を満たす $\lambda \in X^*$ が存在します。$\lambda$ は連続なので、$r > 0$ を十分小さくとれば $x$ を中心とする $r$-開球 $B_r(x)$ に対して

$$\langle \lambda, x -y \rangle \leq \frac{\delta}{2} \quad (\forall y \in \overline{B_r(x)})$$

とできます。このとき、任意の $\varepsilon > 0$ に対して

$$1 \leq e^{\frac{1}{\varepsilon} (\frac{\delta}{2} -\langle \lambda, x -y \rangle)} \quad (\forall y \in \overline{B_r(x)})$$

となります。$\varepsilon$ を

$$\left| \Lambda(\lambda) -\varepsilon \log \int_E e^{(1 / \varepsilon) \langle \lambda, y \rangle} d Q_{\varepsilon}(y) \right| \leq \frac{\delta}{2}$$

を満たすようにとれば、

\begin{align} & \varepsilon \log Q_{\varepsilon}(\overline{B_r(x)}) \\ = \ & \varepsilon \log \int_E 1_{\overline{B_r(x)}} d Q_{\varepsilon} \\ \leq \ & \varepsilon \log \int_E e^{(1 / \varepsilon) (\delta / 2 -\langle \lambda, x -y \rangle)} d Q_{\varepsilon}(y) \\ = \ & -\langle \lambda, x \rangle + \frac{\delta}{2} + \varepsilon \log \int_E e^{(1 / \varepsilon) \langle \lambda, y \rangle} d Q_{\varepsilon}(y) \\ \leq \ & -\langle \lambda, x \rangle + \delta + \Lambda(\lambda) \\ \leq \ & -\Lambda^*(x) + \frac{3\delta}{2} \end{align}

となります。$K$ をコンパクト集合とすると、上記の条件を満たす有限個の $x_i \in K$, $r_i > 0$ が存在して、$K \subset \bigcup_{i=1}^n B_{r_i}(x_i)$ となります。よって

\begin{align} & \limsup_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(K) \\ \leq \ & \limsup_{\varepsilon \to 0} \varepsilon \log \sum_{i=1}^n Q_{\varepsilon}(\overline{B(x_i)}) \\ \leq \ & \max_{1 \leq i \leq n} \{-\Lambda^*(x_i) + \frac{3\delta}{2}\} \\ \leq \ & -\inf_{x \in K} \Lambda^* + \frac{3\delta}{2} \end{align}

となり、$\delta$ は任意なので示したいことが示されました。

もし $\{Q_{\varepsilon}\}_{\varepsilon > 0}$ が exponentially tight であれば、大偏差原理の上からの評価を満たします。さらに、$\mathcal{B}$ を $E$ の開球全体としたとき、任意の $x \in E$ に対して

$$\Lambda^*(x) = \sup_{x \in B, B \in \mathcal{B}} \left\{ -\liminf_{\varepsilon \to 0} \varepsilon \log Q_{\varepsilon}(B)\right\}$$

を満たせば、$\Lambda^*$ は下からの評価を満たすので、$\{Q_{\varepsilon}\}_{\varepsilon > 0}$ は rate function を $\Lambda^*$ として大偏差原理を満たします。

まとめ

大偏差原理に関する基本的な事項をまとめました。概ね [TC] に沿って記載していますが、一部補完、省略、順番の変更等しています。特に距離空間の間の写像 $f: E \to E^{\prime}$ による大偏差原理の遺伝については、sanov の定理には必要がないので省略しました。

sanov の定理は独立同分布に関する大偏差原理ですが、大偏差原理は確率過程のような独立性が成り立たない状況において真価を発揮するようです。私はまだ読めていませんが、気になる方は [TC] に目を通してみると良いのではないでしょうか。

参考文献

[w1] wikipedia: 半連続

[w2] Wikipedia. ハーン–バナッハの定理

[N] Gabriel Nagy. The Hahn-Banach Theorem

[TC] 田村 要造, 千代延 大造. 大偏差原理

[F] 福島竜輝. 大偏差原理について

[C] Cosma Shalizi. Stochastic Processes [Chapter 30 General Theory of Large Deviations]

[S] J.M. Swart. Large Deviation Theory

[B] Jordan Bell. The Legendre transform