sanov の定理の拡張とクラメールの定理

以下の記事で sanov の定理を示しました。

sanov の定理の証明

しかし、sanov の定理が弱位相における開集合、閉集合にしか適用できないと、応用が制限されて不便です。本記事では、もっと一般の集合に対して sanov の定理が適用できることを示します。またその関連として、sanov の定理とクラメールの定理の関係を明らかにします。

sanov の定理の拡張

$(S, d)$ を可分完備距離空間、$\mathcal{P}(S)$ を $S$ 上の Borel 確率測度全体、$d_P$ を $\mathcal{P}(S)$ 上の Prokhorov 距離とします。

まずは sanov の定理を軽くおさらいしましょう。

sanov の定理のおさらい

$\mu \in \mathcal{P}(S)$ を一つ固定します。$\mu^{\otimes N}$ を $\mu$ の $N$ 個の直積測度とし、$L_N: S^N \to \mathcal{P}(S)$ を

$$L_N(x_1, \dots, x_N) = \frac{1}{N}(\delta_{x_1} + \cdots + \delta_{x_N})$$

として、

$$Q_N = (L_N)_*(\mu^{\otimes N})$$

とおきます。$\{X_1, X_2, \dots\}$ は独立同分布な $S$ 値確率変数であり、その分布は $\mu$ であるとします。このとき、$\delta_{X_i}$ を $X_i$ とデルタ分布をとる写像 $\delta: S \to \mathcal{P}(S)$ の合成とすると、$Q_N$ は $\mathcal{P}(S)$ 値確率変数

$$\frac{1}{N} ( \delta_{X_1} + \cdots + \delta_{X_N} )$$

の分布に一致します。

$D_{KL}(\nu || \mu)$ を KL ダイバージェンスとしたとき、任意の開集合 $U \subset \mathcal{P}(S)$ に対して下からの評価

$$-\inf_{\nu \in U} D_{KL}(\nu || \mu) \leq \liminf_{N \to \infty} \frac{1}{N} \log Q_N(U)$$

が成り立ち、任意の閉集合 $F \subset \mathcal{P}(S)$ に対して上からの評価

$$\limsup_{N \to \infty} \frac{1}{N} \log Q_N(F) \leq -\inf_{\nu \in F} D_{KL}(\nu || \mu)$$

が成り立つというのが sanov の定理の主張でした。

sanov の定理の適用範囲の拡張

$\varphi$ を $S$ 上の可測関数とし、$\int_S |\varphi| d \mu < \infty$ を満たすとします。$\mathbb{R}$ の開集合 $I \subset \mathbb{R}$ と閉集合 $J \subset \mathbb{R}$ に対して

\begin{align}\mathcal{U}_{\varphi, I} &= \{\nu \in \mathcal{P}(S) \mid \int_S \varphi d \nu \in I\} , \\ \mathcal{F}_{\varphi, J} &= \{\nu \in \mathcal{P}(S) \mid \int_S \varphi d \nu \in J\}\end{align}

とおきます。

$$\hat{\varphi}: \mathcal{P}(S) \ni \nu \mapsto \int_S \varphi d \nu \in \mathbb{R}$$

とおくと、もし $\varphi$ が連続な有界関数ならば、$\hat{\varphi}$ は弱位相に関して連続な関数なので、

$$\mathcal{U}_{\varphi, I} = \hat{\varphi}^{-1}(I)$$

は開集合、

$$\mathcal{F}_{\varphi, J} = \hat{\varphi}^{-1}(J)$$

は閉集合になり、それぞれ sanov の定理が適用できます。

一般の可測関数 $\varphi$ に対しても、$\mathcal{U}_{\varphi, I}$ に対して大偏差原理の下からの評価

$$-\inf_{\nu \in \mathcal{U}_{\varphi, I}} D_{KL}(\nu || \mu) \leq \liminf_{N \to \infty} \frac{1}{n} \log Q_N(\mathcal{U}_{\varphi, I})$$

が、$\mathcal{F}_{\varphi, J}$ に対して大偏差原理の上からの評価

$$\limsup_{N \to \infty} \frac{1}{n} \log Q_N(\mathcal{F}_{\varphi, J}) \leq -\inf_{\nu \in \mathcal{F}_{\varphi, J}} D_{KL}(\nu || \mu) $$

が成り立つことを示すのが本記事の目標です。上記のふたつの不等式が成り立つことを、本記事のみの呼び方ですが、拡張 sanov の定理が成り立つと言います。

可測性の確認

まずは $\mathcal{U}_{\varphi, I}$、$\mathcal{F}_{\varphi, J}$ が $\mathcal{P}(S)$ の可測集合であることを確認しましょう。準備として、$S$ 上の有界連続関数に関する事実をおさらいします。

有界連続関数に関する事実のおさらい

$\mathcal{M}(S)$ を $S$ 上の有限符号付 Borel 測度全体とし、弱位相による位相を入れます。$C_{b, \mathbb{R}}(S)$ を $S$ 上の実数値有界連続関数全体をとし、$\mathcal{M}(S)^*$ を $\mathcal{M}(S)$ 上の連続な線形関数全体とすると、

$$\mathcal{M}(S)^* \simeq C_{b, \mathbb{R}}(S)$$

が成り立つのでした (証明は別記事)。またこの同型は、$f \in C_{b, \mathbb{R}}(S)$ に対して

$$\hat{f}: \mathcal{M}(S) \ni \nu \mapsto \int_S f d \nu \in \mathbb{R}$$

を対応させることで与えられます。$\mathcal{P}(S)$ の Prokhorov 距離による位相は $\mathcal{M}(S)$ の (弱位相の) 相対位相と同値なので、$\hat{f}$ を $\mathcal{P}(S)$ に制限しても、$\mathcal{P}(S)$ の位相で連続になります。

$S$ 上の可測関数 $\varphi$ に対しても同様に、$\int_S |\varphi| d \nu < \infty$ を満たす $\nu \in \mathcal{P}(S)$ に対して $\hat{\varphi}$ を

$$\hat{\varphi}(\nu) = \int_S \varphi d\nu$$

と定めます。このとき、$\hat{\varphi}$ が可測であることを確認しましょう。

$\hat{\varphi}$ の可測性

$\varphi$ が一般の可測関数の場合は $\hat{\varphi}$ を $\mathcal{P}(S)$ 全体で定義できないので、まずは $\varphi \geq 0$ の場合を考えます。

もし任意の $A \in \mathcal{B}_{S}$ に対して $\hat{1}_A$ が可測であれば、$\varphi$ に各点収束する単関数の非減少列 $\{\varphi_n\}$ に対して

$$\hat{\varphi}_n(\nu) = \sum_{k = 1}^m a_k \hat{1}_{A_m}(\nu)$$

は可測であり、各 $\nu \in \mathcal{P}(S)$ に対して

$$\lim_{n \to \infty} \hat{\varphi}_n(\nu) = \hat{\varphi}(\nu)$$

なので $\hat{\varphi}$ は可測です。よって $\hat{1}_A$ が可測であることを確かめましょう。

任意の閉集合 $F \subset S$ に対して、$1_F$ に各点収束する有界連続関数の減少列 $\{f_n\}$ が存在します (証明は別記事)。$f_1$ は任意の $\nu \in \mathcal{P}(S)$ に対して可積分なので、ルベーグの収束定理から

\begin{align} \lim_{n \to \infty} \hat{f}_n(\nu) &= \lim_{n \to \infty} \int_S f_n d \nu \\ &= \int_S \lim_{n \to \infty} f_n d \nu \\ &= \int_S 1_F d \nu \\ &= \hat{1}_F (\nu) \end{align}

となります。可測関数の極限は可測なので、$\hat{1}_F$ は可測です。開集合 $U \subset S$ に対しても、

\begin{align} \hat{1}_U(\nu) &= \int_S 1_S -1_{S \setminus U} d \nu \\ &= 1 -\hat{1}_{S \setminus U}(\nu) \end{align}

なので、$\hat{1}_U$ は可測です。ここで、

$$\mathcal{G} = \{A \in \mathcal{B}_S \mid \hat{1}_A \textrm{ が可測}\}$$

とおき、$\mathcal{G} = \mathcal{B}_S$ であることを示します。

$\mathcal{G} = \mathcal{B}_S$ の証明

まず、$\mathcal{G}$ がディンキン族であることを確認しましょう。$A, B \in \mathcal{G}$, $B \subset A$ に対して $B \setminus A \in \mathcal{G}$ であることは

$$\hat{1}_{A \setminus B} = \hat{1}_A -\hat{1}_B$$

であることからわかります。$A_n \in \mathcal{G}$, $A_1 \subset A_2 \subset \cdots$ に対して $\bigcup_{n = 1}^{\infty} A_n \in \mathcal{G}$ であることは、任意の $\nu \in \mathcal{P}(S)$ に対して

\begin{align} \hat{1}_{\bigcup_{n = 1}^{\infty} A_n}(\nu) &= \nu(\bigcup_{n = 1}^{\infty} A_n) \\ &= \lim_{n \to \infty} \nu(A_n) \\ &= \lim_{n \to \infty} \hat{1}_{A_n}(\nu) \\ \end{align}

であることからわかります。よって $\mathcal{G}$ はディンキン族になります。

$\mathcal{V}_S$ を $S$ の開集合全体として、$\mathcal{V}_S$ の生成する (つまり $\mathcal{V}_S$ を含む最小の) ディンキン族を $\delta[\mathcal{V}_S]$ とおくと、$\delta[\mathcal{V}_S] \subset \mathcal{G}$ を満たします。$\mathcal{V}_S$ は有限交差で閉じているので、ディンキンの補題 (例えば [Y 命題 4.1.7]) から $\delta[\mathcal{V}_S] = \mathcal{B}_S$ が成り立ちます。$\mathcal{G} \subset \mathcal{B}_S$ なので、

$$\delta[\mathcal{V}_S] \subset \mathcal{G} \subset \mathcal{B}_S = \delta[\mathcal{V}_S]$$

から $\mathcal{G} = \mathcal{B}_S$ が成り立ちます。よって任意の $A \in \mathcal{B}_S$ に対して $\hat{1}_A$ が可測であることがわかりました。

以上で可測関数 $\varphi \geq 0$ に対して $\hat{\varphi}$ が可測であることがわかりました。$\varphi \leq 0$ の場合も同様に $\hat{\varphi}$ は可測です。

一般の可測関数 $\varphi$ に対して、$\varphi$ の積分の値が有限である確率測度の集合を

$$A_{\varphi} = \{\nu \in \mathcal{P}(S) \mid \int_S |\varphi | d\nu < \infty\}$$

とおきます。$\varphi = \varphi_+ -\varphi_-$, $\varphi_+ \geq 0$, $\varphi_- \geq 0$ と分解すると、

$$A_{\varphi} = \hat{\varphi}_+^{-1}(\mathbb{R}) \cap \hat{\varphi}_-^{-1}(\mathbb{R})$$

が成り立ちます。$A_{\varphi}$ は可測集合で、$\hat{\varphi} = \hat{\varphi}_+ -\hat{\varphi}_-$ は $A_{\varphi}$ 上の可測関数です。

よって $\mathbb{R}$ 上の任意の可測集合 $K$ に対して $\hat{\varphi}^{-1}(K)$ は可測集合になり、特に $\mathcal{U}_{\varphi, I}$, $\mathcal{F}_{\varphi, J}$ が可測であることがわかります。

拡張 sanov の定理と $\mathbb{R}$ における大偏差原理

まず、$\mathcal{U}_{\varphi, I}$, $\mathcal{F}_{\varphi, J}$ の測度について考えます。 $Q_N(\mathcal{U}_{\varphi, I})$ を計算してみると、

\begin{align} & Q_N(\mathcal{U}_{\varphi, I}) \\ = \ & Q_N(\hat{\varphi}^{-1}(I))\\ = \ & \mu^{\otimes N}(\{x \in S^N \mid L_N(x) \in \hat{\varphi}^{-1}(I)\}) \\ = \ & \mu^{\otimes N}(\{x \in S^N \mid \frac{1}{N} \sum_{i = 1}^N \varphi(x_i) \in I\}) \\ \end{align}

となります。最右辺の値には別の表現が存在します。$Y_i = \varphi \circ X_i$ とおくと、$\{Y_1, Y_2, \dots\}$ は独立同分布な ($\mathbb{R}$ 値) 確率変数であり、その分布は $\varphi_* \mu$ です。確率変数

$$\frac{1}{N} (Y_1 + \cdots + Y_N)$$

の分布を $m_N$ とおくと、任意の可測集合 $K \subset \mathbb{R}$ に対して

\begin{align} & m_N(K) \\ = \ & (\varphi_* \mu)^{\otimes N}(\{y \in \mathbb{R}^N \mid \frac{1}{N}\sum_{i=1}^N y_i \in K\}) \\ = \ & \mu^{\otimes N}(\{x \in S^N \mid \frac{1}{N} \sum_{i = 1}^N \varphi(x_i) \in K\}) \end{align}

となります。よって

$$m_N(K) = Q_N(\hat{\varphi}^{-1}(K))$$

となります。特に開集合 $I \subset \mathbb{R}$ と閉集合 $F \subset \mathbb{R}$ に対して

\begin{align} m_N(I) &= Q_N(\mathcal{U}_{\varphi, I}), \\ m_N(F) &= Q_N(\mathcal{F}_{\varphi, F}) \end{align}

となります。

$\mathbb{R}$ 上の関数 $\Theta^*$ を

$$\Theta^*(y) = \begin{cases} \inf_{\nu \in \hat{\varphi}^{-1}(y)} D_{KL}(\nu || \mu) & (\hat{\varphi}^{-1}(y) \neq \varnothing) \\ \infty & (\hat{\varphi}^{-1}(y) = \varnothing) \end{cases}$$

とおくと、任意の可測集合 $K \subset \mathbb{R}$ に対して、$\hat{\varphi}^{-1}(K) \neq \varnothing$ ならば

$$\inf_{y \in K} \Theta^*(y) = \inf_{\nu \in \hat{\varphi}^{-1}(K)} D_{KL}(\nu || \mu)$$

が成り立ちます。よって空でない開集合 $I \subset \mathbb{R}$ に対して $\mathcal{U}_{\varphi, I} \neq \varnothing$ のとき、

\begin{align} -\inf_{y \in I} \Theta^*(y) &\leq \liminf_{N \to \infty} \frac{1}{N} \log m_N(I) \\ \Leftrightarrow -\inf_{\nu \in \mathcal{U}_{\varphi, I} } D_{KL}(\nu || \mu) & \leq \liminf_{N \to \infty} \frac{1}{N} \log Q_N(\mathcal{U}_{\varphi, I}) \end{align}

となります。$\mathcal{U}_{\varphi, I} = \varnothing$ のときは、

\begin{align} -\infty = -\inf_{y \in I} \Theta^*(y) \leq \lim_{N \to \infty} \frac{1}{N} \log m_N(I) \\ \end{align}

が常に成り立ちます。閉集合 $J \subset \mathbb{R}$ についても同様に、$\mathcal{F}_{\varphi, J} \neq \varnothing$ のとき

\begin{align} \limsup_{N \to \infty} \frac{1}{N} \log m_N(J) &\leq -\inf_{y \in J} \Theta^*(y) \\ \Leftrightarrow \limsup_{N \to \infty} \frac{1}{N} \log Q_N(\mathcal{F}_{\varphi, J}) & \leq -\inf_{\nu \in \mathcal{F}_{\varphi, J} } D_{KL}(\nu || \mu) \end{align}

であり、$\mathcal{F}_{\varphi, J} = \varnothing$ のとき常に $Q_N(\mathcal{F}_{\varphi, J}) = 0$ なので

\begin{align} & \limsup_{N \to \infty} \frac{1}{N} \log m_N(J)\\ = \ & \limsup_{N \to \infty} \frac{1}{N} \log Q_N(J)\\ = \ & -\infty \\ \leq \ & -\inf_{y \in J} \Theta^*(y) \end{align}

が成り立ちます。

以上から、もし $\Theta^*$ が rate function ならば、$\{m_N\}_N^{\infty}$ が $\Theta^*$ を rate function として大偏差原理を満たすことと、拡張 sanov の定理が成り立つことは同値になります。

次は、$\Theta^*$ の性質を調べてみましょう。

$\Theta^*$ のルジャンドル変換とキュムラント母関数

$\Theta^*(x)$ のルジャンドル変換を

$$\Theta(s) = \sup_{x \in \mathbb{R}} \{s x -\Theta^*(x)\}$$

とおきます。任意の可測関数 $\psi$ に対して

$$\Xi(\psi) = \begin{cases} \sup_{\nu \in A_{\psi}} \{\hat{\psi}(\nu) -D_{KL}(\nu || \mu)\} & (A_{\psi} \neq \varnothing) \\ \infty & (A_{\psi} = \varnothing) \\ \end{cases} $$

とおきます。このとき $\int_S |\varphi| d\mu < \infty$ なので $\mu \in A_{\varphi} \neq \varnothing$ であり、任意の $s \in \mathbb{R}$ に対して

\begin{align} \Xi(s \varphi) = \ & \sup_{\nu \in A_{\varphi}} \{\widehat{s \varphi}(\nu) -D_{KL}(\nu || \mu)\} \\ = \ & \sup_{\nu \in A_{\varphi}} \{s \hat{\varphi}(\nu) -D_{KL}(\nu || \mu)\} \\ = \ & \sup_{\substack{x \in \mathbb{R}, \\ \hat{\varphi}^{-1}(x) \neq \varnothing, \\ \\ \nu \in \hat{\varphi}^{-1}(x)} } \{s x -D_{KL}(\nu || \mu)\} \\ = \ & \sup_{\substack{x \in \mathbb{R}, \\ \hat{\varphi}^{-1}(x) \neq \varnothing }} \{s x -\inf_{\nu \in \hat{\varphi}^{-1}(x)}D_{KL}(\nu || \mu)\} \\ = \ & \sup_{\substack{x \in \mathbb{R}, \\ \hat{\varphi}^{-1}(x) \neq \varnothing }} \{s x -\Theta^*(x)\} \\ = \ & \sup_{x \in \mathbb{R}} \{s x -\Theta^*(x)\} \\ = \ & \Theta(s) \end{align}

が成り立ちます。ここで、$C_{b, \mathbb{R}}(S)$ を $S$ 上の実数値有界連続関数全体とすると、$D_{KL}(\nu || \mu)$ は $C_{b, \mathbb{R}}(S)$ 上の関数

$$\Lambda(f) = \log \int_S e^f d \mu$$

のルジャンドル変換で与えられるのでした。$\Xi$ の定義域を $C_{b, \mathbb{R}}(S)$ に制限すれば、$D_{KL}(\cdot|| \mu)$ のルジャンドル変換なので、$\Xi|_{C_{b, \mathbb{R}}(S)} = \Lambda$ が成り立ちます。もし

\begin{align} && \Xi|_{\{s \varphi \mid s \in \mathbb{R}\}} &= \Lambda \\ \Leftrightarrow && \Xi(s \varphi) &= \log \int_S e^{s \varphi} d \mu \quad (\forall s \in \mathbb{R}) \tag{*} \end{align}

が成り立つならば、$\Theta(s)$ は $\varphi_* \mu$ のキュムラント母関数

$$\log \int_{\mathbb{R}} e^{sx} d (\varphi_* \mu) (x) = \log \int_S e^{s \varphi} d \mu$$

に一致します。以下、式 $(*)$ が成り立つことを示します。

$\Xi(s\varphi) \leq \Lambda(s\varphi)$ であること

まず、任意の $\nu \in A_{\varphi}$ に対して

$$\widehat{s \varphi}(\nu) -D_{KL}(\nu || \mu) \leq \log \int_S e^{s \varphi} d \mu$$

が成り立つことを示します。$D_{KL}(\nu || \mu) = \infty$ ならば不等式は常に成り立つので、$D_{KL}(\nu || \mu) < \infty$ とします。このとき、$\nu \ll \mu$ となります。$\frac{d \nu}{d \mu} > \theta$ を満たす $\theta > 0$ が存在するとき、Jensen の不等式から

\begin{align} & \widehat{s \varphi}(\nu) -D_{KL}(\nu || \mu) \\ = \ & \int_S s \varphi d \nu -\int_S \log\left(\frac{d \nu}{d \mu}\right) d \nu \\ = \ & \int_S s \varphi -\log \left(\frac{d \nu}{d \mu} \right) d \nu \\ \leq \ & \log \int_S e^{s \varphi -\log \left(\frac{d \nu}{d \mu}\right)} d \nu \\ = \ & \log \int_S e^{s \varphi} \left(\frac{d \nu}{d \mu}\right)^{-1} d \nu \\ = \ & \log \int_S e^{s \varphi} \frac{d \mu}{d \nu} d \nu \\ = \ & \log \int_S e^{s \varphi} d \nu \\ \end{align}

となります。$\frac{d \nu}{d \mu} > \theta$ を満たす $\theta > 0$ が存在しないとき、

$$g^{\prime}_n(x) = \begin{cases} \frac{d\nu}{d\mu}(x) & (\frac{d\nu}{d\mu}(x) > \frac{1}{n}) \\ \frac{1}{n} & (\frac{d\nu}{d\mu}(x) \leq \frac{1}{n})\end{cases}$$

とおいて

$$g_n(x) = \frac{g^{\prime}_n(x)}{\int_S g^{\prime}_n d \mu}$$

とおき、$\nu_n \in \mathcal{P}(S)$ を

$$\nu_n(E) = \frac{\int_E g_n d\mu}{\int_S g_n d \mu} \quad (E \in \mathcal{B}_S)$$

と定めます。このとき、

$$D_{KL} (\nu_n || \mu) \to D_{KL} (\nu || \mu) \quad (n \to \infty)$$

が成り立ちます。また、定義から

\begin{align} \int_S |\varphi| d \nu_n &= \int_S |\varphi| g_n d \mu \\ &= \int_{\{g_n(x) > \frac{1}{n}\}} |\varphi| g_n d \mu + \int_{\{g_n(x) \leq \frac{1}{n}\}} |\varphi| g_n d \mu \\ &\leq \int_{\{g_n(x) > \frac{1}{n}\}} |\varphi| d \nu + \int_{\{g_n(x) \leq \frac{1}{n}\}} |\varphi| d \mu\\ &\leq \int_S |\varphi| d \nu + \int_S |\varphi| d \mu \\ & <\infty \end{align}

なので $\nu_n \in A_{\varphi}$ であり、さらに可測関数列 $\{\varphi g_n\}$ は可積分関数 $|\varphi g^{\prime}_n|$ により上から抑えられ、各点で $\varphi \frac{d \mu}{d \nu}$ に収束するので、ルベーグの収束定理から

$$\hat{\varphi}(\nu_n) \to \hat{\varphi}(\nu) \quad (n \to \infty)$$

が成り立ちます。よって

\begin{align} \widehat{s \varphi}(\nu) -D_{KL}(\nu || \mu) &= \lim_{n \to \infty} \widehat{s \varphi}(\nu_n) -D_{KL}(\nu_n || \mu) \\ &\leq \log \int_S e^{s \varphi} d\mu \end{align}

が成り立ちます。

$\Xi(s\varphi) \geq \Lambda(s\varphi)$ であること

次に、逆の不等式

$$\sup_{\nu \in A_{\varphi}}\{\widehat{s \varphi}(\nu) -D_{KL}(\nu || \mu)\} \geq \log \int_S e^{s\varphi} d \mu$$

が成り立つことを示します。$n \in \mathbb{N}$ に対して

$$\varphi_n(x) = \min\{\varphi(x), n\}$$

とおき、

\begin{align} a_{n} &= \int_S e^{s \varphi_n} d\mu, \\ a &= \int_S e^{s \varphi} d\mu \end{align}

とおきます。$\nu_n \in \mathcal{P}(S)$ を、$E \in \mathcal{B}_S$ に対して

\begin{align} \nu_n(E) &= \frac{\int_E e^{s \varphi_n} d\mu}{a_n} \end{align}

を満たすものとすると、

\begin{align} \hat{\varphi}(\nu_n) &= \int_S \varphi d\nu_n\\ &= \int_S \varphi \frac{e^{s \varphi_n}}{a_n} d\mu\\ &\leq \frac{e^{s n}}{a_n} \int_S \varphi d\mu \\ & < \infty \end{align}

なので $\nu_n \in A_{\varphi}$ です。このとき、任意の $s \in \mathbb{R}$ に対して

\begin{align} & \widehat{s\varphi}(\nu_n) -D_{KL}(\nu_n || \mu) \\ = \ & \int_S s \varphi \frac{e^{s \varphi_n}} {a_{n}} d \mu -\int_S \frac{e^{s \varphi_n}} {a_{n}} \log \left(\frac{e^{s \varphi_n}}{a_{n}} \right) d\mu \\ = \ & \frac{1}{a_{n}} \left(\int_S s \varphi e^{s \varphi_n} d\mu -\int_S s\varphi_n e^{s \varphi_n} d \mu +\log a_{n} \int_S \frac{e^{s \varphi_n}}{a_n} d \mu\right) \\ = \ & \frac{1}{a_{n, s}} \left(\int_S s \varphi e^{s \varphi_n} d\mu -\int_S s\varphi_n e^{s \varphi_n} d \mu \right) +\log a_{n} \end{align}

が成り立ちます。最右辺の第 1 項は非負であり、$\lim_{n \to \infty} a_{n} = a$ です。

$\int_S e^{s \varphi} d\mu = \infty$ の場合、

$$\lim_{n \to \infty} \log a_{n} = \infty$$

なので

$$\lim_{n \to \infty} (\widehat{s\varphi}(\nu_n) -D_{KL}(\nu_n || \mu)) = \infty$$

となり、不等式が成立します。

$\int_S e^{s \varphi} d\mu < \infty$ のとき、$n$ に関する極限をとると

\begin{align} & \lim_{n \to \infty} (\widehat{s\varphi}(\nu_n) -D_{KL}(\nu_n || \mu)) \\ \geq & \ \lim_{n \to \infty} \log \int_S e^{s \varphi_n} d\mu \\ = & \ \log \int_S e^{s \varphi} d\mu \end{align}

となります。ここで $\nu \in \mathcal{P}(S)$ を、

$$\nu = \frac{\int_E e^{s \varphi} d\mu}{a}$$

を満たすものとすると、$e^{s \varphi_n}$ は $n$ に関して単調増大なので

\begin{align} \lim_{n \to \infty} \widehat{s\varphi}(\nu_n) &= \lim_{n \to \infty} \int_S s \varphi d \nu_n \\ &= \lim_{n \to \infty} \frac{s}{a_n} \int_S \varphi e^{s \varphi_n} d \mu \\ &= \int_S \frac{s}{a} \varphi e^{s \varphi} d \mu \\ &= \int_S s \varphi d \nu \\ &= \widehat{s\varphi}(\nu) \end{align}

となります。$\varphi_n$ を ${\varphi_n}_+(x) = \max\{\varphi_n(x), 0\}$、${\varphi_n}_-(x) = -\min \{\varphi_n(x), 0\}$ により $\varphi_n = {\varphi_n}_+ -{\varphi_n}_-$ と分解すると、${\varphi_n}_+ e^{s \varphi_n}$ は $\{x \in S \mid \varphi(x) \geq 0\}$ で単調増大、${\varphi_n}_- e^{s \varphi_n}$ は $\{x \in S \mid \varphi(x) < 0\}$ で単調減少であり、

\begin{align} & \lim_{n \to \infty} D_{KL}(\nu_n || \mu) \\ = \ & \lim_{n \to \infty} \int_S \frac{e^{s \varphi_n}} {a_{n}} \log \left(\frac{e^{s \varphi_n}}{a_{n}} \right) d\mu \\ = \ & \lim_{n \to \infty} \frac{s}{a_n} \int_S \varphi_n e^{s \varphi_n} d\mu -\lim_{n\to \infty} \log {a_{n}} d\mu \\ = \ & \frac{s}{a} \lim_{n \to \infty} \int_S {\varphi_n}_+ e^{s \varphi_n} d\mu -\frac{s}{a}\lim_{n \to \infty} \int_S {\varphi_n}_- e^{s \varphi_n} d\mu -\log a \\ = \ & \frac{s}{a} \int_S {\varphi}_+ e^{s \varphi} d\mu -\frac{s}{a}\int_S {\varphi}_- e^{s \varphi} d\mu -\log a \\ = \ & \int_S s\varphi_+ d\nu -\int_S s\varphi_- d\nu -\log a \\ = \ & \int_S s\varphi d\nu -\log a \\ = \ & \int_S \log \left( \frac{e^{s \varphi}}{a} \right) d \nu \\ = \ & D_{KL}(\nu || \mu) \end{align}

となります。従って

$$\widehat{s \varphi}(\nu) -D_{KL}(\nu || \mu) \geq \log \int_S e^{s\varphi} d \mu$$

が成り立ち、特に

$$\sup_{\nu \in A_{\varphi}}\{\widehat{s \varphi}(\nu) -D_{KL}(\nu || \mu)\} \geq \log \int_S e^{s\varphi} d \mu$$

が成り立ちます。

以上で、

$$\Theta(s) = \log \int_S e^{s \varphi} d \mu$$

となることがわかりました。

ちなみに、$\int_S e^{s \varphi} d \mu < \infty$ かつ $\int_S \varphi e^{s\varphi} d\mu = y < \infty$ のとき、$\nu$ は

$$D_{KL}(\nu || \mu) = \inf_{\eta \in \hat{\varphi}^{-1}(y)} D_{KL}(\eta || \mu)$$

を満たします。実際、そうでないとし、$D_{KL}(\nu^{\prime} || \mu) < D_{KL}(\nu || \mu)$ かつ $\hat{\varphi}(\nu^{\prime}) = y$ を満たすものが存在するとすると、

$$s y -D_{KL}(\nu^{\prime} || \mu) > s y -D_{KL}(\nu || \mu) = \Theta(s)$$

となり、定義に反します。

クラメールの定理との関係

クラメールの定理との関係をみます。クラメールの定理をおさらいします。

定理. $\mathbb{R}$ 上のクラメールの定理

$\{Y_1, Y_2, \cdots\}$ を独立同分布 ($\mathbb{R}$ 値) 確率とし, その分布を $\eta$ とする. $\eta_n$ を確率変数 $1 / n(\sum_{i=1}^n X_i)$ の分布とし, $\eta$ のキュムラント母関数 $\widetilde{\Lambda}: \mathbb{R} \to \mathbb{R}$ を

$$\widetilde{\Lambda}(s) = \log \int_{\mathbb{R}} e^{sy} d \eta(y)$$

と定め, そのルジャンドル変換を

$$\widetilde{\Lambda}^*(y) = \sup_{s \in \mathbb{R}} \{sy -\widetilde{\Lambda}(s)\}$$

とおく. このとき, $\{\mu_n\}_{n=1}^{\infty}$ は $\widetilde{\Lambda}^*$ を rate function として大偏差原理を満たす. つまり,

  1. (下からの評価) 任意の開集合 $I \subset \mathbb{R}$ に対して
    $$-\inf_{y \in I}\widetilde{\Lambda}^*(y) \leq \liminf_{n \to \infty} \frac{1}{n} \log \eta_n(I)$$
  2. (上からの評価) 任意の閉集合 $J \subset \mathbb{R}$ に対して
    $$\limsup_{n \to \infty} \frac{1}{n} \log \eta_n(J) \leq -\inf_{y \in J}\widetilde{\Lambda}^*(y)$$

が成り立つ. また, 部分集合 $K \subset \mathbb{R}$ が $\overline{K^{\circ}} = \overline{K}$ を満たし, $\widetilde{\Lambda}^*(y) < \infty$ を満たす点 $y \in K^{\circ}$ が存在するとき,

$$\lim_{n \to \infty} \frac{1}{n} \log \eta_n(K) = -\inf_{y \in K} \widetilde{\Lambda}^*(y)$$

が成り立つ. $\Box$

クラメールの定理の証明は以下の記事に載せているので、気になる方はご参照ください。

1次元のクラメールの定理の証明

$\Theta^*$ のルジャンドル変換 $\Theta$ が $\varphi_* \mu$ のキュムラント母関数に一致するので、$\Theta$ のルジャンドル変換が $\Theta^*$ と一致すれば、クラメールの定理から拡張 sanov の定理が導かれます。そのためには、$\Theta^*$ が下半連続な凸関数であれば良いです。

$\Theta^*$ が下半連続な凸関数であること

$\Theta^*$ が下半連続な凸関数であることを確認しましょう。

すぐに確かめられる性質として、任意の $\nu \in \mathcal{P}(S)$ に対して $D_{KL}(\nu ||\mu) \geq 0$ であることと $\Theta^*$ 定義から、任意の $y \in \mathbb{R}$ に対して

$$\Theta^*(y) \geq 0$$

が成り立ちます。また、仮定から $\int_S \varphi d\mu < \infty$ であることと、$D_{KL}(\mu || \mu) = 0$ から、

$$\Theta^*(\hat{\varphi}(\mu)) = 0$$

が成り立ちます。

$\Theta^*$ の凸性

任意の $y_1, y_2 \in \mathbb{R}$ と任意の $0 \leq t \leq 1$ に対し

$$\Theta^*(t y_1 + (1 -t)y_2) \leq t \Theta^*(y_1) + (1 -t)\Theta^*(y_2)$$

を満たすことを示します。$\Theta^*(y_1) = \infty$ または $\Theta^*(y_2) = \infty$ ならば上記の不等式は常に成り立つので、$\Theta^*(y_1) < \infty$ かつ $\Theta^*(y_2) < \infty$ とします。定義から、任意の $\varepsilon > 0$ に対し $\nu_1 \in \hat{\varphi}^{-1}(y_1)$ と $\nu_2 \in \hat{\varphi}^{-1}(y_2)$ で、

\begin{align} D_{KL}(\nu_1 || \mu) & < \Theta^*(y_1) -\varepsilon, \\ D_{KL}(\nu_2 || \mu) & < \Theta^*(y_2) -\varepsilon \end{align}

を満たすものが存在します。$D_{KL}(\cdot || \mu)$ は凸なので

\begin{align} & \Theta^*(t y_1 + (1 -t)y_2) \\ \leq \ & D_{KL}(t \nu_1 + (1 -t)\nu_2|| \mu) \\ \leq \ & t D_{KL}(\nu_1 || \mu) + (1 -t) D_{KL}(\nu_2 || \mu) \\ < \ & t \Theta^*(y_1) + (1 -t)\Theta^*(y_2) -\varepsilon \end{align}

となります。$\varepsilon$ は任意なので、$\Theta^*$ が凸関数であることがわかります。

有界な範囲と非有界な範囲

$S$ 上の可測関数 $\varphi$ に対して

\begin{align} M_1 &= \inf_{x \in S} \varphi(x), \\ M_2 &= \sup_{x \in S} \varphi(x) \end{align}

とおきます。もし $M_1 > -\infty$ とすると、任意の $\nu \in \mathcal{P}(S)$ に対して

$$\hat{\varphi}(\nu) = \int_S \varphi d \nu \geq \int_S M_1 d \nu \geq M_1$$

なので、$y \in (-\infty, M_1)$ において $\Theta^*(y) = \infty$ となります。同様に $M_2 < \infty$ のとき、$y \in (M_2, \infty)$ において $\Theta^*(y) = \infty$ となります。

$\nu_1, \nu_2 \in S$ に対して $\hat{\varphi}(\nu_1) \leq \hat{\varphi}(\nu_2)$ を満たすとし、さらに $\Theta^*(\hat{\varphi}(\nu_1)) < \infty$, $\Theta^*(\hat{\varphi}(\nu_2)) < \infty$ を満たすとすると、$\Theta^*$ は凸関数なので、任意の $0 \leq t \leq 1$ に対して

\begin{align} & \Theta^*(t \hat{\varphi}(\nu_1) +(1 -t)\hat{\varphi}(\nu_2)) \\ \leq \ & t \Theta^*(\hat{\varphi}(\nu_1)) + (1 -t) \Theta^*(\hat{\varphi}(\nu_2)) \\ < \ & \infty \end{align}

となります。よって任意の $y \in (\hat{\varphi}(\nu_1), \hat{\varphi}(\nu_2))$ に対し $\Theta^*(y) < \infty$ となります。

特に、集合

$$\mathcal{D_*} = \{y \in \mathbb{R} \mid \Theta^*(y) < \infty\}$$

は、空集合または一点集合でなければ区間になります。

有界な範囲での連続性

$L$ が空集合または一点集合の場合は、$\Theta^*$ が下半連続であることは明らかです。また、開区間上の凸関数は連続なので、$L$ が区間のとき、$\Theta^*$ は任意の $y_0 \in L^{\circ}$ で連続です。

下半連続性

以上から、$\Theta^*$ が下半連続であることを示すには、$L$ の端点のみを調べれば良いです。$L$ は右に有界であるとし、$L$ の右端を $l_0$ とおきます。このとき、

$$\lim_{y \to l_0 -0} \Theta^*(x) > \Theta^*(l_0)$$

ならば $\Theta^*$ が凸であることに反するので、

$$\lim_{y \to l_0 -0} \Theta^*(x) \leq \Theta^*(l_0)$$

が成り立ちます。もし

$$\lim_{y \to l_0 -0} \Theta^*(x) \neq \Theta^*(l_0)$$

だとすると、

$$\lim_{y \to l_0 -0} \Theta^*(x) < \alpha < \Theta^*(l_0)$$

を満たす実数 $\alpha$ をとれば

$$L(\alpha) = \{y \in \mathbb{R} \mid \Theta^*(y) \leq \alpha \}$$

は区間 $[\hat{\varphi}(\mu), l_0)$ を含みますが、端点 $l_0$ を含まないので閉集合でなく、下半連続ではありません。よって $\Theta^*$ が下半連続ならば、$L$ の右端で左連続、つまり

$$\lim_{y \to l_0 -0} \Theta^*(x) = \Theta^*(l_0)$$

が成り立ちます。逆に $\Theta^*$ が $L$ の右端で左連続かつ $L$ の左端で右連続ならば、$L(\alpha)$ は常に端点を含むので、$\Theta^*$ は下半連続になります。

$\Theta^*$ の下半連続性を示すために、まず $L$ の右端で左連続性を示します。

$\varphi$ が上に有界でない場合

まず、$\varphi$ が $\mu$ に関して (本質的に) 上に有界でない場合、つまり

$$\mu(\{x \in \mathbb{R} \mid \varphi(x) > a\}) = 0$$

を満たす $a \in \mathbb{R}$ が存在しない場合を考えます。$n \in \mathbb{N}$ に対して

$$\alpha_n = \mu(\{x \in \mathbb{R} \mid \varphi(x) > n\})$$

とおき、

$$\nu_n = \frac{1}{\alpha_n} 1_{\{\varphi(x) > n\}} \mu$$

とおきます。このとき $\nu_n \in \mathcal{P}(S)$ であり、

$$\hat{\varphi}(\nu_n) = \int_{\{\varphi(x) > n\}} \frac{1}{\alpha_n} \varphi d \mu \geq n$$

かつ

$$D_{KL}(\nu_n || \mu) = \int_{\{\varphi(x) > n\}} -\frac{1}{\alpha_n} \log \alpha_n d \mu < \infty$$

なので、任意の $y \geq \hat{\varphi}(\mu)$ に対して $\Theta^*(y) < \infty$ であり、$L$ の右端は存在しません。

$\varphi$ が上に有界な場合

任意の可測関数 $\psi: S \to \mathbb{R}$ に対して、$\mu$ に関する本質的上限を

$${\mathrm{ess}\, \sup}_{\mu} \psi := \inf \{a \in \mathbb{R} \mid \mu(\{x \in \mathbb{R} \mid \psi(x) > a\}) = 0\}$$

と定め、${\mathrm{ess}\, \sup}_{\mu} \varphi = M$ とおきます。このとき、任意の $\nu \in \mathcal{P}(S)$ に対して

$$\hat{\varphi}(\nu) = \int_S \varphi d \nu \leq M \int_S d \nu = M$$

が成り立ちます。また、任意の $s \geq 0$ に対して

$$\Theta(s) = \int_S e^{s \varphi} d\mu < \int_S e^{s M} d\mu = e^{sM} < \infty$$

となります。ここで $\nu_s \in \mathcal{P}(S)$ を、$E \in \mathfrak{B}_S$ に対して

$$\nu_s(E) = \frac{\int_E e^{s\varphi} d\mu}{\int_S e^{s \varphi} d\mu}$$

を満たすものとします。

\begin{align} \int_S |\varphi| d \nu_s &= \int_S |\varphi| e^{s\varphi} d \mu \\ & = \int_S \varphi_+ e^{s\varphi} d \mu +\int_S \varphi_- e^{s\varphi} d \mu \\ & \leq e^{sM} \int_S \varphi_+ d \mu +\int_S \varphi_- d \mu \\ & < \infty \end{align}

なので、$\varphi$ は $\nu_s$ に関して可積分です。ここで、

$$s \int_S \varphi d \nu_s -D_{KL}(\nu_s || \mu) = \Theta(s)$$

が成り立つのでした。よって $D_{KL}(\nu_s || \mu) < \infty$ となります。

$$a_s = \int_S e^{s \varphi} d\mu$$

とおき、$\hat{\varphi}(\nu_s)$ の微分を計算すると、$x^2 e^{sx}$ が $x < 0$ で有界であることに注意して、

\begin{align} & \int_S \left|\frac{d}{ds} \varphi \frac{e^{s\varphi}}{a_s} \right| d \mu \\ = \ & \int_S \left|\varphi^2 \frac{e^{s\varphi}}{a_s} -\varphi e^{s\varphi} \frac{\int_S \varphi e^{s\varphi} d\mu}{a_s^2} \right|d \mu \\ \leq \ & \int_S \varphi^2 \frac{e^{s\varphi}}{a_s} + |\varphi| e^{s\varphi} \frac{|\int_S \varphi e^{s\varphi} d\mu|}{a_s^2} d\mu \\ \leq \ & \int_S \varphi^2 \frac{e^{s\varphi}}{a_s} d \mu + \int_S |\varphi| d\nu_s \left| \int_S \varphi d\nu_s \right| < \infty \end{align}

となるので、

\begin{align} \frac{d}{ds} \hat{\varphi}(\nu_s) &= \int_S \frac{d}{ds} \varphi \frac{e^{s \varphi}}{a_s} d\mu \\ &= \int_S \varphi^2 d \nu_s -\left(\int_S \varphi d \nu_s \right)^2 \\ &= \int_S \left(\varphi -\int_S \varphi d \nu_s \right)^2 d\nu_s \\ & > 0 \end{align}

となります。従って、$\hat{\varphi}(\nu_s)$ は $s$ に関して単調増加です。

$\delta > 0$ に対して

$$B_{\delta} = \{x \in S \mid \varphi(x) \geq M -\delta\}$$

とおきます。このとき、任意の $\delta > 0$ に対して $\mu(B_{\delta}) > 0$ であり、

\begin{align} & M -\int_S \varphi d \nu_s \\ = \ & \int_{S} (M -\varphi) d\nu_s \\ = \ & \int_{B_{2\delta}} (M -\varphi) d\nu_s +\int_{B_{2\delta}^c} (M -\varphi) d\nu_s \\ \leq \ & 2\delta \nu_s(B_{2\delta}^c) +\int_{B_{2\delta}^c} (M -\varphi) \frac{e^{s \varphi}}{\int_S e^{s \varphi} d\mu}d\mu\\ \leq \ & 2\delta \nu_s(B_{2\delta}^c) +\int_{B_{2\delta}^c} (M -\varphi) \frac{e^{s (M -2\delta)}}{e^{s (M -\delta)} \mu(B_{\delta})}d\mu\\ \leq \ & 2\delta\nu_s(B_{2\delta}^c) +\frac{e^{-s\delta}}{\mu(B_{\delta})}\int_S (M -\varphi) d\mu \\ \leq \ & 2\delta\nu_s(B_{2\delta}^c) +\frac{e^{-s\delta}}{\mu(B_{\delta})}(M -\hat{\varphi}(\mu)) \end{align}

となります。ここで、任意の $a > 0$ に対して

$$s \geq -\frac{1}{\delta} \log (a\mu(B_{\delta}))$$

であれば、

$$\frac{e^{-s \delta}}{\mu(B_{\delta})} \leq \frac{e^{\log (a\mu(B_{\delta}))}}{\mu(B_{\delta})} = a$$

となります。よって $a = \delta$ とおけば

\begin{align} M -\int_S \varphi d \nu_s &\leq 2\delta\nu_s(B_{2\delta}^c) +\delta(M -\hat{\varphi}(\mu)) \\ & \leq 2\delta +\delta(M -\hat{\varphi}(\mu)) \end{align}

となります。$M -\hat{\varphi}(\mu) > 0$ かつ $\delta \to 0$ で $s \to \infty$ なので、

$$\lim_{s \to \infty} \hat{\varphi}(\nu_s) \to M$$

となります。

$\mu(B_0) > 0$ の場合

まず、

$$\mu(B_0) = \mu(\{x \in S \mid \varphi(x) = M\}) > 0$$

である場合を考えます。このとき

$$\nu = \frac{1}{\mu(B_0)} 1_{B_0}$$

とおくと、

\begin{align} D_{KL}(\nu || \mu) &= \int_{B_0} \frac{1}{\mu(B_0)} \log \left(\frac{1}{\mu(B_0)} \right) d\mu \\ &= \frac{1}{\mu(B_0)} \\ &< \infty \end{align}

なので、$\Theta^*(M) < \infty$ です。任意の $\delta \geq 0$ に対して

$$e^{s(M -\delta)}\mu(B_{\delta}) \leq \int_S e^{s \varphi} d\mu \leq e^{sM}\mu(B_{\delta}) + e^{s(M -\delta)}\mu(B_{\delta} ^c) $$

なので、

$$ \frac{e^{s \varphi}} {e^{sM} \mu(B_{\delta}) + e^{s(M -\delta)} \mu(B_{\delta} ^c) } \leq \frac{e^{s \varphi}} {\int_S e^{s \varphi}d\mu} \leq \frac{e^{s \varphi}}{e^{s(M -\delta)}\mu(B_{\delta})} $$

が成り立ちます。よって $\varphi(x) = M$ ならば

$$\frac{1}{\mu(B_0) + e^{-s\delta}\mu(B_0^c)} \leq \frac{e^{s \varphi}} {\int_S e^{s \varphi}d\mu} \leq \frac{1}{\mu(B_0)} $$

であり、従って

$$\lim_{s \to \infty} \frac{e^{s \varphi}} {\int_S e^{s \varphi}d\mu} = \frac{1}{\mu(B_0)}$$

となります。$\varphi(x) < M$ ならば、

\begin{align} \frac{e^{s\varphi}}{\int_S e^{s \varphi}d\mu} &= \frac{e^{s \varphi}}{e^{s M} \mu(B_0)} \\ & \to 0 \quad (s \to \infty) \end{align}

となります。よってルベーグの収束定理から、

\begin{align} \lim_{s \to \infty} D_{KL}(\nu_s || \mu) &= \lim_{s \to \infty} \int_S \frac{e^{s \varphi}}{\int_S e^{s \varphi} d \mu} \log \left( \frac{e^{s \varphi}}{\int_S e^{s \varphi} d \mu} \right) d\mu \\ &= \int_{B_0} \frac{1}{\mu(B_0)} \log \left( \frac{1}{\mu(B_0)} \right) d\mu \\ &= \log \left( \frac{1}{\mu(B_0)} \right) \end{align}

となります。従って、

$$\lim_{x \to M -0} \Theta^*(x) = \Theta^*(M)$$

となります。

$\mu(B_0) = 0$ の場合

次に、

$$\mu(B_0) = \mu(\{x \in S \mid \varphi(x) = M\}) = 0$$

である場合を考えます。このとき、$\nu \in \mathcal{P}(S)$ が $\hat{\varphi}(\nu) = M$ を満たすならば、

$$\nu(\{x \in S \mid \varphi(x) = M\}) = 1$$

なので、$\nu$ は $\mu$ に対して絶対連続ではありません。よって $\Theta(M) = \infty$ です。従って、$\lim_{x \to M-0}\Theta^*(x) = \infty$ であることを示せば良いです。

ある実数 $\alpha > 0$ が存在して

$$\lim_{s \to \infty} D_{KL}(\nu_s || \mu) \leq \alpha$$

を満たすとすると、

$$L(\alpha) = \{\nu \in \mathcal{P}(S) \mid D_{KL}(\nu || \mu) \leq \alpha\}$$

はコンパクトなので、$\nu_s$ はある $\nu^{\prime} \in \mathcal{P}(S)$ に弱収束し、

$$D_{KL}(\nu^{\prime} || \mu) \leq \alpha$$

を満たします。

ここで、$m < M$ を満たす実数を一つ取り、

$$\varphi^{\prime}(x) = \max\{\varphi(x), m\}$$

とおくと、$\varphi^{\prime}$ は有界な Borel 関数です。$L(\alpha)$ 上で $\hat{\varphi^{\prime}}$ は連続なので (証明は別記事)、

\begin{align} M &= \lim_{s \to \infty} \hat{\varphi}(\nu_s) \\ &\leq \lim_{s \to \infty} \hat{\varphi^{\prime}}(\nu_s) \\ &= \hat{\varphi^{\prime}}(\nu^{\prime}) \\ &\leq M \end{align}

が成り立ちます。よって $\hat{\varphi^{\prime}}(\nu^{\prime}) = M$ であり、$\nu^{\prime}$ は

$$\nu^{\prime}(\{x \in S \mid \varphi(x) = M\}) = 1$$

を満たします。これは $D_{KL}(\nu^{\prime} || \mu) = \infty$ であることを意味し、$D_{KL}(\nu^{\prime} || \mu) \leq \alpha$ であることに矛盾します。よって

$$\lim_{y \to M-0}\Theta^*(y) = \lim_{s \to \infty} \hat{\varphi} (\nu_s) = \infty$$

が成り立ちます。

$\varphi$ が下に有界な場合

$\varphi$ が下に有界な場合は、$-\varphi$ に対して上に有界な場合と同様の議論を行えば良いです。

以上で、$\Theta^*(y)$ が下半連続であることがわかりました。

$\overline{K^{\circ}} = \overline{K}$ を満たす場合

最後に、部分集合 $K \subset \mathbb{R}$ で、$\overline{K^{\circ}} = \overline{K}$ を満たし、かつ $\hat{\varphi}(\nu) \in K^{\circ}$, $D_{KL}(\nu || \mu) < \infty$ を満たす $\nu \in \mathcal{P}(S)$ が存在するものに対して

$$\lim_{n \to \infty} \frac{1}{n} \log Q_N(\hat{\varphi}^{-1}(K)) = -\inf_{\nu \in K} D_{KL}(\nu || \mu)$$

が成り立つことを確認しましょう。

$y = \hat{\varphi}(\nu)$ とおくと、$y \in K^{\circ}$ かつ $\Theta^*(y) < \infty$ なので、クラメールの定理から

$$\lim_{n \to \infty} \frac{1}{n} \log m_N(K) = -\inf_{y \in K} \Theta^*(y)$$

が成り立ちますが、

\begin{align} m_N(K)= Q_N(\hat{\varphi}^{-1}(K)), \end{align}

\begin{align} \inf_{y \in K} \Theta^*(y) &= \inf_{y \in K} \inf_{\nu \in \hat{\varphi}^{-1}(y)} D_{KL}(\nu || \mu)\\ & = \inf_{\nu \in \hat{\varphi}^{-1}(K)} D_{KL}(\nu || \mu) \end{align}

なので、示したい等式が成り立ちます。

まとめ

sanov の定理の適用範囲を拡張し、それがクラメールの定理から導かれることを確認しました。sanov の定理の適用範囲を広げる試みは色々あるようで、例えば [AO] では弱位相より強い位相に対して sanov の定理が成り立つことを示しています。[WWW] では $\mathcal{P}(S)$ 上の wasserstein 計量による位相に関する大偏差原理が成り立つことを示しているようです。

それ以外のどのような位相について大偏差原理が成り立つのかわかりませんが、興味がある方は調べてみてください。

参考文献

[AO] Amir Dembo, Ofer Zeitouni. Large Deviations Techniques and Applications

[Y] 吉田伸生. ルベーグ積分入門

[WWW] Ran Wang, Xinyu Wang, Liming Wu. Sanov’s theorem in the Wasserstein distance: A necessary and sufficient condition