KL ダイバージェンスは τ-位相に関して good rate function である

可分完備距離空間 (ポーランド空間) $S$ 上の確率測度全体 $\mathcal{P}(S)$ の、弱位相に関する sanov の定理を以下の記事で示しました。

sanov の定理の証明

しかし弱位相は開集合が少なく、より広いクラスの集合に対して適用できた方が応用上便利です。以下の記事では、$S$ 上の可積分関数 $\varphi$ と $\mathbb{R}$ 上の開集合 $I$、閉集合 $J$ に対して $\hat{\varphi}^{-1}(I)$、$\hat{\varphi}^{-1}(F)$ が大偏差原理を満たすことを示しています。

sanov の定理の拡張とクラメールの定理

その過程で、任意の $\mu \in \mathcal{P}(S)$ と任意の $\alpha \in \mathbb{R}$ に対して

$$L_{\mu}(\alpha) = \{\nu \in \mathcal{P}(S) \mid D_{KL}(\nu || \mu) \leq \alpha\}$$

上の点列 $\{\nu_n\}_{n=1}^{\infty}$ が $\nu^{\prime}$ に弱収束するとき、部分列 $\{\nu_{n_k}\}_{k=1}^{\infty}$ が存在して $S$ 上の任意の有界 Borel 関数 $\psi$ に対して

$$\lim_{k \to \infty} \hat{\psi}(\nu_{n_k}) = \hat{\psi}(\nu^{\prime})$$

が成り立つことを用いました。本記事は、これを示すことを目的としています。目的とタイトルに少しギャップがありますが、それは後ほど述べることとします。

証明の途中で関数解析に関する事実を用いますが、それは記事の最後に補足します。

$\tau$-位相について

$\tau$-位相の定義

$S$ 上の実数値有界連続関数全体を $C_{b}(S)$、$S$ 上の実数値有界 Borel 関数全体を $B_b(S)$ とおきます。また、$S$ 上の符号付有限 Borel 測度全体を $\mathcal{M}(S)$ とおきます。

弱位相は $S$ 上の実数値有界連続関数 $f$ が定める半ノルム

$$p_{f}: \mathcal{M}(S) \ni \nu \to \left| \int_S f d \nu \right| \in \mathbb{R}$$

の族 $\{p_f\}_{f \in C_{b}(S)}$ により定まる局所凸位相でした。実数値有界連続関数を実数値有界 Borel 可測関数 $\psi$ に置き換えた、

$$p_{\psi}: \mathcal{M}(S) \ni \nu \to \left| \int_S \psi d \nu \right| \in \mathbb{R}$$

を考えます。半ノルムの族 $\{p_{\psi}\}_{\psi \in B_b(S)}$ の定める $\mathcal{M}(S)$ の局所凸位相を $\tau$-位相と呼びます。$\mathcal{P}(S) \subset \mathcal{M}(S)$ の相対位相も $\tau$-位相と呼びます。補題 A.1 から $\tau$-位相は全ての $\psi \in B_b(S)$ を連続にする最弱の位相と同値です。

$\tau$-位相と弱位相

$\tau$-位相の性質、特に弱位相との関係について簡単に述べます。

位相の強弱

$C_b(S) \subset B_b(S)$ なので、任意の $f \in C_b(S)$ に対して $p_f$ は連続です。よって弱位相に関する開集合、閉集合は $\tau$-位相に関しても開集合、閉集合です。

特に、$\mathcal{P}(S) \subset \mathcal{M}(S)$ は弱位相に関して閉集合なので、$\tau$-位相に関しても閉集合です。

一般に $\tau$-位相は弱位相よりも真に強く、$\mathcal{P}(S)$ は距離化可能でも可分でもない場合があるようです ([AO §6.2])。

ハウスドルフ性

$\mathcal{P}(S)$ は弱位相に関して距離空間なので、ハウスドルフです。任意の 2 点 $\nu_1, \nu_2 \in \mathcal{P}(S)$ に対して、弱位相に関する開集合 $U_1, U_2$ で $\nu_1 \in U_1$, $\nu_2 \in U_2$, $U_1 \cap U_2 = \varnothing$ を満たすものが存在し、$U_1, U_2$ は $\tau$-位相に関しても開集合なので、$\mathcal{P}(S)$ は $\tau$-位相に関してもハウスドルフです。

下半連続性

$f: \mathcal{M}(S) \to \mathbb{R} \cup \{-\infty, +\infty\}$ は弱位相に関して下半連続とします。このとき、任意の $\alpha \in \mathbb{R}$ に対して

$$\{\nu \in \mathcal{M}(S) \mid f(\nu) \leq \alpha\}$$

は弱位相に関して閉集合です。従って $\tau$-位相に関しても閉集合であり、$f$ は $\tau$-位相に関しても下半連続です。特に、$D_{KL}(\cdot || \mu)$ は $\tau$-位相に関して下半連続です。

コンパクト性

$K \subset \mathcal{M}(S)$ が $\tau$-位相でコンパクトであるとします。このとき、弱位相における開集合族 $\{U_\lambda\}_{\lambda \in \Lambda}$ により被覆されているとします。$U_\lambda$ は $\tau$-位相に関しても開集合なので、有限濃度の部分集合 $\Lambda^{\prime} \subset \Lambda$ が存在して、$K$ は $\{U_\lambda\}_{\lambda \in \Lambda^{\prime}}$ により被覆されます。よって $K$ は弱位相に関してもコンパクトです。

KL ダイバージェンスが $\tau$-位相で good rate function であること

まず、KL ダイバージェンスが $\tau$-位相で good rate function であることと、任意の $\alpha \in \mathbb{R}$ と任意の $\psi \in B_b(S)$ に対して $\hat{\psi}$ が

$$L_{\mu}(\alpha) = \{\nu \in \mathcal{P}(S) \mid D_{KL}(\nu || \mu) \leq \alpha\}$$

において連続であることがどう関係するのかを説明します。

$\mu \in \mathcal{P}(S)$ を一つ固定し、KL ダイバージェンス $D_{KL}(\cdot || \mu): \mathcal{P}(S) \to \mathbb{R}$ を考えます。good rate function であるには

  1. $D_{KL}(\cdot || \mu) \geq 0$ であること
  2. $L_{\mu}(\alpha)$ が任意の $\alpha \in \mathbb{R}$ に対してコンパクトであること

を満たせば良いです。$D_{KL}(\cdot || \mu) \geq 0$ であることは位相によらずに成り立ちます。よって非自明なのは $L_{\mu}(\alpha)$ がコンパクトであることのみです。

$L_{\mu}(\alpha)$ が $\tau$-位相で点列コンパクトであると仮定します。$L_{\mu}(\alpha)$ の点列 $\{\nu_n\}_{n=1}^{\infty}$ が $\nu$ に弱収束するとき、部分列 $\{\nu_{n_k}\}_{k=1}^{\infty}$ が存在して、$\tau$-位相に関して $\nu^{\prime} \in L_{\mu}(\alpha)$ に収束します。収束の定義から、$\nu^{\prime}$ の $\tau$-位相に関する任意の開近傍 $U$ に対してある $N > 0$ が存在して、$k > N$ ならば $\nu_{n_k} \in U$ となります。弱位相に関する開近傍についても同様なので、$\nu_{n_k}$ の弱収束先も $\nu^{\prime}$ となります。$\{\nu_n\}_{n=1}^{\infty}$ と $\{\nu_{n_k}\}_{k=1}^{\infty}$ の弱収束先は同じなので、$\nu = \nu^{\prime}$ となります。このとき、$\hat{\psi}$ は $\tau$-位相に関して連続なので、

$$\lim_{k \to \infty} \hat{\psi}(\nu_{n_k}) = \hat{\psi}(\nu)$$

が成り立ちます。よって、$\hat{\psi}$ の連続性を示すには、点列コンパクトであることを示せば十分です。

$\mathcal{P}(S)$ を $L^1(\mu)$ に埋め込み、Eberlein-Šmulian の定理を適用すればコンパクト性と点列コンパクト性が同値なので、点列コンパクト性を示せば good rate function であることが従います。

$\mathcal{M}(S)$ の $\tau$-位相と $L^1(\mu)$ の弱位相

部分集合 $K \subset \mathcal{M}(S)$ で、ある $\nu \in K$ が存在して任意の $\eta \in K$ は $\nu$ に絶対連続であるとします (例えば $L_{\mu}(\alpha)$ )。このとき、対応

$$F: K \ni \eta \mapsto \frac{d \eta}{d \nu} \ni L^1(\mu)$$

は単射です ( $L^1(\mu)$ の定義は別節 )。$K$ において、$\psi, \psi^{\prime} \in B_b(S)$ が $\mu$-a.e. で一致すれば (つまり $L^{\infty}(\mu)$ として一致すれば) 、$\hat{\psi} = \hat{\psi^{\prime}}$ となります。$L^1(\mu)$ の (Banach 空間としての) 双対空間が $L^{\infty}(\mu)$ であることに注意すると、$L^1(\mu)$ に $L^{\infty}(\mu)$-位相 (つまり弱位相。定義は別節) を入れれば、$K$ と $F(K)$ は同相になります。

従って $F(L_{\mu}(\alpha))$ が $L^1(\mu)$ の弱位相において点列コンパクトであることを示せば、$L_{\mu}(\alpha)$ がコンパクトであることがわかります。

$L_{\mu}(\alpha)$ の $\tau$-位相に関するコンパクト性

まず、以下の補題を証明します。

補題.

$\gamma: \mathbb{R} \to \mathbb{R}$ を凸な good rate function で,

$$\lim_{|x| \to \infty} \frac{\gamma(x)}{|x|} = \infty$$

を満たすとする. このとき, $I_{\gamma}: \mathcal{M}(S) \to \mathbb{R}$ を

\begin{align}I_{\gamma}(\nu) = \begin{cases} \int_S \gamma(\frac{d \nu}{d \mu}) d \mu & (\frac{d \nu}{d \mu} \textrm{ が存在する }) \\ \infty & (\textrm{ それ以外 }) \end{cases}\end{align}

と定めると, $I_{\gamma}$ は $\tau$-位相に関して good rate function である.

証明)$\gamma \geq 0$ なので、$I_{\gamma} \geq 0$ です。$\alpha \in \mathbb{R}$ を固定し、$\nu_1, \nu_2 \in \mathcal{M}(S)$ を $\nu_1 \neq \nu_2$ かつ、$I_{\gamma}(\nu_i) \leq \alpha$ を満たすものとします。このとき、任意の $0 \leq t \leq 1$ に対して、

$$\frac{d (t \nu_1 + (1 -t) \nu_2)}{d\mu} = t\frac{d \nu_1}{d \mu} + (1-t) \frac{d \nu_2}{d \mu}$$

なので、

\begin{align} & I_{\gamma}(t \nu_1 + (1 -t) \nu_2) \\ = \ & \int_S \gamma \left(t\frac{d \nu_1}{d \mu} + (1-t) \frac{d \nu_2}{d \mu} \right) d\mu \\ \leq \ & \int_S t\gamma \left( \frac{d \nu_1}{d \mu}\right) + (1-t) \gamma \left(\frac{d \nu_2}{d \mu} \right) d\mu \\ =\ & t\int_S \gamma \left( \frac{d \nu_1}{d \mu} \right)d\mu + (1-t) \int_S \gamma \left(\frac{d \nu_2}{d \mu} \right) d\mu \\ = \ & t I_{\gamma}(\nu_1) + (1 -t) I_{\gamma}(\nu_2) \end{align}

となり、$I_{\gamma}$ が凸関数であることがわかります。

従って、あとは

$$\widetilde{L}(\alpha) = \{\nu \in \mathcal{M}(S) \mid I_{\gamma}(\nu) \leq \alpha\}$$

がコンパクトであることを示せば良いです。対応 $F: \nu \mapsto \frac{d \nu}{d\mu}$ により、

\begin{align} \Psi(\alpha) &= F(\widetilde{L}(\alpha)) \\ &= \{f \in L^1(\mu) \mid \int_S \gamma(f) d \mu \leq \alpha\} \end{align}

が $L^{\infty}(\mu)$-位相に関してコンパクトであることを示せば良いです。まず、$\Psi(\alpha)$ が通常の位相で閉集合であることを示します。$f_n \in \Psi(\alpha)$ は $f \in L^1(\mu)$ に $L^1$ 収束するとします。このとき、$\{f_n\}_{n=1}^{\infty}$ の部分列 $\{f_{n_k}\}_{k=1}^{\infty}$ で、$f$ に $\mu$-a.e. で収束するものが存在します (証明は例えば [K 命題 5.7])。$\gamma$ の下半連続性から、

$$\liminf_{k \to \infty} \gamma(f_{n_k}(x)) \geq \gamma(f(x))$$

が $\mu$-a.e. で成り立ちます。さらに Fatou の補題から、

\begin{align} \alpha &\geq \liminf_{k \to \infty} \int_S \gamma(f_{n_k}) d \mu \\ & \geq \int_S \liminf_{k \to \infty} \gamma(f_{n_k}) d \mu \\ & \geq \int_S \gamma(f) d \mu \end{align}

となります。従って $f \in \Psi(\alpha)$ であり、$\Psi(\alpha)$ は閉集合です。

補題 C. 1 から $\Psi(\alpha)$ は一様可積分なので、定理 C. 3 から $\Psi(\alpha)$ は $L^{\infty}(\mu)$-位相に関して相対コンパクトです。定理 A. 2 から $\Psi(\alpha)$ は $L^{\infty}(\mu)$-位相に関して閉集合なので、$\Psi(\alpha)$ は $L^{\infty}(\mu)$-位相に関してコンパクトです。

以上で、$I_{\gamma}$ が $\tau$-位相に関して good rate function であることがわかりました。$\Box$

この補題を

$$\gamma(x) = \begin{cases} x \log x & (x \geq 0) \\ \infty & (x < 0)\end{cases}$$

に適用すると、

$$L(\alpha) = \widetilde{L}(\alpha) \cap \mathcal{P}(S)$$

となります。$\mathcal{P}(S)$ は $\tau$-位相で閉集合なので、$L(\alpha)$ はコンパクトになります。Eberlein-Šmulian の定理から、$L(\alpha)$ は点列コンパクトになります。

関数解析に関する補足

ベクトル空間の代数的双対と位相的双対

$\mathbb{R}$ 上のベクトル空間 $\mathcal{X}$ に対して、線形関数 $f: \mathcal{X} \to \mathbb{R}$ 全体の集合を $\mathcal{X}$ の代数的双対 (algebraic dual) と言い、$\mathcal{X}^{\prime}$ と表します。$\mathcal{X}^{\prime}$ は自然な和とスカラー倍でベクトル空間になります。$\mathcal{X}$ が位相ベクトル空間であるとき、連続な線形関数全体を位相的双対 (topological dual) と言い $\mathcal{X}^*$ と表します。

$\mathcal{H} \subset \mathcal{X}^{\prime}$ に対し、$\mathcal{H}$ の全ての元を連続にする $\mathcal{X}$ の最弱の位相を $\mathcal{H}$-位相と言います。$\mathcal{X}^*$-位相を弱位相と言います。

以下が成り立ちます。

補題. A.1. $\mathcal{H}$-位相は局所凸である

$\mathcal{X}$ を $\mathbb{R}$ 上のベクトル空間とし, $\mathcal{H} \subset \mathcal{X}^{\prime}$ とする. $f \in \mathcal{H}$ に対して

$$p_f(x) = |f(x)|$$

と定める. このとき $p_f$ は半ノルムであり, $\{p_f\}_{f \in \mathcal{H}}$ が定める局所凸位相は $\mathcal{H}$-位相と一致する.

証明)まず $p_f$ が半ノルムであることを確認します。任意の $x \in \mathcal{X}$ に対して

$$p_f(x) = |f(x)| \geq 0$$

は明らかです。$a \in \mathbb{R}$ に対して

$$|a f(x)| = |a| |f(x)|$$

なので、$p_f(ax) = |a| p_f(x)$ となります。$x, y \in \mathcal{X}$ に対して

$$|f(x + y)| = |f(x) + f(y)| \leq |f(x)| +|f(y)|$$

なので、$p_f(x +y) \leq p_f(x) + p_f(y)$となります。よって $p_f$ は半ノルムです。

絶対値をとる写像は連続なので、$p_f$ が $\mathcal{H}$-位相に関して連続であることは明らかです。よって $\{p_f\}_{f \in \mathcal{H}}$ を連続にする最弱の位相に対して $f \in \mathcal{H}$ が連続であることを示せば良いです。任意の開集合 $I \subset \mathbb{R}$ に対して $f^{-1}(I)$ が開集合であることを示せば良いですが、$I$ は開区間 $(\alpha -\delta, \alpha+\delta)$ で生成されるので、任意の $\alpha \in \mathbb{R}$、$\delta > 0$ に対して

\begin{align} W_{f, \alpha, \delta} &= \{x \in \mathcal{X} \mid \alpha -\delta < f(x) < \alpha +\delta\} \\ &= \{x \in \mathcal{X} \mid |f(x) -\alpha| < \delta\} \end{align}

が開集合であることを示せば良いです。任意の $f \in \mathcal{H}$ と任意の $x, y \in \mathcal{X}$ に対して

$$p_{f, y}: \mathcal{X} \ni x \to p_f(x -y) \in \mathbb{R}$$

は連続であり、$f \neq 0$ ならば $f(y) \neq 0$ を満たす $y$ が存在するので、$y_{f, \alpha} = \frac{\alpha}{f(y)}$ とおけば、

\begin{align} p_{f, y_{f, \alpha}}^{-1}((-\delta, \delta)) &= \{x \in \mathcal{X} \mid |f(x -y_{f, \alpha})| < \delta\} \\ &= \{x \in \mathcal{X} \mid |f(x) -\alpha| < \delta\} \\ &= W_{f, \alpha, \delta} \end{align}

となります。よって $W_{f, \alpha, \delta}$ は開集合です。$\Box$

定理. A.2

$\mathcal{X}$ を局所凸空間とする. 凸集合 $C \subset \mathcal{X}$ が (通常の位相で) 閉集合であることと, 弱位相で閉集合であることは同値である.

証明)弱位相で閉集合ならば通常の位相で閉集合であることは明らかなので、$C$ が通常の位相で閉集合であると仮定して、弱位相で閉集合であることを示します。そのためには、任意の $x_0 \notin C$ に対して弱位相での開集合 $U_w$ で、$x_0 \in U_w$ かつ $U_w \cap C = \varnothing$ を満たすものが存在することを確認すれば良いです。

$\{x_0\}$ はコンパクト、$C$ は閉集合なので、Hahn-Banach の分離定理から連続写像 $\lambda: \mathcal{X} \to \mathbb{R}$ と $s \in \mathbb{R}$ で、

$$\lambda(x_0) < s < \lambda(x), \quad (x \in C)$$

を満たすものが存在します。$U_w = \lambda^{-1}((-\infty, s))$ とおけば、$x_0 \in U_w$ かつ $U_w \cap C = \varnothing$ を満たします。$\Box$

Eberlein-Šmulian の定理

以下の定理により、Banach 空間の弱コンパクト性と弱点列コンパクト性が同値になります。

定理. B (Eberlein-Šmulian)

$\mathcal{X}$ を Banach 空間とする. 部分集合 $K \subset \mathcal{X}$ に対して, 弱位相に関してコンパクトであることと, 弱位相に関して相対コンパクトであることは同値である.

証明)[Kr §4] を見て下さい。$\Box$

$L^1(\mu)$ に関する補足

$(X, \mathfrak{M}, \mu)$ を測度空間とし、$\mu(X) < \infty$ であるとします。$X$ 上の実数値可測関数 $f$ に対して

\begin{align} & ||f||_1 = \int_X |f| d \mu, \\ &||f||_{\infty} = {\mathrm{ess} \, \sup}_{x \in X} |f(x)| \end{align}

とおきます。また、

\begin{align} & L^1(\mu) = \{f \mid f \textrm{ は } X \textrm{ 上の実数値可測関数}, ||f||_1 < \infty\}, \\ & L^{\infty}(\mu) = \{f \mid f \textrm{ は } X \textrm{ 上の実数値可測関数}, ||f||_{\infty} < \infty\} \end{align}

とおきます。ただし、$\mu$-a.e. で一致するものは同一視します。$L^i(\mu)$ $(i = 1, \infty)$ は $||\cdot||_i$ をノルムとして Banach 空間を成します (例えば [K 命題 5.9])。また、$\mu(X) < \infty$ なので、$L^1(\mu)^* = L^{\infty}(\mu)$ となります (例えば [K 定理 6.6])。

$K \subset L^1(\mu)$ は、任意の $\varepsilon > 0$ に対して定数 $c \geq 0$ が存在し、任意の $f \in K$ に対して

$$\int_S 1_{\{|f| > c\}} |f| d\mu < \varepsilon$$

が成り立つとき、一様可積分であると言います。

以下が成り立ちます。

補題. C. 1. 一様可積分の十分条件

$K \subset L^1(\mu)$ とする. 非負関数 $\Phi: \mathbb{R} \to \mathbb{R}$ で

$$\lim_{|t| \to \infty} \frac{\Phi(t)}{|t|} = \infty,$$

$$\sup_{f \in K} \int_S \Phi(f(x)) d\mu (x) < \infty$$

を満たすものが存在するとき, $K$ は一様可積分である.

証明)仮定から、任意の $M > 0$ に対して $c > 0$ が存在して、$|t| > c$ ならば $\frac{\Phi(t)}{|t|} > M$ が成り立ちます。このとき、任意の $f \in K$ に対して

\begin{align} \int_S 1_{\{|f| > c\}} |f| d\mu & < \int_{\{|f| > c\}} \frac{\Phi(f(x))}{M} d\mu \\ & \leq \frac{1}{M} \int_S \Phi(f(x))d\mu \end{align}

が成り立ちます。仮定から

$$\sup_{f \in K} \int_S \Phi(f(x)) d\mu (x) < M^{\prime}$$

を満たす $M^{\prime} > 0$ が存在するので、$M = \frac{M^{\prime}}{\varepsilon}$ とおけば、

\begin{align} \int_S 1_{\{|f| > c\}} |f| d\mu < \frac{\varepsilon}{M^{\prime}} M^{\prime} < \varepsilon \end{align}

となり、$K$ は一様可積分です。$\Box$

補題. C. 1 と少し条件が異なりますが、逆が成り立つことが知られています (De la Vallée Poussin on Uniform Integrability)。

補題. C. 2. 一様可積分 $\Rightarrow$ 有界

$K \subset L^1(\mu)$ は一様可積分であるとする. このとき, $K$ はノルムに関して有界である.

証明)$\varepsilon > 0$ と $c > 0$ で、任意の $f \in K$ に対して

$$\int_S 1_{\{|f| > c\}} |f| d\mu < \varepsilon$$

が成り立つものを取ります。このとき、

\begin{align} ||f||_1 &= \int_S |f| d\mu \\ &\leq \int_S 1_{\{|f| \leq c\}} c d\mu +\int_S 1_{\{|f| > c\}} |f| d\mu \\ &\leq c \mu(X) + \varepsilon \end{align}

となります。$\Box$

定理. C. 3. (Dunford-Pettis)

$K \subset L^1(\mu)$ が一様可積分であることと, 弱位相に関して相対コンパクトであることは同値である.

証明)[B §4] を見てください。$\Box$

まとめ

KL ダイバージェンスが $\tau$-位相で good rate function であること、そして任意の $\psi \in B_b(S)$ に対して $\hat{\psi}$ が $L(\alpha)$ で連続であることを示しました。冒頭にも述べましたが、これにより sanov の定理をより広い集合に対して適用できることを以下の記事で示しています。

sanov の定理の拡張とクラメールの定理

ちなみに、[AO] では $\tau$-位相に関する sanov の定理を示しており、KL ダイバージェンスが $\tau$-位相で good rate function であることはその主張の一部です。

参考文献

[AO] Amir Dembo, Ofer Zeitouni. Large Deviations Techniques and Applications

[B] Jordan Bell. The Dunford-Pettis theorem

[B2] Jordan Bell. The weak topology of locally convex spaces and the weak-* topology of their duals

[K] 小谷 眞一. 測度と確率

[Kr] Kristina Qarri. Eberlein-Šmulian theorem and some of its applications

[M] Mathpedia. 位相線形空間3:Hahn-Banachの定理とKrein-Milmanの端点定理

[数] 数学の景色. 一様可積分性とヴィタリの収束定理