確率の合成と統計モデル【Giryモナド】

統計モデル (=確率モデル) ではしばしば、( $p(x)$ を省いて) 条件付き確率 $p(y | x)$ のみを考える事があります。また、統計モデルはいくつかの統計モデルを組み合わせて構成される事があります。これらは統計モデルを確率的写像 (stochastic map)とみなし、その合成を考えることで理解がすっきりするのではないかと思います。

本記事では、確率的写像とその合成について解説し、それを用いて典型的な統計モデルをいくつか再定義しようと思います。

測度論の知識を仮定しますので、測度論に慣れていない方は別の記事

【ルベーグ積分】測度論が難しいのは全体像を俯瞰しにくいからではないか?

をご参照ください。

確率的写像と合成

$X$ から $Y$ への確率的写像とは、ざっくりいうと $x \in X$ に対して $Y$ 上の確率測度 ( $\mu(Y) = 1$ を満たす測度) を対応させる写像のことです。$f$ を確率的写像、$U \subset Y$ を可測集合としたとき、任意の点 $x \in X$ に対して $0 \leq f(x)(U) \leq 1$ が定まりますが、これは $x$ が $f$ によって $U$ 内に写される確率を表していると解釈できます。

$X$ から $Y$ への確率的写像 $f$ と $Y$ から $Z$ への確率的写像 $g$ の合成は、$x \in X$ が $f$ と $g$ によって、( $Y$ のどの点を経由したかを除いて) 可測集合 $V \subset Z$ に写される確率を表して欲しいです。

ただし、この合成は素直には行えません。以下、合成を定義するための数学的な準備をしていきます。

可測空間上の確率測度全体の可測集合

いきなり複雑な見出しですが、確率的写像を $Y$ の確率測度全体への可測写像と定義したいので、$Y$ の確率測度全体の可測集合を定める必要があります。

可測空間 $(X, \mathfrak{M}_X)$ 上の確率測度全体の集合を $P(X)$ とおきます。また、区間 $[0, 1]$ と Borel $\sigma$-加法族 $\mathfrak{B}([0, 1])$ の組を $I = ([0, 1], \mathfrak{B}([0, 1]))$ とおきます。このとき、$E \in \mathfrak{M}_X$ に対して、$\mathrm{ev}_E : P(X) \to I$ を

$$\mathrm{ev}_E(\mu) = \mu(E)$$

で定義します。そして、$P(X)$ の $\sigma$-加法族 $\mathfrak{M}_{P(X)}$ を、任意の $E \in \mathfrak{M}_X$ に対して $\mathrm{ev}_E$ を可測とする最小の $\sigma$-加法族と定めます。つまり $P(X)$ の可測集合は $E \in \mathfrak{M}_X$ と区間 $J \subset I$ に対し

$$\mathrm{ev}_{E}^{-1}(J) = \{\mu \in P(X) \mid \mu(E) \in J\}$$

という形の集合の補集合及び加算和で表されます。

記号の濫用ですが、可測空間 $(X, \mathfrak{M}_X)$ を $X$ で表し、$(P(X), \mathfrak{M}_{P(X)})$ も $P(X)$ と表すこととします。

$P(X)$ からの可測写像及び $P(X)$ への可測写像の例をいくつか見てみましょう。

可測写像の例

可測写像 $\alpha: X \to Y$ に対して、像測度を対応させる写像を $P(\alpha)$ とおきます。つまり

\begin{align} (P(\alpha)(\mu))(E) &= \alpha_{*}\mu (E) \\ &= \mu(\alpha^{-1}(E)) \qquad (E \in \mathfrak{M}_Y) \end{align}

とおきます。このとき

$$P(\alpha): P(X) \to P(Y)$$

が可測写像であることを確認しましょう。

一般に任意の関数 $f$ に対して

\begin{align} f^{-1}\left(\bigcup_{\lambda \in \Lambda} A_{\lambda}\right) &= \bigcup_{\lambda \in \Lambda} f^{-1}(A_{\lambda}) \\ f^{-1}(A_1 \setminus A_2) &= f^{-1}(A_1) \setminus f^{-1}(A_2) \end{align}

が成り立つので、$\mathrm{ev}_{E}^{-1}(J)$ の形で表される集合の逆像が $X$ の可測集合であることを確認すれば十分です (さらに強く、$\mathrm{ev}_{E}^{-1}([0, r])$ の形の集合のみで十分です)。ここで

\begin{align} P(\alpha)^{-1}(\mathrm{ev}_{E}^{-1}(J)) &= \{\mu \in P(X) \mid (P(\alpha)(\mu))(E) \in J\} \\ &= \{\mu \in P(X) \mid \mu(\alpha^{-1}(E)) \in J\} \\ &= \mathrm{ev}_{\alpha^{-1}(E)}^{-1}(J) \end{align}

が成り立つので、$P(\alpha)$ は可測です。

もう一つの例として、

$$\delta_X: X \ni x \mapsto \delta_x \in P(X)$$

を考えましょう。ここで、$\delta_x$ は可測集合 $E \subset X$ に対し

\begin{equation} \delta_x(E) = \begin{cases} 1 & (x \in E) \\ 0 & (x \notin E) \end{cases} \end{equation}

で定まる確率測度 (ディラック測度) です。これが可測であることを確認しましょう。$J$ が $0$ と $1$ のどちらも含まなければ

$$\delta_X^{-1}(\mathrm{ev}_{E}^{-1}(J)) = \emptyset$$

なので、$J = \{0\}$ または $J = \{1\}$ の場合に確認すれば十分です。

\begin{align} \delta_X^{-1}(\mathrm{ev}_{E}^{-1}(\{1\})) &= E \\ \delta_X^{-1}(\mathrm{ev}_{E}^{-1}(\{0\})) &= X \setminus E \end{align}

なので、$\delta_X$ は可測写像です。

確率的写像について

定義. 確率的写像

$X$, $Y$ を可測空間とする. $X$ から $Y$ への確率的写像 $f$ とは, 可測写像 $f^{\natural}: X \to P(Y)$ のことである. これを $f: X \leadsto Y$ と書く. $\Box$

確率的写像は確率測度や (普通の意味での) 可測写像を含む概念です。それを確認しましょう。

一点集合 $\{*\}$ とその上の唯一の $\sigma$-加法族 $\{\emptyset, \{*\}\}$ の組で与えられる可測空間を (記号の濫用ですが) $*$ とおきます。確率的写像 $f: * \leadsto X$ は $X$ 上の確率測度 $f^{\natural}(*)$ のことです。

次に、写像 $\alpha: X \to Y$ を考えましょう。もし $\alpha$ が可測写像ならば、$\delta \circ \alpha$ は $X$ から $Y$ への確率的写像です。逆に、確率的写像 $f: X \leadsto Y$ が $\delta \circ \alpha$ と表せたとします。このとき、可測集合 $E \subset Y$ に対して

$$(\delta \circ \alpha)^{-1}(\mathrm{ev}_{E}^{-1}(\{1\})) = \alpha^{-1} (\delta^{-1}(\mathrm{ev}_{E}^{-1}(\{1\}))) = \alpha^{-1}(E)$$

は $X$ の可測集合なので $\alpha$ は可測になります。可測写像と $\delta$ の合成で得られる確率的写像を決定的写像 (deterministic map) といいます (この定義は [F] の定義と少し異なります)。

以上から、確率的写像は確率測度や可測写像を含む概念である事がわかります。

確率的写像の合成

$f: X \leadsto Y$ と $g: Y \leadsto Z$ を考えましょう。$PP(Z) = P^2(Z)$ と置き、以下の図式において

\[ \xymatrix{ & & P^2(Z) \ar@{.>}[d]^{b_Z} \\ & P(Y) \ar[ru]^{P(g^{\natural})} & P(Z) \\ X \ar[ru]^{f^{\natural}} & Y \ar[ru]^{g^{\natural}} & } \]

$b_Z: P^2(Z) \to P(Z)$ がうまく定められれば、$g \circ f :=b_z \circ P(g^{\natural}) \circ f^{\natural}$ と定めることができそうです。 $b_Z$ を

$$b_Z: P^2(Z) \ni \mathbb{P} \mapsto b_Z(\mathbb{P}) \in P(Z),$$

\begin{align} b_Z(\mathbb{P})(E) &= \int_{P(Z)} \mathrm{ev}_E(\mu) d \mathbb{P}(\mu) \\ &= \int_{P(Z)} \mu(E) d \mathbb{P}(\mu) \end{align}

と定義します。$b_Z$ が可測であることを確認しましょう。そのために、以下の命題を証明します。

命題 1 ([A] Lemma 2.5.)

可測写像 $\alpha: X \to [0, 1]$ に対し,

$$\int_X \alpha d(-): P(X) \ni \pi \mapsto \int_X \alpha d\pi \in I$$

は可測である.

(証明) $[0, r]$ の逆像

$$\{\pi \in P(X) \mid \int_X \alpha d \pi \leq r\}$$

が可測であることを示せばよい. $\alpha$ が可測集合 $A \subset X$ の定義関数 $1_A$ であるときは, $\int_X 1_A d(-) = \mathrm{ev}_A$ であり, 可測である. 可測関数の線形和は可測なので, $\alpha$ が単関数である場合も可測である. 単関数の非減少列 $\alpha_n$ で $\alpha$ に各点収束するものを選ぶと,

$$\{\pi \mid \int_X \alpha d \pi \leq r\} = \bigcap_{n = 1}^{\infty}\{\pi \mid \int_X \alpha_n d \pi \leq r\}$$

が成り立つので, $\int_X \alpha d(-)$ は可測である。$\Box$

この命題と $\mathrm{ev}_E$ が可測であることから、$\mathrm{ev}_E \circ b_Z = \int_{P(Z)} \mathrm{ev}_E d(-)$ は可測です。よって $J \subset I$ に対して

$$(\mathrm{ev}_E \circ b_Z)^{-1}(J) = b_Z^{-1}(\mathrm{ev}_E^{-1}(J))$$

は可測集合なので、$b_Z$ は可測です。

以上から、$g \circ f = b_z \circ P(g^{\natural}) \circ f^{\natural}$ が可測であることがわかりました。これは $x \in X$ と $E \subset Z$ に対して、$f^{\natural}(x) = \mu_x$ とおくと、

\begin{align} b_Z \circ P(g^{\natural}) \circ f^{\natural}(x)(E) &= b_Z(g^{\natural}_{*} \mu_x)(E) &\\ &= \int_{P(Z)} \mathrm{ev}_E(\eta) d (g^{\natural}_{*} \mu_x)(\eta) &\\ &= \int_Y \mathrm{ev}_E \circ g^{\natural} (y) d \mu_x(y) &(像測度の性質)\\ &= \int_Y g^{\natural}(y)(E) d \mu_x(y) &\\ \end{align}

となります。粗く言うと、条件付き密度関数 $p(y |x)$, $p(z|y)$ が与えられたとき、$\mu_x = p(y |x)dy$ とおいて

\begin{align} \int_Y \int_E p(z|y)dz d \mu_x &= \int_E \int_Y p(z|y) d\mu_x dy \\ &= \int_E \int_Y p(z|y) p(y|x) dy dz \end{align}

を計算していることになります。

合成の結合性

先ほどの定義が合成であるためには、面倒ですが、さらに $h \circ (g \circ f) = (h \circ g) \circ f$ が成り立つことを示す必要があります。

\[ \xymatrix{ &&& P^3(W) \ar@[blue][d]^{P(b_W)} \\ & & P^2(Z) \ar@[blue][ur]^{P^2(h^{\natural})} \ar@[green][d]_{b_Z} & P^2(W) \ar@[red][d]^{b_W} \\ & P(Y) \ar@[red][ur]^{P(g^{\natural})} & P(Z) \ar@[green][ur]^{P(h^{\natural})} & P(W) \\ X \ar@[red][ur]^{f^{\natural}} & Y \ar[ur]^{g^{\natural}} & Z \ar[ur]^{h^{\natural}} & W } \]

$h \circ (g \circ f)$ は $X$ から赤い経路、緑の経路を通って $P(W)$ に到達する合成で、$(h \circ g) \circ f$ は青の経路を通って $P(W)$ に到達する合成なので、右上の可換性を示せば十分です。一般に、可測写像 $\alpha: X \to Y$ に対して、以下の図式が可換であることを示せば十分です。

\[ \vcenter{ \xymatrix{ P^2(X) \ar[r]^{P^2(\alpha)} \ar[d]_{b_X} & P^2(Y) \ar[d]^{b_Y} \\ P(X) \ar[r]^{P(\alpha)} & P(Y) } \tag{*} } \]

$\mathbb{P} \in P^2(X)$, $E \in Y$ に対し、

\begin{align} (P(\alpha) \circ b_X (\mathbb{P}))(E) &= P(\alpha) \circ \left(\int_{P(X)} \mathrm{ev}_{(-)}(\mu) d\mathbb{P}(\mu)\right)(E) \\ &= \left(\int_{P(X)} \mathrm{ev}_{(-)}(\mu) d\mathbb{P}(\mu) \right)(\alpha^{-1}(E)) \\ &= \int_{P(X)} \mathrm{ev}_{\alpha^{-1}(E)}(\mu) d\mathbb{P}(\mu) \\ &= \int_{P(X)} \mu(\alpha^{-1}(E)) d\mathbb{P}(\mu) \end{align}

が成り立ちます。一方、

\begin{align} (b_Y \circ P^2(\alpha)(\mathbb{P})) (E) &= b_Y(P(\alpha)_* \mathbb{P})(E) \\ &= \int_{P(Y)} \mathrm{ev}_E(\mu) d (P(\alpha)_* \mathbb{P})(\mu) \\ &= \int_{P(X)} \mathrm{ev}_E (P(\alpha) (\mu)) d \mathbb{P}(\mu) \\ &= \int_{P(X)} \mathrm{ev}_E (\alpha_* \mu) d \mathbb{P}(\mu) \\ &= \int_{P(X)} \mu(\alpha^{-1}(E)) d \mathbb{P}(\mu) \end{align}

が成り立ちます。よって $b_Y \circ P^2(\alpha) = P(\alpha) \circ b_X$ が示されました。

最後に念の為 $h \circ (g \circ f) = (h \circ g) \circ f$ を確認しましょう。

\begin{align} h \circ (g \circ f) &= b_{W} \circ P(h^{\natural}) \circ (b_{Z} \circ P(g^{\natural}) \circ f) \\ &= b_{W} \circ P(b_{Z}) \circ P^2(h^{\natural}) \circ P(g^{\natural}) \circ f \\ &= b_{W} \circ P(b_{Z} \circ P(h^{\natural}) \circ g^{\natural}) \circ f \\ &= (h \circ g) \circ f. \end{align}

ここで、任意の可測写像 $\alpha, \beta$ に対して $P(\beta \circ \alpha) = P(\beta) \circ P(\alpha)$ を用いました (像測度の定義から明らか)。

Giryモナド

以上の結果を圏論的にまとめます。圏論を知らない方は読み飛ばして問題ありません。

可測空間を対象とし、可測写像を射とする圏を $\mathcal{Meas}$ とおきます。

$P: \mathcal{Meas} \to \mathcal{Meas}$ は明らかに $P(\beta \circ \alpha) = P(\beta) \circ P(\alpha)$, $P(\mathrm{id}_X) = \mathrm{id}_{P(X)}$ を満たすため、関手になります。

次に $\{\delta_X\}_{X \in \mathcal{Meas}}$ が自然変換 $\delta: \mathrm{id} \Rightarrow P$ を与えることを確認しましょう。そのためには以下の図式

\[ \xymatrix{ P(X) \ar[r]^{P(\alpha)} & P(Y) \\ X \ar[u]^{\delta_X} \ar[r]_\alpha & Y \ar[u]_{\delta_Y} } \]

が可換であれば良いです。

\begin{align} (P(\alpha) \circ \delta_X)(x) (E) &= (\alpha_* \delta_x)(E) \\ &= \delta_x(\alpha^{-1} E) \\ &= \begin{cases} 1 \quad (x \in \alpha^{-1} E) \\ 0 \quad (x \notin \alpha^{-1} E) \end{cases} \\ &= \begin{cases} 1 \quad (\alpha(x) \in E) \\ 0 \quad (\alpha(x) \notin E) \end{cases} \\ &= \delta_{\alpha(x)}(E) \\ &= (\delta_Y \circ \alpha)(x)(E) \end{align}

が成り立つので、$\delta$ は自然変換となります。

$\{b_X\}_{X \in \mathcal{Meas}}$ が自然変換 $b: P^2 \Rightarrow P$ を与えることは図式 $(*)$ の可換性からわかります。

このとき、組 $(P, \delta, b)$ はモナドになります。これを Giryモナド といいます。モナドであることを確認するには以下の2つの図式が各 $X \in \mathcal{Meas}$ で可換であることを確認すれば良いです。

\[ \xymatrix{ P(X) \ar[r]^{\delta_{P(X)}} & P^2(X) \ar[d]^{b_X} & P(X) \ar[l]_{P(\delta_X)} \\ & P(X) \ar@{=}[lu] \ar@{=}[ru] & } \]

\[ \xymatrix{ P^3(X) \ar[r]^{P(b_X)} \ar[d]^{b_{P(X)}} & P^2(X) \ar[d]^{b_X} \\ P^2(X) \ar[r]^{b_X} & P(X) } \]

まず上の図式が可換であることを確認しましょう。任意の $\mu \in P(X)$, $E \in X$ に対して

\begin{align} b_X (\delta_{P(X)}(\mu))(E) &= b_X(\delta_{\mu})(E) \\ &= \int_{P(X)} \mathrm{ev}_E d \delta_{\mu} \\ &= \mathrm{ev}_E(\mu) \\ &= \mu(E) \end{align}

が成り立ちます。一方

\begin{align} b_X (P(\delta_{X})(\mu))(E) &= \int_{P(X)} \mathrm{ev}_E d ((\delta_X)_* {\mu}) \\ &= \int_X \mathrm{ev}_E \circ \delta_X(x) d \mu(x) \\ &= \int_X \delta_x(E) d \mu(x) \\ &= \mu(E) \end{align}

が成り立つので、$b_X \circ P(\delta_{X}) = b_X \circ \delta_{P(X)}$ が成り立ちます。

次に下の図式が可換であることを確認しましょう。任意の $\mathfrak{P} \in P^3(X)$, $E \subset X$ に対して

\begin{align} (b_X \circ P(b_X))(\mathfrak{P})(E) &= b_X ({b_X}_* \mathfrak{P})(E) \\ &= \int_{P(X)} \mathrm{ev}_E d({b_X}_* \mathfrak{P}) \\ &= \int_{P^2(X)} \mathrm{ev}_E \circ b_X(\mathbb{P}) d \mathfrak{P}(\mathbb{P}) \\ &= \int_{P^2(X)} \int_{P(X)} \mathrm{ev}_E(\mu) d \mathbb{P}(\mu) d\mathfrak{P}(\mathbb{P}) \end{align}

が成り立ちます。一方

\begin{align} (b_X \circ b_{P(X)})(\mathfrak{P})(E) = \int_{P(X)} \mathrm{ev}_E \ d(b_{P(X)}(\mathfrak{P})) \\ \end{align}

ですが、一般に可測関数 $X: \to \mathbb{R}$ と $\mathbb{P} \in P^2(X)$ に対し

$$\int_X f \ d(b_X(\mathfrak{P})) = \int_{P(X)} \int_X f(x) \ d\mu(x) d\mathbb{P}(\mu)$$

が成り立ちます。実際 $f$ が定義関数 $1_{A}$ のとき、

\begin{align} \int_X 1_A \ d(b_X(\mathfrak{P})) &= b_X(\mathfrak{P})(A) \\ &= \int_{P(X)} \mathrm{ev}_A(\mu) d \mathfrak{P}(\mu) \\ &= \int_{P(X)} \mu(A) d \mathfrak{P}(\mu) \\ &= \int_{P(X)} \int_X 1_A d\mu d \mathfrak{P}(\mu) \end{align}

が成り立つので、任意の単関数について成り立ち、単関数の非減少列 $f_n$ で $f$ に各点収束するものをとれば、任意の $f$ で成り立つ事がわかります。よって

\begin{align} \int_{P(X)} \mathrm{ev}_E \ d(b_{P(X)}(\mathfrak{P})) &= \int_{P^2(X)} \int_{P(X)} \mathrm{ev}_E(\mu) d \mathbb{P}(\mu) d\mathfrak{P}(\mathbb{P}) \end{align}

となり、$b_X \circ b_{P(X)} = b_X \circ P(b_X)$ がわかりました。以上で $(P, \delta, b)$ がモナドである事がわかりました。

確率的写像は Giry モナドに付随するクライスリ圏の射です。

統計モデル

例として、直線回帰モデルと混合ガウスモデルを確率的写像で表します。

直線回帰モデル

$X = \mathbb{R}^n$, $Y = \mathbb{R}$ とおきます。まず、確率的写像 $g: Y \leadsto Y$ を、

$$p_y(y^{\prime}) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{(y^{\prime} -y)^2}{2\sigma^2}\right)$$

とおいて

$$g^{\natural}(y)(E) = \int_E p_y(y^{\prime}) dy^{\prime}$$

と定めます。ここで、$dy^{\prime}$ はルベーグ測度を表します。これを $g^{\natural}(y) = p_y(y^{\prime}) dy^{\prime}$ とも書きます。$f: X \leadsto Y$ が決定的写像であり、 $\bar{f}: X \to Y$ により $f^{\natural} = \delta_Y \circ \bar{f}$ と表せられるとすると、

\begin{align} g \circ f (x)(E) &= b_Y \circ P(g^{\natural}) \circ f^{\natural} (x)(E) & \\ &= b_Y \circ P(g^{\natural}) \circ \delta_Y \circ \bar{f} (x)(E) &\\ &= b_Y \circ \delta_{P(Y)}(g^{\natural} \circ \bar{f}(x))(E) & (P\circ \delta = \delta \circ P)\\ &= b_Y \circ (\delta_{g^{\natural} \circ \bar{f}(x)})(E) & \\ &= \int_{P(Y)} \mathrm{ev}_E d \delta_{g^{\natural} \circ \bar{f}(x)} & \\ &= g^{\natural}(\bar{f}(x))(E) &\\ &= \int_E p_{\bar{f}(x)}(y) dy \end{align}

となりますが、$w = (w_1, \dots, w_n, b) \in \mathbb{R}^{n+1}$ により

$$\bar{f}(x) = w_1 x_1 + \cdots + w_n x_n + b$$

と表されるとすれば、

$$g \circ f (x) = p_{\bar{f}(x)}(y) dy= \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{(y -(w_1 x_1 + \cdots + w_n x_n + b))^2}{2\sigma^2}\right) dy$$

となり、直線回帰モデルが得られます。

ここまでを整理すると、以下の図式のようになります。

\[ \xymatrix{ X \ar@{~>}[r]^{f} \ar[rd]_{\bar{f}} & Y \ar@{~>}[r]^{g} & Y \\ & Y \ar@{~>}[u]^{\delta_Y} & } \]

パラメータの取り替えが表現できていないので、それを考えましょう。パラメトライズされるのは確率的写像 $f: X \leadsto Y$ なので可測写像 $W \to Y^X$ を考えたいですが、$Y^X$ の存在を示すのが面倒なので、代わりに $W \times X \to Y$ を考えます。そして、可測写像 $\bar{f}^{\prime}: W \times X \to Y$ を

$$\bar{f}^{\prime}(w, x) = w_1 x_1 + \cdots + w_n x_n + b$$

とおきます。パラメータを選ぶということは決定的写像 $w: * \leadsto W$ を与えることと同値です。これと $\mathrm{id}_X: X \to X$ の直積を取ると以下の図式が得られます。

\[ \xymatrix{ * \ar[r]^{\bar{w}} & W &&\\ X \ar[rd]|{\bar{w} \times \mathrm{id}_X} \ar@{~>}[r]^{w \times \delta_X} & W \times X \ar@{~>}[r]^{f^{\prime}} \ar[rd]_{\bar{f}^{\prime}} & Y \ar@{~>}[r]^{g} & Y \\ & W \times X \ar@{~>}[u]|{\delta_{W\times X}} & Y \ar@{~>}[u]|{\delta_{Y}} } \]

$g \circ f^{\prime} \circ (w \times \delta_X)$ が直線回帰モデルを確率的写像で表現したものになります。

ちなみにパラメータを確率的写像 $\mu: * \leadsto W$ にし、

$$\mu(*) = p(w) dw$$

とおき、$p_{\bar{f}^{\prime}(w, x)}(y) = p(y | x, w)$ とおくと、

$$g \circ f^{\prime} \circ (\mu \times \delta_X) = \int_W p(y | x, w) p(w)dw$$

となり、ベイズ推定で用いられる計算と一致します。

混合ガウス分布

$X = \mathbb{R}^n$, $M = \mathbb{R}^{n}$ とし、$\Sigma$ を $n \times n$ の正定値対称行列の集合とします。さらに、$W = M \times \Sigma$ とおきます。このとき、$g: W \leadsto X$ を

$$g^{\natural}(m, \sigma)(x) = \frac{1}{\sqrt{2 \pi \det \sigma}} \exp \left(-\frac{(x -m)\sigma^{-1}(x-m)}{2} \right)dx$$

とおくと、$g$ は正規分布を与えます。

カテゴリー分布は $n$ 点集合 $[n] = \{1, \dots, n\}$ 上の確率測度なので、確率的写像 $\pi: * \leadsto [n]$ で与えられます。また、決定的写像 $f: [n] \leadsto W$ は $n$ 個の点 $w_1, \dots, w_n \in W$ により $f(i) = \delta_{w_i}$ で与えられます。

混合ガウス分布はこれらの合成 $g \circ f \circ \pi: * \to X$ で与えられることを確認しましょう。

\[ \xymatrix{ * \ar@{~>}[r]^{\pi} & [n] \ar@{~>}[r]^{f} & W \ar@{~>}[r]^{g} & X } \]

まず $f \circ \pi$ を計算すると、

\begin{align} f \circ \pi(E) &= \int_{P(Y)} \mathrm{ev}_E d(f^{\natural}_* \pi^{\natural}) \\ &= \int_{[n]} \mathrm{ev}_E \circ f^{\natural} d\pi^{\natural} \\ &= \sum_{i = 1}^n \pi_i \mathrm{ev}_E \circ f^{\natural}(i) \\ &= \sum_{i = 1}^n \pi_i \delta_{w_i} \end{align}

となります。ここで、$\pi_i = \pi^{\natural}(\{i\})$ とおきました。よって

$$g \circ f \circ \pi = \sum_{i = 1}^n \pi_i g(w_i)$$

となり、混合ガウス分布となります。

しかし、このままだとカテゴリー分布上の確率分布を与えることができません。そこで $[n]$ を

$$\Delta^n = P([n]) = \{(\pi_1, \dots, \pi_n) \in \mathbb{R}^n \mid \pi_1 + \cdots \pi_n = 1\}$$

に置き換え、$f: [n] \to W$ を $s: \Delta^n \leadsto W$,

$$s^{\natural}(\pi) = \sum_{i = 1}^n \pi \delta_{w_i}$$

に置き換えればカテゴリー分布上の確率分布を考える事ができます。

\[ \xymatrix{ * \ar@{~>}[r]^{\pi} & \Delta^n \ar@{~>}[r]^{s} & W \ar@{~>}[r]^{g} & X } \]

また、$\delta_{w_i}$ を $W$ 上の確率分布に置き換えることもできます。

まとめ

確率的写像を定義し、それを用いて直線回帰モデルと混合ガウス分布が表現できることを示しました。直線回帰モデルは条件付き確率のみを推定するモデルであり、それは確率的写像で表されます。混合ガウス分布はカテゴリ分布とガウス分布を組み合わせたものですが、それは確率的写像の合成で表されます。

しかし、記事を書く前に思っていたよりは綺麗に表現できませんでした。パラメータの部分とそれ以外の部分がもう少しうまく分離できると良いのですが。。。

また、確率的写像だけではパラメータの決定のプロセスを表現できていません。気が向いたらこの辺りを深掘りしようと思います。

参考文献

[P] Arthur Parzygnat. Categorical probability theory (Youtube Playlist)

[SGW] Dan Shiebler, Bruno Gavranovi´c, Paul Wilson. Category Theory in Machine Learning

[G] Michele Giri. A CATEGORICAL APPROACH TO PROBABILITY THEORY

[A] Tom Avery. Codensity and the Giry monad

[F] Tobias Fritz. A synthetic approach to Markov kernels, conditional independence and theorems on sufficient statistics