統計学の問題設定は、基本的に次のようなものです。
- データ $x_1, x_2, \dots, x_d$ が与えられています。
- それらは $X$ ($=\mathbb{R}^n$ であることが多い) 上のデータであるとします。
- そして、それが $X$ 上の未知の確率分布 $q(x)$ に従っているとします。
このとき、$q(x)$ が何であるかを調べる、というのが目標です。しかし、この設定だけでは $q(x)$ の候補が多すぎて調べられません。そこで、候補となる確率分布を制限して、その中でデータにもっとも当てはまりの良いものを探します。確率分布の制限は、パラメータ空間 $W$ ($\subset \mathbb{R}^m$であることが多い) から $X$ の確率分布全体の空間 $\mathcal{P}(X)$ への写像 $\tau: W \to \mathcal{P}(X)$ によって与えられます。$\tau$ を確率モデルと呼びます。(詳しくは別の記事「機械学習と統計的推定の数学的な枠組みと違い」で解説しています。)
情報幾何学では、確率モデルにe接続、m接続という二つの「真っ直ぐ」の構造を入れ、それらを用いて統計的推論の幾何学的な解釈を得ます。e接続のeはexponentialのe、m接続のmはmixtureのmです。e接続における測地線をe測地線、m接続における測地線をm測地線と呼びます。
e接続はどちらかというとパラメータ空間 $W$ の「真っ直ぐ」を定めており、m接続は確率分布全体の空間 $\mathcal{P}(X)$ の「真っ直ぐ」を定めているように思っていました。そして、そうであればm接続の確率モデルによらない統一的な理解が可能であり、シンプルな理解ができるだろうと思っていました。しかし、正規分布族と離散分布族の場合ですら統一的な理解ができず、さらには、[長岡 $\S7$]の
基本的に多様体構造は混合型分布族から入れるべきで、指数型分布族は混合型の双対として現れると思われていた。しかし Pistone-Sempi は指数型分布族から P(Ω) に多様体構造が入る事を示した。
との記述を見つけました。そこでm接続の理解は諦め、それについて調べたことをまとめようという次第です。
目次
ルジャンドル変換と双対平坦構造
$\psi(\theta)$ を $\mathbb{R}^n$ 上の滑らかな関数で、ヘッセ行列 $H(\psi)_{ij}(\theta)=\frac{\partial^2}{\partial \theta_i \partial \theta_j}\psi(\theta)$ が各点で正定値であるものとします。この関数から
- 座標変換
- その座標での関数と逆変換
- リーマン計量
- 互いに双対なふたつの平坦接続
が構成されます。
座標変換と逆変換
まずは、$\theta$ に対して $\psi$ の傾き $\psi^{\prime}(\theta) = (\frac{\partial \psi}{\partial\theta_1} (\theta), \dots, \frac{\partial \psi}{\partial\theta_n} (\theta))$ を対応させる写像
$$L: \mathbb{R}^n \ni \theta \mapsto \psi^{\prime}(\theta) \in \mathbb{R}^n$$
を考えましょう。$L$ が1対1の滑らか写像で、逆写像も滑らかであれば座標変換とみなせます。粗く考えると、$\psi$ が凸関数であることから傾きが単調非減少なので概ね単射です。ちゃんと単射であるとこを示すと以下のようになります。
もし $\psi^{\prime}(\theta) = \psi^{\prime}(\theta^{\prime})$ を満たす $\theta, \theta^{\prime}$ が存在したとします。このとき、 $\psi^{\prime}((1 -t)\theta + t \theta^{\prime})$ と $\theta^{\prime} -\theta$ の内積
$$\psi^{\prime}((1 -t)\theta + t \theta^{\prime}) \cdot (\theta^{\prime} -\theta)$$
を $t$ の関数とみなして平均値の定理を用いると、ある $\hat{\theta} = (1-\hat{t}) \theta + \hat{t} \theta^{\prime}$ が存在して、
$$ \psi^{\prime}(\theta^{\prime}) \cdot (\theta^{\prime} -\theta) = \psi^{\prime}(\theta) \cdot (\theta^{\prime} -\theta) + (\theta^{\prime} -\theta) H(\psi) (\hat{\theta}) (\theta^{\prime} -\theta)$$
が成り立ちます。ここで、$\psi^{\prime}(\theta) = \psi^{\prime}(\theta^{\prime})$ から $(\theta^{\prime} -\theta) H(\psi) (\hat{\theta}) (\theta^{\prime} -\theta) = 0$ となりますが、これはヘッセ行列が正定値であることに反します。
次に $L$ の逆写像ですが、$L$ の微分 $L^{\prime}$ はヘッセ行列であり、任意の $\theta$ で逆行列が存在するので、逆写像定理から逆写像 $L^{-1}: \mathbb{R}^n \to \mathbb{R}^n$ が存在します。$\psi$ が滑らかなので $L$ も滑らかであり、逆写像定理から $L^{-1}$ も滑らかになります。
よって、$\theta \mapsto \psi^{\prime}(\theta)$ は座標変換とみなせます。これをルジャンドル変換と呼びます。
ちなみに、ヘッセ行列が正定値であることは一般には座標変換で保たれません。座標変換をアフィン変換に限定すれば、2回微分は変換による影響がないため、保たれます。
以下、$\eta = \psi^{\prime}(\theta)$ とおきます。ルジャンドル変換は逆変換を持ちますが、それは双対的な構造を持ちます。というのも、$\eta$ の座標系で、$\psi$ と同様の性質を満たす関数 $\phi$ が存在し、$\eta \mapsto \phi^{\prime}(\eta)$ が $\theta \mapsto \eta$ の逆変換となります。
$\phi$ は次のように定義されます。
$$ \phi(\eta) := \max_{\theta \in \mathbb{R}^n} \{ \theta \cdot \eta -\psi(\theta) \} $$
右辺の最大値を取る $\theta$ が一意であることは、次のようにしてわかります。$\eta$ を固定したとき、右辺の $\max$ の中身
$$\theta \cdot \eta -\psi(\theta)$$
の $\theta$ での微分が $0$ になるのは、$\psi^{\prime}(\theta) = \eta$ のときであり、$L$ が単射であるから、それを満たす $\theta$ はただ一つに定まります。ここで最大値を取ることは2階微分 $-\psi^{\prime\prime}(\theta)$ が負定値であることから従います。
$\phi$ の微分については、右辺の最大値をとる $\theta$ を $\bar{\theta}(\eta)$ とおき、両辺を $\eta$ で微分すると、
$$\phi^{\prime} (\eta) = \bar{\theta}(\eta) + \bar{\theta}^{\prime}(\eta) \eta -\bar{\theta}^{\prime}(\eta)\psi^{\prime}(\bar{\theta}) = \bar{\theta}(\eta)$$
となります ($\eta = \psi^{\prime}(\bar{\theta})$ を用いました)。従って、$\eta \mapsto \phi^{\prime} (\eta)$ は $\theta \mapsto \psi^{\prime}(\theta)$ の逆変換です。さらに、$\phi$ のヘッセ行列が $\psi$ のヘッセ行列の逆行列であることがわかり、それは正定値です。
リーマン計量と双対な接続
残りのリーマン計量と2つの接続も定義し、それらの関係性をみていきましょう。まず、接続 $\nabla^{\theta}$ を、$\theta$ の座標系でクリストッフェル記号が全て $0$ のものとしましょう。この接続は捩率、曲率ともに $0$ であり、測地線は$\theta$ 座標での普通の直線になります。$\nabla^{\eta}$ も同様に $\eta$ 座標で同様の条件を満たすものとします。リーマン計量は、$\theta$ 座標系で $H(\psi)(\theta)$ で定まるものとします。
ヘッセ行列を $g := H(\psi)$ とおきます。$g$ は二つの性質を満たします。ひとつ目は $\frac{\partial}{\partial \theta_i}$ と $\frac{\partial}{\partial \eta_h}$ の内積についてです。計算すると、
\begin{align} g \left(\frac{\partial}{\partial \theta_i}, \frac{\partial}{\partial \eta_j} \right) &= g \left(\frac{\partial}{\partial \theta_i}, \sum_{k} g^{-1}_{jk}\frac{\partial}{\partial \theta_k}\right) \\ &= \sum_{k} g^{-1}_{jk} g \left(\frac{\partial}{\partial \theta_i}, \frac{\partial}{\partial \theta_k}\right) \\ &= \sum_k g^{-1}_{jk} g_{ik} = \sum_k g^{-1}_{jk} g_{ki} \\ &= \delta_{ij} \end{align}
となり、双対的に直行しています。
もう一つは接続の双対性です。ベクトル場 $X, Y, Z$ に対し、以下の等式
$$Z g(X, Y) = g(\nabla^{\theta}_{Z} X, Y) + g(X, \nabla^{\eta}_{Z} Y)$$
が成り立ちます。これは $X$ を $\theta$ 座標系、$Y$ を $\eta$ 座標系で表示して普通に計算すればわかると思います。
ダイバージェンス
ルジャンドル変換が行える状況で、2点間のダイバージェンス(分離度)という量が次のように定義されます。点 $P, Q$ の $\theta$ 座標を $\theta_P, \theta_Q$ とし、$\eta$ 座標を $\eta_P, \eta_Q$ とします。このとき、$P$ から $Q$ へのダイバージェンスを
$$D(P || Q) := \psi(\theta_P) + \phi(\eta_Q) -\theta_P \cdot \eta_Q$$
と定義します。これのリーマン幾何学的な (リーマン計量と接続を用いた) 解釈はよく分かりません。$\nabla^{\theta}$ の定める測地線の長さとかだとスッキリするのですが。。。
指数型分布族
$x$ を確率変数とし、その確率分布が $\theta = (\theta_1, \dots, \theta_n)$、関数 $k_1(x), \dots, k_n(x), r(x)$ を用いて
$$p(x, \theta) = \exp\left\{ \sum_i \theta_i k_i(x) + r(x) -\psi(\theta) \right\}$$
と表されるものを指数型分布族と呼びます。正規分布、ディリクレ分布、ポアソン分布など、多くの分布が指数型分布族です。$x_i = k_i(x)$, $d\mu(x) = \exp\{r(x)\}dx$ とおくと、
$$p(x, \theta)dx = \exp\left\{ \theta \cdot x -\psi(\theta) \right\} d\mu(x)$$
という形で表されます。$p(x, \theta) dx$ が確率分布であることから、両辺を積分すると
$$\psi(\theta) = \log \int \exp(\theta \cdot x)d\mu(x)$$
となります。まずは、$\psi(\theta)$ のヘッセ行列が正定値であるのかを確認するため、2階微分を計算しましょう。$\psi(\theta)$ の1階微分は
\begin{align} \psi^{\prime}(\theta) &= \frac{\int x \exp(\theta \cdot x) d\mu(x)}{\int \exp(\theta \cdot x) d\mu(x)} \\ &= \exp(-\psi(\theta)) \int x \exp(\theta \cdot x) d\mu(x) \\ &= \int x \exp(\theta \cdot x -\psi(\theta)) d\mu(x) \\ &= \int x p(x, \theta) dx \end{align}
と、$x$ の期待値になります。もう一度微分をすると、
\begin{align} \psi^{\prime\prime}(\theta) &= \int x \cdot (x -\psi^{\prime}(\theta)) \exp(\theta \cdot x -\psi(\theta)) d\mu(x) \\ &= \int x \cdot (x -\psi^{\prime}(\theta)) \exp(\theta \cdot x -\psi(\theta)) d\mu(x) \\ & \qquad -\psi^{\prime}(\theta) \underbrace{\int (x -\psi^{\prime}(\theta)) \exp(\theta \cdot x -\psi(\theta)) d\mu(x)}_{=0} \\ &= \int (x -\psi^{\prime}(\theta)) \cdot (x -\psi^{\prime}(\theta)) p(x, \theta) dx \\ &= E\left[(x -\psi^{\prime}(\theta)) \cdot (x -\psi^{\prime}(\theta)) \right] \end{align}
となり、共分散行列と一致します。よってヘッセ行列は半正定値です。これが正定値であることは、その条件を調べるのが辛いので この記事では仮定します。
ルジャンドル変換を考えましょう。双対な関数は
$$\phi(\eta) = \max_{\theta} \{ \theta \eta -\psi(\theta)\} $$
で与えられますが、$\max$ をとるのは $\theta$ が $\eta = \psi^{\prime}(\theta)$ を満たすときなので、
\begin{align} \phi(\eta) &= \theta \psi^{\prime} (\theta) -\psi(\theta) \\ &= \theta \int x p(x, \theta) dx -\psi(\theta) \\ &= \int (\theta x -\psi(\theta)) p(x, \theta) dx \\ &= \int p(x, \theta) \log p(x, \theta) dx -\int p(x, \theta) r(x) dx \end{align}
となります。このとき、ダイバージェンスは
\begin{align} D(\bar{\theta}||\theta) &= \psi(\bar{\theta}) + \phi(\eta) -\bar{\theta} \eta \\ &= \int p(x, \theta) \log p(x, \theta) dx -\int p(x, \theta)r(x) dx + \psi(\bar{\theta}) -\bar{\theta} \int x p(x, \theta) dx \\ &= \int p(x, \theta) \log p(x, \theta) dx -\int p(x, \theta) (x\bar{\theta} + r(x) -\psi(\bar{\theta})) dx \\ &= \int p(x, \theta) \log p(x, \theta) dx -\int p(x, \theta) \log p(x, \bar{\theta}) dx \\ &= \int p(x, \theta) \log \frac{p(x, \theta)}{p(x, \bar{\theta)}} dx \end{align}
であり、Kullback–Leiblerダイバージェンスに一致します。
$\nabla^{\theta}$ の定める測地線は、$\theta$ 座標系では $\theta(t) = (1-t) \theta^a + t \theta^b$ と表されるので、
$$ p(x, t) = \exp \left\{ \sum_i \left( (1-t) \theta_i^{a} + t \theta_i^{b} \right) \delta_i(x) -\psi(t) \right\}$$
となります。この測地線をe測地線 (exponential geodesic) と呼びます。
$\nabla^{\eta}$ の定める測地線は、$\eta$ 座標系では $\eta(t) = (1-t) \eta^a + t \eta^b$ と表されます。後ほど確認しますが、離散分布の場合はこれは混合分布
$$p(x, t) = (1 -t) p^a + t p^b(t)$$
となります。この測地線を m測地線 (mixture geodesic) と呼びます。
離散分布族と正規分布族
離散分布と正規分布の場合に、m測地線の具体的な表示を求めてみましょう。
離散分布族の場合
離散分布は $x = 0, 1, \dots, n$ 上の分布として、
$$p(x) = \sum_{i = 0}^{n} p_i \delta_i(x)$$
と表されます。ここで、$p_0, \dots, p_n$ は $\sum p_i = 1$ を満たす正の実数であり、$\delta_i(x)$ は $x=i$ のときのみ $1$、それ以外は $0$ となる関数です。ここで、
\begin{align} \log p(x, \theta) &= \log(\sum_{i = 0}^{n} p_i \delta_i(x)) \\ &= \sum_{i=0}^n \log p_i \delta_i(x) \\ &= \sum_{i=1}^n \log p_i \delta_i(x) + \log p_0 -\sum_{i=1}^n \log p_0 \delta_i(x) \\ &= \sum_{i=1}^n \log \frac{p_i}{p_0} \delta_i(x) + \log p_0 \end{align}
です (ふたつ目の等式は各点で評価をすると正しいことが分かります) ので、$x_i = \delta_i(x)$、$\theta_i = \log \frac{p_i}{p_0}$ とおくと、離散分布は
$$p(x, \theta) = \exp \left\{\sum_{i=1}^{n} \theta_i x_i + \log p_0 \right\}$$
と指数型分布の形に表されます。$\psi$ は
$$\psi(\theta) = -\log p_0 = \log \frac{1}{p_0} = \log ( 1 + \sum \frac{p_i}{p_0} ) = \log (1 + \sum e^{\theta_i})$$
となります。これのヘッセ行列が正定値であることは省略します。めんどくさいので検証していません。
m測地線は期待値が線形に変化するので、
$$p(x, t) = (1-t) p_1(x) + t p_2(x)$$
となります。これだけ見ると、m測地線は確率分布の空間に自然に定まる凸性から誘導されるのではないかと感じます。一般の確率分布を離散分布の極限と捉えて、確率分布全体の空間の凸性からm測地線を定め、そこからe測地線を定めることも方法論としてはあり得そうです。しかし、次にみるように、正規分布族のm測地線はそのような性質は持ちません。
正規分布族の場合
正規分布は平均 $\mu$ と分散 $\sigma$ を用いて
$$p(x, \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma}} \exp \left\{ -\frac{(x-\mu)^2}{2\sigma^{2}} \right\}$$
と表されます。
\begin{align} \log p(x, \mu, \sigma) = -\frac{1}{2\sigma^2} x^2 + \frac{\mu}{\sigma^2} x -\frac{\mu^2}{2\sigma^2} -\frac{\log(2\pi \sigma)}{2} \end{align}
ですので、$x_1 = x$, $x_2 = x^2$, $\theta_1 = \frac{\mu}{\sigma^2}$, $\theta_2 = \frac{1}{2\sigma^2}$ とおくと、指数型分布族となります。ただし、ベースとなる測度は $d\mu(x) = \delta(x_2 -x_1^2)$ であるとします。
$\eta$ 座標系では $\eta_1$ は $x$ の期待値なので $\eta_1 = \mu$、$\eta_2$ は $x^2$の期待値なので $\eta_2 = \sigma^2 + \mu^2$ となります。
それでは、正規分布族の場合のm測地線は確率測度空間上でどのような意味を持つのでしょうか。正規分布の混合分布は正規分布にはならないので、離散分布のときとは異なります。
正規分布に従う確率変数の線形和は正規分布に従うので、$X_1$ を $p_1$ に、$X_2$ を $p_2$ に従う確率変数として、$(1-t) X_1 + tX_2$ を考えてみてはどうかと思いましたが、$\eta_2$ が $t^2$ に依存するので、m測地線にはなりません。
他に可能性はないかと色々調べていたところで、冒頭で述べた [長岡] の記述がありましたので、ここで断念しました。
参考文献
[長岡] 長岡 浩司. “情報幾何の基礎概念”
[甘利] 甘利 俊一. 情報幾何学の新展開 (SGCライブラリ)
ご支援のお願い
記事を読んで、「支援してもいいよ」と思っていただけましたら、ご支援いただけると幸いです。サーバー維持費などに充てさせていただきます。登録不要で、100円から寄付でき、金額の90%がクリエイターに届きます。