KL ダイバージェンス最小化の意味を理解するための記事まとめ

KL ダイバージェンス最小化の意味を説明することをテーマに、幾つか記事を書いてきました。これらの記事を書いた動機は、KL ダイバージェンスの最小化 (最尤推定) は統計的推論の最も基本的な手法であるにもかかわらず、手に取ったすべての統計の教科書において、KL ダイバージェンス最小化の意味が十分に説明されていなかったからです。それによって統計学そのものの理解を大きく妨げられてきたと感じています。これらの記事によってその障害がなくなることを期待しています。

本記事では多少のコメントを付けながら、これらの記事を位置付けしたいと思います。

本記事で紹介する記事達を書くのにかなりの労力がかかっています。この記事の内容が面白かった、役に立ったと思われた方は、水色のボタンから、ご支援いただけると嬉しいです。

統計的推論の基本原理を知る

まず初めに、以下の記事を読んでください。

この記事は最小二乗法が最尤推定の特別な場合であることを説明した記事ですが、後半の補足部分に統計的推論の基本原理ともいえる、最も根本的なことについて説明しています。

その次に以下の記事を読むと、KL ダイバージェンス最小化の意味を最短で理解できます。

一言でいえば KL ダイバージェンスの最小化は、真の分布を最もよくシミュレートする分布を選択することを意味します。その根拠となる sanov の定理、stein の補題を簡単に紹介しつつ、例を挙げて説明しています。ただし、この記事は数学的な正確性を欠く形で書いています。

論理的な正しさを追うだけなら stein の補題の証明のみを理解すれば十分ですが、それだけだと KL ダイバージェンスが現れる理由が理解できません。それを理解するには sanov の定理を知る必要があります。

stein の補題の証明を知る

KL ダイバージェンスの最小化の意味を理解する上で重要なトピックは、仮説検定と大偏差原理です。これらのトピックとその関係を、初歩的な形で説明しようと試みたのが以下の記事です。

この記事では、クラメールの定理を少し強い仮定のもと証明していますが、stein の補題を証明するには不十分でした。そのため、以下の記事でもっとゆるい仮定のもとクラメールの定理を示しました。

stein の補題の証明は以下の記事に記しています。

この記事ではネイマンピアソンの補題と stein の補題を証明しています。多くの資料では測度論を用いず、かつ絶対連続性を仮定して証明していましたが、この記事では測度論を用い、絶対連続性の仮定なしで証明しています。stein の補題は KL ダイバージェンス最小化の意味を理解する上で鍵となる定理なので、少し難しくしてでも適用範囲を広くしました。

測度論に関しては以下の記事を書いています。

ルベーグの収束定理とラドン・ニコディムの定理については全く触れていないので、この記事単体では積分論の解説としては不十分ですが、これを読んだ後にルベーグ積分の教科書を読むと理解が捗るように書いています。

sanov の定理の証明を知る

stein の補題は仮説検定の漸近挙動に関する定理であり、その本質は大偏差原理にあります。$S$ を可分完備距離空間としたとき、$S$ に値をとる独立同分布確率変数族に関する大偏差原理が成り立ち、その rate function が KL ダイバージェンスで与えられるというのが sanov の定理の主張です。

sanov の定理の証明を理解するには位相と関数解析の知識がそれなりに必要で、ハードルは高いです。$S$ が有限集合であれば証明はもっと簡単になり、丁寧に書いてある教科書も (英語であれば) 存在します。しかし、有限集合の場合のみの証明を知っても個人的に納得いかなかったので、$S$ が可分完備距離空間の場合の証明をまとめました。

基本的には以下の記事を参照していただければ十分だと思います。

この記事の冒頭に、必要な前提知識についてまとめた記事のリンクを貼っていますので、上から順に読んでいただければと思います。この記事では弱位相に関する sanov の定理を証明していますが、仮説検定との関係 (特に尤度比検定) との関係を考えるには弱位相では不十分でした。したがって、以下の記事でより一般の集合に対して sanov の定理が適用できることを示しました。

実はこの記事の内容も、sanov の定理から stein の定理を導くには少し不十分です (可積分性の仮定がいらない)。ただし、個人的にはそれでも納得がいったので、ここで一区切りとしました。