2025.02.22 DeepSeek-R1 (V3) のアーキテクチャの解説 この記事では DeepSeek-R1 および DeepSeek-V3 のアーキテクチャについて解説します。DeepSeek-R1 は DeepSeek-V3 の事前学習済みモデルに追加学習を施したものなので、アーキテク... 続きを読む
2023.06.29 KL ダイバージェンス最小化の意味を理解するための記事まとめ KL ダイバージェンス最小化の意味を説明することをテーマに、幾つか記事を書いてきました。これらの記事を書いた動機は、KL ダイバージェンスの最小化 (最尤推定) は統計的推論の最も基本的な手法であるにもかかわらず、手に... 続きを読む
2023.06.28 KL ダイバージェンス最小化(最尤推定)の確率論的な意味 統計的推論では多くの場合、最尤推定という方法が用いられます。それにもかかわらず、最尤推定の確率的な意味について書かれた教科書は多くありません。実は最尤推定を考案したフィッシャー自身、尤度について「"合理的な信念の尺度"... 続きを読む
2023.06.27 ネイマン・ピアソンの補題と仮説検定の漸近挙動 $S$ を集合とし、$S$ 上の $n$ 個のデータ $\{x_1, \dots, x_n\}$ が与えられたとします。このデータを生成した分布の候補が $2$ つあるとし、それぞれ $P$, $Q$ とおくこととしま... 続きを読む
2023.06.21 KL ダイバージェンスは τ-位相に関して good rate function である 可分完備距離空間 (ポーランド空間) $S$ 上の確率測度全体 $\mathcal{P}(S)$ の、弱位相に関する sanov の定理を以下の記事で示しました。 「sanov の定理の証明」 しかし弱位相... 続きを読む
2023.06.21 1次元のクラメールの定理の証明 クラメールの定理は以下の記事 「統計的仮説検定とクラメールの定理」 で証明していますが、この記事ではキュムラント母関数が任意の点で有限であることを仮定していました。本記事では、キュムラント母関数の値が $\... 続きを読む
2023.06.21 sanov の定理の拡張とクラメールの定理 以下の記事で sanov の定理を示しました。 「sanov の定理の証明」 しかし、sanov の定理が弱位相における開集合、閉集合にしか適用できないと、応用が制限されて不便です。本記事では、もっと一般の... 続きを読む
2023.03.24 sanov の定理の証明 sanov の定理は大偏差原理の一種であり、統計的推論におけるKLダイバージェンスの最小化 (= 尤度の最大化) の意味を理解するのに必須の定理です。本記事では sanov の定理を証明します。概ね [TC] に沿って... 続きを読む
2023.03.23 大偏差原理の基礎 (sanovの定理の証明の準備として) 本記事では sanov の定理の証明を行う準備として、大偏差原理の基礎をまとめます。本記事は [TC] の内容を大いに参考にしており、概ね [TC] に沿って述べていますが、一部補完、省略、順番の変更等しています。 ... 続きを読む
2023.03.23 ポーランド空間上の有限 Borel 測度全体の位相的性質 ポーランド空間 (可分完備距離空間) $S$ 上の符号付有限 Borel 測度全体 $\mathcal{M}_{\mathbb{R}}(S)$ には全変動ノルム $||\cdot||_{var}$ による位相と弱位相の... 続きを読む