最小二乗法は誤差を正規分布と仮定した最尤推定である

       

統計的推定は、与えられたデータからその裏にある法則を見出すための手法です。しかし、与えられたデータのみでは推定を行うことはできず、必ずいくつかの仮説、仮定を必要とします。そして、いくつかの仮定をすれば、推定は具体的な手続きに落とし込まれます。

機械学習について勉強するとき、最小二乗法はおそらく最初に出会う推定方法でしょう。最小二乗法は誤差の二乗が最小になるものを選択するという手続きです。しかし残念ながら、それが統計的な推定を行う上でどのような意味があるのか、どのような仮定のもとにこの手続きに至ったのか、という説明は多くの場合されません。

一般に、推論の手続きだけを見て、どのような仮定をしたのかを逆算するのはとても難しいのです。なので、統計を勉強するときは推論の手続きだけでなく、どのような仮定のもとにその手続きを得られたのかを理解することが重要です。

本記事では、最小二乗法はなぜ二乗なのか、どのような仮定の元にその手続きに至ったのかを解説しようと思います。

回帰分析と3つの仮定

最小二乗法がよく使われるケースとして回帰分析があります。回帰分析というのは、例えば体重と身長のような、2種のデータ$x$, $y$ のペア $\{(x_1, y_1), \cdots, (x_n, y_n)\}$ が与えられたとき、$x$ と $y$ の関係を推定する手法です。推定のために、例えば以下のような仮定をします。

  1. $x$ と $y$ はおおよそ直線的 (例えば $y = ax + b + \varepsilon$ のよう)な関係性もつ。$\varepsilon$ は誤差を意味する。
  2. その誤差は正規分布に従って分布している。
  3. 最尤推定を用いればうまく推定できる。

ちなみに最小二乗法というのは、1. を仮定して、誤差の2乗 $\sum_{i = 0}^{n} (y_i – (ax_i +b))^2$ を最小とする $a$, $b$ を求め、それが $x$ と $y$ の関係を最も良く表しているとするのでした。誤差の2乗の最小化するという部分が2. 3.に置き換わっています。

上記の3つの仮定から最小二乗法が導かれることを説明します。

1.と2.から、$x$ と $y$ の関係は条件付き確率密度関数で表現できます。誤差 $\varepsilon$ が正規分布なので、以下のようになります。

$$ p(y | x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{{(y \ – (ax +b))^2}}{2\sigma^2}\right) $$

右辺は $ax + b$ を中心、$\sigma > 0$ を分散とする正規分布です。$a$, $b$ は未知のパラメーターです。

3.の最尤推定を用いて $a$, $b$ を決定することで、推定が完了します。最尤推定は、データ $\{(x_1, y_1), \cdots, (x_n, y_n)\}$ が得られる確率 (正確には確率ではありません。尤度と呼びます。) を最大にする $a$, $b$ を採用するという方法です。つまり、以下の値

$$ \prod_{i = 1}^{n} p(y_i | x_i) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{{(y_i \ – (ax_i +b))^2}}{2\sigma^2}\right)$$

を最大にする $a$, $b$ を決めるということです。右辺の対数を取ると (対数関数は単調増加関数なので、対数をとっても問題ありません。)

$$ -n \log(\sqrt{2\pi} \sigma) \ – \frac{\sum_{i = 0}^{n} (y_i – (ax_i +b))^2}{2\sigma^2}$$

となります。式を眺めると、尤度を最大化する$a$, $b$ は $\sigma$ の値によらず $\sum_{i = 0}^{n} (y_i – (ax_i +b))^2$ を最小化する$a$, $b$ と一致します。これで最小二乗法と誤差を正規分布とした最尤推定に一致することがわかりました。

補足とまとめ

回帰分析を例に、最小二乗法が3つの仮定の上に成り立っていることを説明しました。1番目の仮定は、例えば $x$ を $y$ の多項式と仮定することもできます。そうするとより複雑な関係性を推定できることがあります。2番目の仮定は、例えば外れ値が多い場合や、誤差が必ず0より大きいことがわかっている場合などは、正規分布よりも別の分布を選んだほうが良いことがあります。そうすると、誤差の2乗ではなく、別の評価をすることになります。

3つ目に出てきた最尤推定は、実は “尤度を最大化するパラメーターを選ぶ” という手続きに過ぎません。ですので、この記事の解説は、最小二乗法という手続きを最尤推定というより汎用的な手続きに置き換えた、ということになります。そしてそれによって、誤差が正規分布であるという仮定が浮き彫りになりました。

ここで注意したいのが、推定の手続きを行う際、この3つの仮定の妥当性には何も言及していない、ということです。$x$ と $y$ の関係が直線的である理由もなければ、誤差が正規分布に従っていると思える理由もなければ、最尤推定でうまく推論できる保証もありません。

恐ろしいことに、統計的推論は仮定の妥当性に関係なく手続きに落とし込むことができてしまいます。 もちろん、仮定が妥当でなければ推論結果の正しさも保証されません。そして、仮定の妥当性の判定は、おそらく統計学の範囲外であり、具体的な状況に基づいて判断するしかないように思います (別の仮定を置けば統計的に判断できる場合もありますが、その別の仮定の妥当性の検証にはまた別の仮定が必要です)。

改めて、この記事の解説の意義ですが、誤差の2乗を最小化するという見方よりも、誤差が正規分布であるという見方の方が、妥当性を考える上でより理解しやすいのです。先ほども述べましたが、外れ値が多い場合や誤差の出方に特徴がある場合、そして推論がうまくいかない場合、誤差の2乗を最小化するという見方ではその原因がわからないですが、誤差が正規分布と仮定してるという見方であれば、誤差が正規分布に従っていないからうまくいかないのだと判断することができます。

最後に、最尤推定とは何を仮定しているのかという疑問が残っています。最尤推定はほとんどの統計的推論で用いられる手法なので、それがどのような仮定のもとに得られた手続きなのか知ることは、統計的推論を理解する上で非常に重要なことです。これについては別の記事で解説しようと思います。