| スポンサードリンク |
スチューデント化残差
スチューデント化残差(スチューデントかざんさ、studentized residual)とは、 統計学において、残差をその標準偏差の推定量で割って補正したものである。 スチューデント化は「外れ値」の検出にあたり重要な技法である。
「スチューデント化」の名称はウィリアム・ゴセットの筆名「スチューデント」にちなむ。
目次
|
誤差と残差
誤差と残差の違いを理解することは非常に重要である。簡単な線形回帰モデル
を考えよう。ここで「誤差」 εi, i = 1, ..., n は統計的に独立 ですべて同じ分散 σ2 をもつものとする。
残差は真でなく観測もできない誤差ではなく、観測可能なデータに基く誤差の推定値である。最小二乗法で α0 と α1 を推定したとき、(誤差と異なり)残差は、独立ではありえない。なぜなら二者は以下の拘束条件を満たすからである。
(ここで
は i 番目の誤差、
は i 番目の残差を表す。) さらに、誤差と異なり残差は、同じ分散を持たない。分散は対応する x-値が x-値の平均から遠ざかるにつれ増加する。 真の誤差の分散がすべて等しいにもかかわらず残差の分散が異なるという事実は、スチューデント化が必要な主要な理由である。
スチューデント化の手順
この簡単なモデルでは、計画行列 は
であり、「ハット行列」(hat matrix) H は計画行列の列空間へのen:直交射影である。
H = X(XTX) − 1XT.「てこ値」(てこち、leverage、レバレッジ)hii はハット行列の第 i 対角要素である。 i 番目の残差の分散は
対応する「スチューデント化残差」は
ここで
は適当な σ の推定量である。
内部スチューデント化と外部スチューデント化
σ2 の推定量は
ここで m はモデルの母数の個数 (この例では 2)である。 i 番のデータが「外れ値」かどうかを検討する時には、i番の観測を分散の推定には用いないことが望ましい。 結局、以下の推定量が用いられる。
ここで i番の観測を除くすべての観測に基く。後者の推定量を用いる場合、 i 番の観測は「除外された」ので、「外部スチューデント化残差」 (externally studentized residual)または「削除後スチューデント残差」 (deleted studentized residual) という。 前者を用いる場合、i 番の観測を「含んだ」ので、「内部スチューデント化残差」 (internally studentized residual) という。
誤差が独立で、期待値 0 で 分散 σ2 の 正規分布する場合、i 番の外部スチューデント化残差の確率分布は スチューデントのt分布となる。その自由度は n − m − 1 であり、値域は
to
である。
一方、内部スチューデント化残差の値域は
である。 ここで自由度は残差の自由度すなわち n − m である。"i.s.r" で内部スチューデント化残差を表し、 誤差は独立同一正規分布 (independent identically distributed Gaussian) 変数と仮定すると、
ここで t はt分布でその自由度は r.d.f. − 1 である。 実は、上式は i.s.r.2/r.d.f. がベータ分布に従うことを示す。 r.d.f. = 3 のとき、内部スチューデント化残差は
and
で一様分布する。
自由度が1しかない場合、内部スチューデント化残差を表す上式は適用できない。この場合、内部スチューデント化残差は +1 か -1 のどちらかにそれぞれ 50 パーセントの確率で分布する。
(内部スチューデント化残差分布の標準偏差は常に1であるが、ある実験の内部スチューデント残差の標準偏差がすべて1であることを意味しない。 訳者には意味不明。)
文献
英語版元記事に掲げられていたものである。
- Residuals and Influence in Regression, R. Dennis Cook, New York : Chapman and Hall, 1982.
内部リンク
- DFFITS
スチューデント化残差の書籍検索結果
|
|
