「リッジ回帰」という名前の由来について

David (2001, p.225)によると,"ridge regression"の初出であろう論文は Hoerl and Kennard (1970b)である.この論文はTechnometric,12巻1号のpp.69-82に掲載されている.しかし,同号のpp.55-67には,"Ridge Regression: Biased Estimation for Non orthogonal Problems"というタイトルの同じ著者による論文(Hoerl and Kennard 1970a)があるので,こちらのほうが先だろう.

Hoerl and Kennard (1970a,p.81)では,"ridge regression"の名前の由来を次のように述べている.

 

"A. E. Hoerl first suggeted in 1962 (Hoerl 1962; Hoerl and Kennard 1968) that to control the inflation and general instability associated with the least squares estimates, ...

 \widehat{{\bf \beta}}^{*} = \left[ {\bf X'X} + k{\bf I} \right] ^{-1} {\bf X'Y}; k \ge 0 \ \ \ \ (2.1)
\ \ \ \ \ ={\bf WX'Y} \ \ \ \ \ \ \ \ \ \ (2.2)

The family of estimates given by  k \ge 0 has many mathematical similarities with the portrayal of quadratic response functions (Hoerl 1964). For this reason, estimation and analysis build around (2.1) has been labeled "ridge regression"

 

つまり,2次式で表される応答曲面関数の特徴を捉える方法と数学的に似ているので,"ridge regression"と呼んだ,ということだ.この2次応答曲面モデルの特徴を捉える分析を,"ridge analysis"とHoerlは呼んでいた.

ちなみに,文献リストにはHoerlの1964年度の論文は記載されていないので,"(Hoerl 1964)"は"(Hoerl 1962)"の誤記ではないかと思う.このHoerl(1962)を私は入手しておらず,目を通していない.Hoerl and Kennard(1968)は,127回アメリカ統計協会の年会におけるSPESセッションでの論文発表要旨である.

 

では,"ridge analysis"とはどんな分析であろうか? "ridge analysis"は,2次応答曲面の実験で得られた結果を図示する分析である.中心点(原点)から半径 Rまでの距離という制約のもとでの応答変数(の予測値)の最大値をプロットすることにより,応答曲面の特徴を捉えようとする分析である.1985年にRoger.W. Hoerl(前述におけるArthur E. Hoerlと同姓であるが血縁関係にあるのかどうかは不明)によって書かれた論文(Hoerl 1985, p187)では次のように説明されている.

 

"Using the previus notation, consider fixing  x'x=R^2 and maximizing equation (2) [ この式(2)は,2次の応答曲面モデル Y=b_0 + b'x + (1/2)x'{\bf B}xである ] subject to this constraint. For any given  R, some maximum  Y(R) is defined ... ... Connecting the coodinates of the  Y(R) values for  0 \le R^2 \le C^2 [ここで C^2は,実験を行った因子 xの領域を示す半径] would display the coordinates of the maximum response attainable for any given distance from the origin. This is defined to be the maximum ridge, and traces the path of steepest ascent from the origin." 

 

同じような定義により,"minimum ridge"や"secondary ridge"を定義している.つまり,原点から半径 Rである座標(原点を中心とした半径Rの円周上)をテクテクと歩いたときに,局所的に最大値や最小値となっている地点をトレースしたものを"ridge"と呼んでいる.2次式であるので,このような地点は「山の棟」のようにはなっていないので,個人的にはいいネーミングとは思わないが,半径 Rの円周上では(局所的に)最大値(もしくは最小値)となっているので,"ridge"と呼んだのだろうと思う.

また,"steepest ascent"と述べているが,「偏微分が大きくなる」という意味ではなく,あくまで原点から半径 Rの距離において(局所的に)最大や最小となっている,という意味だろう.あまりいいネーミングじゃないと思う.


参考文献
David, H.A.(2001)
First (?) Occurrence of Common Terms in Probability and Statistics
David, H.A. and Edwards, A.W.F. (ed.), Annotated Readings in the History of Statistics, Springer, 208-246

Hoerl, A. E. (1962)
Application of Ridge Analysis to Regression Problems
Chemical Engineering Progress, 58, 54-59 ■未入手■

Hoerl, R. W.

Hoerl, A.E. and Kennard, R.W. (1968)
On Regression Analysis and Biaed Estimation
Technometrics, 10(2), 422-423

Hoerl, A. E. and Kennard, R. W. (1970a)
Ridge Regression: Biased Estimatin for Nonorthogonal Problems
Technometrics, 12(1), 55-67

Hoerl, A. E. and Kennard, R. W. (1970b)
Ridge Regression: Applications to Nonorthogonal Problems
Technometrics, 12(1), 69-82

 Hoerl, R. W. (1985)

Ridge Analysis 25 Years Later

The American Statistician, 39(3), 186-192